Москва. 12 января. INTERFAX.RU - Японские ученые создали нейросеть, умеющую реконструировать изображения предметов на данных о мозговой активности людей, которые на них смотрят. Нейросеть успешно реконструирует буквы, геометрические фигуры, изображения животных и предметов, сообщает сайт N+1 со ссылкой на препринт, опубликованный на bioRxiv.
Ученые давно ищут возможность научиться "читать" мысли человека. Единственный реальный способ ее достижения — расшифровка паттернов активности головного мозга. Наиболее эффективный для этого метод - использование данных функциональной магнитно-резонансной томографии (фМРТ). Этот метод позволяет визуализировать мозговую активность с наибольшим пространственным разрешением, то есть локализовать ее с максимальной точностью. Еще в 2016 году ученые смогли воссоздать изображение лица из воспоминаний человека, реконструировав его благодаря совмещению активности, связанной с определенными чертами.
Все существующие подходы, однако, имеют ряд ограничений: к примеру, реконструирующая нейросеть может быть ограничена обучающей выборкой, то есть воссоздавать только отдельный ряд изображений, об особенностях которых ей известно. Кроме того, полученные изображения очень часто напоминают исходные только отчасти. Разработчики из Киотского университета под руководством Юкиасу Камитани представили новый алгоритм такой реконструкции — нейросеть, работающую благодаря методам глубокого обучения.
Нейросеть работает с помощью декодера паттернов изображения в мозговой активности. Она была обучена на парах "изображение-активность", полученных в ходе эксперимента, участников которого просили рассмотреть 1200 изображений (каждое изображение было просмотрено каждым из трех участников по пять раз). Алгоритм реконструкции, таким образом, работает благодаря попиксельному изменению случайного изображения таким образом, чтобы элементы изначального изображения совпадали с его же элементами, извлеченными из мозговой активности.
Кроме этого, разработчики также ввели в систему дополнительную нейросеть (DGN или deep generative network — глубокая генеративная нейросеть). Она позволяет сделать свойства полученного из мозговой активности изображения максимально похожими на свойства изначального изображения (например, цвет предмета).
В итоге нейросеть воссоздала изображения геометрических фигур, букв и даже целых предметов. Несмотря на то, что изображения предметов получились абстрактными, работа нейросети, по оценкам системы попиксельной корреляции исходного и полученного изображений, оказалась на 79,7 процента эффективна без дополнительной DGN и на 76,1 — с ее использованием. Человеческая оценка оказалась еще выше: люди правильно угадывали воссозданные изображения (а точнее — определяли пары исходного и полученного изображения) в 99,1 проценте случаев с DGN и в 96,5 — без нее (что означает, что применение дополнительной нейросети имеет смысл для улучшения восприятия людьми).
Работа над улучшением нейросети будет продолжена: визуально лучшие результаты она показала при реконструировании простых форм и цифр, но не реальных объектов.
В прошлом году ученые впервые изучили мозговую активность человека при наблюдении за трехмерными образами: для этого участников фМРТ-эксперимента клали в сканер в 3D-очках.