Дослідникам вдалося створити дифузійну модель нейромережі, яка здатна декодувати мозкову активність людини (фМРТ) та відтворити те, що вона бачить. Дифузійні моделі зараз є найпопулярнішим методом генерації зображень штучним інтелектом та використовуються в основі таких популярних сервісів, як DALL-E та Midjourney.

Як зазначають дослідники, декодування візуальних стимулів із записів мозку має на меті поглибити наше розуміння зорової системи людини та побудувати міцний фундамент для з’єднання людського зору і комп’ютерного зору через інтерфейс «мозок-комп’ютер». Однак, через дефіцит анотацій до даних і складність базової інформації про мозок, декодування зображень з перевіреними деталями та значущою семантикою є складним завданням.

Нейромережа за мозковою активністю змогла декодувати те, що бачить людина

Використавши самоконтрольоване машинне навчання, тобто самостійне навчання нейромережі на однакових даних мозкової активності для різних людей, автори дослідження додали попередньо навчену латентну дифузійну модель перетворення даних фМРТ на зображення та модель-трансформер (cross-attention) на ці уявні репрезентації. Після короткого налаштування на 1,5 тис. пар зображення-фМРТ, модель змогла декодувати те, що бачить перед собою людина.

Дані навчання нейромережі та код дослідники вже виклали у відкритий доступ, в той час, як ваги моделей вони надають за запитом.