Компанія Meta оголосила про відкритий доступ до ImageBind, інструменту штучного інтелекту, який революціонізує спосіб прогнозування зв’язків між даними, нагадуючи людське сприйняття та уявлення про навколишнє середовище.

У той час як наявні генератори зображень, такі як Midjourney, Stable Diffusion і DALL-E 2, створюють візуальні сцени на основі текстових описів, ImageBind використовує більш комплексний підхід. Він може пов’язувати текст, зображення/відео, аудіо, 3D-вимірювання (глибина), дані про температуру (теплові) і дані про рух (з інерційних одиниць вимірювання) без необхідності тривалого попереднього навчання. Це прокладає шлях до створення складних середовищ з простих вхідних даних, таких як текстові підказки, зображення або аудіозаписи, а також, можливо, їх комбінації.

Meta відкрила доступ до ImageBind – генеративного ШІ, який може імітувати людське сприйняття

ImageBind є значним кроком на шляху до подолання розриву між машинним і людським навчанням. Перебуваючи у стимулюючому середовищі, наприклад, на жвавій міській вулиці, людський мозок поглинає сенсорний досвід, дозволяючи робити висновки про автомобілі, пішоходів, будівлі, погоду та інше, здебільшого на несвідомому рівні. Люди та тварини еволюціонували, щоб обробляти ці дані для виживання і репродуктивних переваг. Оскільки комп’ютери наближаються до здатності імітувати мультисенсорні зв’язки тварин, вони можуть використовувати ці зв’язки для створення повноцінних сцен на основі обмежених фрагментів даних.

У той час як наявні інструменти, такі як Midjourney, можуть генерувати відносно реалістичні зображення химерних сцен на основі текстових підказок, мультимодальні інструменти ШІ, такі як ImageBind, мають потенціал для створення відео з відповідними звуками, деталізованим оточенням, варіаціями температури та точним позиціюванням елементів в межах сцени.

Це відкриває можливості анімувати статичні зображення, поєднуючи їх зі звуковими підказками. Наприклад, зображення можна поєднати з будильником і кукуріканням півня, а за допомогою звукових підказок можна сегментувати та анімувати півня або звук будильника у відеоряді.

Окрім творчих застосувань, ImageBind відповідає основним амбіціям Meta у сфері віртуальної реальності (VR), змішаної реальності та метапростору. У майбутньому компанія передбачає створення гарнітур, здатних динамічно конструювати повністю реалізовані 3D-сцени зі звуком і рухом.

Розробники ігор також можуть отримати вигоду від цієї технології, спростивши процес проєктування. Творці контенту зможуть створювати відео з реалістичним звуковим супроводом і рухами, використовуючи лише текст, зображення або аудіо вхідні дані. Крім того, ImageBind має потенціал для покращення доступності, генеруючи мультимедійні описи в режимі реального часу, щоб допомогти людям з вадами зору чи слуху ефективніше сприймати навколишнє середовище.