Останнім часом часто обговорюються генератори зображень на основі штучного інтелекту, проте дослідники Meta вже йдуть далі, та публічно представили новий генератор, який перетворює текст на відео, повідомляє The Verge.

Команда інженерів з машинного навчання  Meta представила нову систему під назвою Make-A-Video. Ця модель штучного інтелекту дозволяє користувачам вводити приблизний опис сцени, і вона генерує коротке відео, що відповідає їхньому тексту. Відеоролики явно штучні, з розмитими об’єктами та спотвореною анімацією, але все ж є значним досягненням в області генерації контенту штучного інтелекту.

У своєму пості на Facebook гендиректор Meta Марк Цукерберг описав цю роботу як «дивовижний прогрес», додавши:

«Створювати відео набагато складніше, ніж фотографії, тому що крім правильної генерації кожного пікселя, система також повинна передбачити, як вони будуть змінюватися з часом».

Кліпи тривають не більше п’яти секунд і не містять звуку, але охоплюють величезний спектр підказок. Хоча зрозуміло, що відео згенеровані комп’ютером, якість таких моделей штучного інтелекту швидко покращиться в найближчому майбутньому. Лише за кілька років генератори зображень штучного інтелекту пройшли шлях від створення майже незрозумілих картинок до фотореалістичного контенту. І хоча прогрес у відео може бути повільнішим, зважаючи на майже безмежну складність предметної області, нагорода за безшовну генерацію відео буде мотивувати багато організацій і компаній вкладати значні ресурси в цей проєкт.

У блозі Meta, присвяченому оголошенню Make-a-Video, компанія зазначає, що інструменти для створення відео можуть бути неоціненними «для творців і художників». Але тут є і тривожні перспективи: результати роботи цих інструментів можуть бути використані для дезінформації, пропаганди та — що більш ймовірно, для створення порнографії без згоди.

Meta заявляє, що хоче бути «вдумливою щодо того, як ми будуємо нові генеративні системи штучного інтелекту, подібні до цієї», і в цей час лише публікує статтю про модель Make-A-Video. Компанія заявляє, що планує випустити демонстраційну версію системи, але не повідомляє, коли і як це буде реалізовано.

У документі-описі моделі, дослідники Meta зазначають, що Make-A-Video тренується на парах зображень і підписів, а також на немаркованих відеоматеріалах. Навчальний контент був отриманий з двох наборів даних, WebVid-10M і HD-VILA-100M, які разом містять мільйони відеороликів та охоплюють сотні тисяч годин відеозаписів. До слова, сюди входять стокові відеоматеріали, створені такими сайтами, як Shutterstock, та вилучені з Інтернету.

Дослідники зазначають, що модель має багато технічних обмежень, окрім розмитих кадрів і розрізненої анімації. Наразі Make-A-Video виводить 16 кадрів відео з роздільною здатністю 64х64 пікселі, які потім збільшуються в розмірі за допомогою окремої моделі штучного інтелекту до 768х768 пікселів.