У понеділок користувач Reddit під ніком chaindrop поділився 19-секундним відео на субредіті r/StableDiffusion. Відео, створене за допомогою штучного інтелекту, швидко набуло популярності на різних платформах соціальних мереж і викликало неоднозначну реакцію, пише ArsTechnica.

Відео складається з 10 двосекундних сегментів, які були незалежно згенеровані штучним інтелектом, а потім зшиті разом. Кожен сегмент показує різні ракурси змодельованого Вілла Сміта, який жадібно поглинає спагеті, іноді в одному кадрі можна побачити навіть двох згенерованих Віллів Смітів. Все відео створено комп’ютером завдяки інструменту штучного інтелекту з відкритим вихідним кодом під назвою ModelScope. Цей генератор був розроблений DAMO Vision Intelligence Lab, дослідницьким підрозділом Alibaba, і випущений у світ кілька тижнів тому.

ModelScope – це модель дифузії text2video (текст у відео), яка навчена створювати нові ролики, аналізуючи мільйони зображень і тисячі відео з таких наборів даних, як LAION5B, ImageNet і Webvid, що включають матеріали з Shutterstock. Це пояснює наявність водяного знаку на виході. Онлайн-демонстрація ModelScope зараз розміщена на сайті спільноти ШІ HuggingFace, але для її запуску потрібен обліковий запис і оплата за обчислювальний час.

За словами chaindrop, робочий процес створення відео був простим. Він дав ModelScope запит «Вілл Сміт їсть спагеті» і модель згенерувала його зі швидкістю 24 кадри в секунду (FPS). Потім був використаний інструмент інтерполяції Flowframes, щоб збільшити частоту кадрів з 24 до 48, а потім сповільнити її до половини швидкості, в результаті чого відео стало більш плавним.

Хоча ModelScope – не єдиний доступний інструмент text2video, він привернув до себе значну увагу після того, як відео, де Вілл Сміт їсть спагеті, стало вірусним. Серед інших інструментів text2video – Gen-2 від Runway, а також ранні дослідницькі проєкти text2video від Meta і Google. В інтернеті також з’явилися наступні відео, в тому числі зі Скарлетт Йоханссон і Джо Байденом, які їдять спагеті. На одному особливо жахливому відео Вілл Сміт їсть фрикадельки. Попри свій моторошний вигляд, це відео стало ідеальним матеріалом для майбутніх мемів.

Як видно, на відміну від популярних безплатних інструментів на основі штучного інтелекту для генерації зображень з текстового опису, які навіть можуть сприйматися як справжні фото, ШІ поки що складно переносити текст у відео. Проте роботи в цьому напрямку продовжуються, і якщо легко згенеровані штучним інтелектом зображення вже викликають занепокоєння щодо поширення дезінформації, то з відео, скоріше за все, ситуація стане ще гіршою.