Щоб не поступатися генератору відео на основі штучного інтелекту Make-A-Video від Meta, Google детально описав свою роботу над Imagen Video, системою ШІ, яка також може генерувати відеокліпи за текстовою підказкою (наприклад, «плюшевий ведмедик миє посуд»). Хоча результати не ідеальні (зациклені кліпи, які генерує система, як правило, мають артефакти та шум), Google стверджує, що Imagen Video є кроком до системи з «високим ступенем керованості» і знаннями про світ, включаючи здатність генерувати кадри в різних художніх стилях.

Системи перетворення тексту у відео – не новина. На початку цього року група дослідників з Університету Цінхуа і Пекінської академії Штучного інтелекту випустила програму CogVideo, яка може перетворювати текст на досить якісні короткі кліпи. Але Imagen Video є значним проривом у порівнянні з попередніми розробками, демонструючи здатність до анімації підписів.

«Це, безумовно, поліпшення», — повідомив Метью Гуздіал, доцент Університету Альберти, який вивчає ШІ та машинне навчання. – «Як ви бачите з відеоприкладів, навіть попри те, що команда зв’язку вибирає найкращі результати, все одно залишається дивна розмитість і штучність. Тож це точно не буде використовуватися безпосередньо в анімації або на телебаченні найближчим часом. Але це, або щось подібне, безумовно, може бути вбудовано в інструменти, які допоможуть прискорити деякі речі».

Google працює над Imagen Video – власним ШІ, що генерує відео

Imagen Video базується на Imagen від Google, системі генерації зображень, яку можна порівняти з DALL-E 2 і Stable Diffusion від OpenAI. Imagen – це так звана «дифузійна» модель, яка генерує нові дані (наприклад, відео), навчаючись знищувати та відновлювати багато наявних зразків даних. В міру того, як модель завантажується зразками, вона все краще відновлює дані, які вона раніше знищила, для створення нових творів.

Google працює над Imagen Video - власним ШІ, що генерує відео

Як пояснює дослідницька група Google, яка створила Imagen Video, система бере текстовий опис і генерує 16-кадрове відео з частотою три кадри в секунду з роздільною здатністю 24 на 48 пікселів. Потім система збільшує масштаб і «пророкує» додаткові кадри, створюючи остаточне 128-кадрове відео з частотою 24 кадри в секунду з роздільною здатністю 720p (1280×768).

Google працює над Imagen Video - власним ШІ, що генерує відео

На відміну від наявних сьогодні систем формування зображень, Imagen Video може також належним чином відтворювати текст.

Та це не означає, що Imagen Video не має обмежень. Як і у випадку з Make-A-Video, навіть кліпи, вибрані з Imagen Video, тремтять і місцями спотворені.

Щоб покращити ситуацію, команда Imagen Video планує об’єднати зусилля з дослідниками Phenaki, ще однієї системи перетворення тексту у відео від Google, яка дебютувала сьогодні та може перетворювати довгі, детальні підказки на двохвилинні відеоролики — хоча і з нижчою якістю.

Google працює над Imagen Video - власним ШІ, що генерує відео

Дослідники також зазначають, що дані, які використовувалися для навчання системи Imagen Video, містили проблемний контент, що могло призвести до того, що Imagen Video створював графічно насильницькі або відверто сексуальні кліпи. Google заявляє, що не випустить модель або вихідний код Imagen Video «доки ці проблеми не будуть вирішені», і, на відміну від Meta, не буде надавати жодних форм для реєстрації зацікавлених осіб.

Проте, зважаючи на швидкий розвиток технологій перетворення тексту у відео, можливо, незабаром з’явиться модель з відкритим вихідним кодом, яка одночасно стимулюватиме людську творчість і створить нерозв’язну проблему з підробками, авторським правом і дезінформацією.