Alibaba представила нову модель штучного інтелекту, що здатна генерувати відео з людьми з використанням аудіо "на рівні кінофільмів". Wan2.2-S2V має 14 мільярдів параметрів й доступна з відкритим кодом на GitHub та інших платформах.

Нова модель здатна згенерувати високоякісне відео з одного зображення або аудіокліпу. Wan2.2-S2V має універсальні можливості анімації персонажів, які дозволяють створювати відео з різними варіантами кадрування, включаючи портретну, бюст та повну перспективу.

✨ Key features:

Alibaba каже, що модель здатна динамічно генерувати дії персонажів і фактори навколишнього середовища на основі швидких інструкцій. Готові відео можуть бути у роздільній здатності 480 або 720p.

Wan2.2-S2V поєднує глобальне керування рухами за текстом із дрібними локальними рухами, керованими звуком. Це дозволяє створювати більш природних персонажів навіть у складних ситуаціях.

Китайська компанія відзначає, що іншим ключовим проривом моделі є інноваційна техніка обробки кадрів. Модель стискає кадри довільної довжини в єдину компактну презентацію, що значно зменшую вимогу до обчислювальних потужностей. Водночас компанія не вказує, якої саме довжини ролики можна генерувати.