Українська правда

ШІ-субтитрування 5000 одиниць контенту. Як команда MEGOGO розвʼязала проблему локалізації?

- 14 жовтня, 12:40

Повна українізація контенту, як кажуть у MEGOGO, вже декілька років є big dream компанії. За словами Chief Product Officer медіасервісу Єгора Яроцького, в середньому щомісяця на платформі з’являються близько 22 000 годин нових відео, які переважно глядач хоче дивитись з українським дубляжем.

Власна студія дубляжу MEGOGO та студії партнерів розписані на місяці вперед преміальними тайтлами або більш популярним контентом, а часу і людських ресурсів на ручне субтитрування цього масиву контенту не вистачає.

Єгор Яроцький, Chief Product Officer в MEGOGO

"У якийсь момент ми зрозуміли, що маємо "прірву": глядачі хочуть українську локалізацію тут і зараз, але ми фізично не можемо її дати", — пояснює CPO сервісу. Саме ця потреба стала точкою відліку для пошуку рішення. Як команда MEGOGO розвʼязує проблему локалізації? Нижче розповідь Єгора Яроцького від першої особи.

"Перший костюм Залізної людини Mark I": як команда зібрала власний інструмент

Першими ми взялися за документальне кіно. Це найбільш "академічний" жанр: один чи два наратори, поширена проста мова без сленгу чи двозначних конструкцій, зрозуміла дикція. Тобто модель буде найкраще "чути" та "розуміти" мову і перетворювати її в текст, що спростить тестування та імплементацію технології.

Далі було багато проб і помилок. Щоб зробити субтитри, треба очистити аудіо від шумів, розпізнати голос, скласти текст, перекласти, а потім повернути все у формат субтитрів із точними таймкодами. І тут виникають десятки проблем: різна довжина слів у мовах, складність узгодження слів у реченні, помилки у власних назвах чи числівниках.

Зважаючи на цю специфіку, ми достатньо швидко зрозуміли, що вже наявні на ринку інструменти не працюють під наші потреби, тому буквально збирали власний інструмент з уже наявних моделей і безплатних сервісів. Це був наш "перший костюм Залізної людини Mark I" — зроблений із підручних деталей, але дієвий і заточений саме під наші задачі. У процесі тестування модель опрацювала понад 100 файлів якість яких для нас здається цілком достатньою, щоб запускати на платформі. Ці субтитри на сервісі відмічені як автоматичні й користувачі мають можливість зарепортити, якщо бачать невідповідності.

Загалом, на цей експеримент ми витратили кілька місяців, часткове залучення команди й $300. А отримали п’ять тисяч одиниць локалізованого контенту і технологію, яку плануємо продовжувати допрацьовувати.

У результаті вийшла модель, яка знімає з наших колег рутинну частину роботи. Якщо раніше на переклад і підгонку субтитрів ішло три дні, то тепер це займає в рази менше часу. Це дозволяє нашим редакторам і перекладачам зосередитися на важливішому: стилістиці, точності й культурних нюансах української мови. Якщо раніше 3 дні йшло на механічну роботу, то тепер цей час можна інвестувати в якість.

ШІ-озвучка й нові виклики

Паралельно із субтитруванням, а насправді навіть трохи раніше, команда працювала над аудіо дубляжем з використанням технологій ШІ й тут теж маємо інсайди.

По-перше, голос — це не лише набір звуків, а ще й інтонації, емоції, правильні наголоси. Для тексту українською мовою це особливий виклик: вона менш поширена в глобальних моделях, тому вони гірше справляються з наголосами, інтонаціями та власними назвами. В результаті ми отримували озвучку, яка звучала неприродно для локального глядача.

По-друге, постало питання самих голосів. Хороший, виразний голос, який у ШІ не виглядав би штучним, знайти дуже складно. Зараз є лише одна open source-модель українською на основі голосу актора, який свідомо погодився надати свій тембр для тренування моделей. Це радше виняток, адже більшість людей не готові робити подібні кроки — і це природно, адже йдеться про авторські права та повагу до "звукової ідентичності".

По-третє, технічна сторона. Коли алгоритм накладає штучний голос, фонова атмосфера часто "провалюється": затихає музика, зникають звуки довкілля, і глядач одразу відчуває штучність. Ми багато разів переглядали одні й ті самі фільми з різними версіями озвучки, тестували очищення доріжки, налаштовували баланс. Це були десятки ітерацій, де хороші й "провальні" результати чергувалися випадково.

У підсумку нам вдалося досягти рівня, коли документальний фільм можна повністю озвучити ШІ-моделлю. Це не замінює дубляж, а скоріше створює додаткове рішення, і ми чесно говоримо, що цей продукт на рівні MVP. Розробка дозволяє швидше тестувати формати та давати глядачам доступ до української озвучки тайтлів на які швидше за все так і не вистачить ресурсу традиційного дубляжу. На цьому етапі наш найважливіший висновок: команда може самостійно створювати кастомні рішення на базі ШІ під реальні задачі, які згодом працюють у продакшені. Але ключову роль тут все одно відіграє людина: від фінальної вичитки текстів до контролю звучання.

Цей результат став можливим лише завдяки поєднанню експертиз у команді. Тут важливо не лише розуміти, як працює LLM, а й знати принципи обробки звуку. У нас є спеціалісти з обох сфер, і саме завдяки цьому ми змогли пройти шлях від сирих спроб до робочої моделі, яку вже бачать користувачі.

Контент створений за допомогою ШІ

Для нас ШІ — це не тільки про субтитри чи озвучку. Уже зараз він допомагає вирізати фрагменти, покращувати якість відео, формувати персональні рекомендації для користувачів сервісу. А ще — став підґрунтям для MEGOGO AI Film Festival.

Коли ми запускали MEGOGO AI Film Festival, наша мета була простою — стимулювати розвиток нової галузі й дати креаторам безпечний майданчик для експериментів. Ми хочемо, щоб творці не боялися технологій, а бачили в них можливості. Адже якісний результат можливий лише тоді, коли людина правильно ставить завдання й контролює роботу штучного інтелекту.

Цього року ми отримали майже 200 робіт — удвічі більше, ніж торік. Ми адаптували правила під потреби ринку: збільшили тривалість робіт до 15 хвилин, адже індустрія потребує довших історій, і ввели категорію для вертикального контенту, який зараз надзвичайно популярний.

Якість робіт помітно зросла, і це відзначили всі члени журі. Цього року роботи були настільки різні, що ми самі здивувалися. Є історії про дитячі мрії й вибір професії, є роздуми про глобальне потепління та наше технологізоване майбутнє. Були й філософські роботи про сенс життя, і дуже особисті — наче розмова з психологом. А ще — легкі, навіть трохи абсурдні історії, і зовсім інший полюс — атмосферні сюжети, де оживають старі українські легенди.

У межах Одеського міжнародного кінофестивалю ми зібрали й представили кіноальманах із найкращих робіт фестивалю, і цей показ викликав інтерес у глядачів. Ми побачили, що аудиторія готова до такого контенту. Плануємо й надалі показувати альманах на інших релевантних подіях, розширюючи простір для ШІ-фільмів.

Ми переконані: в умовах війни та обмежених бюджетів штучний інтелект стає не просто інновацією, а інструментом конкурентоздатності для української кіноіндустрії. Він може знизити вартість виробництва на 20%-80%, а це критично, коли ресурси обмежені. Особливо це стосується дитячої анімації — одного з найдорожчих жанрів. Саме тут ми бачимо в ШІ шанс врятувати й розвинути виробництво, яке так необхідне для передачі українських цінностей і культури новим поколінням.