Українська правда

ШІ-система для навушників перекладає кілька голосів одночасно з інтонацією мовців

ШІ-система для навушників перекладає кілька голосів одночасно з інтонацією мовців
0

Хто хоч раз стикався із таким явищем як синхронний переклад розуміє, що такий формат у своєму класичному виконанні не тільки ресурсоємний, але й уповільнюючий фактор. Оскільки у будь-якому разі перекладач повинен спершу почути сказане, обдумати переклад і проговорити його. А коли мова йде про одночасний синхрон декількох спікерів, то це ще складніша історія. А в результаті у слухачів значно знижується інтерес і рівень сприйняття інформації. І це ми виносимо за дужки можливі помилки чи неточності перекладу. А про емоційне забарвлення (що часто не менш важливо, ніж інформаційне наповнення) такого формату і годі казати. Проте є надія, що ШІ скоро зможе допомогти вирішити й такі питання. 

Команда дослідників з Університету Вашингтона представила інноваційну систему штучного інтелекту для навушників, яка може одночасно перекладати мову кількох людей в реальному часі, зберігаючи при цьому інтонацію та напрямок голосу кожного з них. Рішення під назвою Spatial Speech Translation має на меті подолати одну з найбільших перешкод автоматичного перекладу — ситуації, коли декілька осіб говорять одночасно.

Уявіть собі обід в компанії знайомих, які спілкуються різними мовами. Навіть не розуміючи жодної з них, ви все одно зможете слідкувати за розмовою — саме таку ситуацію прагнули реалізувати автори нової системи.

Spatial Speech Translation здатна визначати напрямок звуку та розрізняти голоси кожного співрозмовника. Це дозволяє користувачеві навушників розуміти, хто саме що говорить, навіть у галасливому середовищі. Це буде стирати мовні бар’єри незалежно від умов і обставин. Чи не цього багато хто прагне?

На відміну від існуючих рішень на кшталт смартокулярів Meta Ray-Ban, які орієнтовані на переклад одного мовця, нова система працює з кількома голосами одночасно й надає значно більш природне звучання перекладу. Вона сумісна з масовими моделями навушників із функцією шумозаглушення та мікрофонами, підключених до ноутбука на базі чипа Apple M2. Саме цей чип використовується, зокрема, в Apple Vision Pro та підтримує обчислення нейромереж у реальному часі.

Розробку було представлено цього місяця на конференції ACM CHI з питань взаємодії людини та комп’ютера в Йокогамі, Японія.

Система використовує два штучних інтелекти. Перший — просторовий — ділить навколишній простір на сектори, виявляє мовців та визначає напрямок, звідки надходить звук. Другий — мовний — перекладає з французької, німецької або іспанської мов на англійську, використовуючи відкриті датасети. Так, набір мов поки що доволі обмежений. Та унікальність підходу в тому, що система також зчитує інтонацію, гучність, висоту голосу — й відтворює їх у перекладі. У результаті — переклад звучить майже як «клон» оригінального голосу та доноситься з відповідного напрямку, а не як синтетичний голос із навушників.

За словами Самуеле Корнелл, дослідника з Університету Карнегі-Меллона, розпізнавання голосів — само по собі надзвичайно складне завдання для ШІ, а тут його ще й поєднали з просторовим позиціюванням, перекладом у реальному часі й низькою затримкою — і все це на реальному пристрої.

Однак, шлях від прототипу до готового продукту ще великий: знадобиться значно більше навчальних даних і часу, у т.ч. «шумних» записів з реального світу, а не з синтетичних джерел.

Зараз команда зосереджена на зниженні затримки між промовленими словами та їх перекладом. Мета — зменшити її до менш ніж секунди, аби зберегти природну динаміку розмови. Але це складне завдання, адже структура мов впливає на швидкість перекладу. Наприклад, французька перекладається найшвидше, за нею — іспанська, а от із німецькою складніше через характерну побудову речень, де дієслово часто розміщується в кінці, — пояснює дослідник Клаудіо Фантінуолі з Університету Майнца. Що довше чекаєш перед перекладом — то кращим він може бути, бо встигаєш зрозуміти контекст. Але це завжди компроміс між точністю та швидкістю, — зазначає він.

За матеріалами перекладу статті Ріаннон Вільямс для MIT Technology Review

Поділитися:
Посилання скопійовано
Реклама:
Реклама: