Компанія Meta створила мовну модель штучного інтелекту, яка здатна розпізнавати понад 4 000 розмовних мов і відтворювати мовлення більш ніж 1 100 мовами. Про це пише Engadget.

Йдеться про проєкт Massively Multilingual Speech (MMS) і він не є клоном ChatGPT. Meta надає до нього відкритий доступ.

«Сьогодні ми публічно ділимося нашими моделями й кодом, щоб інші члени дослідницької спільноти могли спиратися на нашу роботу, – зазначили в компанії. – Завдяки цій роботі ми сподіваємося зробити невеликий внесок у збереження неймовірного мовного розмаїття світу».

В Meta звернули увагу на те, що моделі розпізнавання мовлення та перетворення тексту в мовлення зазвичай вимагають навчання на тисячах годин аудіозаписів із супровідними транскрипційними мітками. Але для мов, які не є широко вживаними в індустріально розвинених країнах, цих даних просто не існує.

З огляду на це, компанія вдалася до нетрадиційного підходу збору даних – прослуховування аудіозаписів перекладених релігійних текстів. Це дало змогу значно збільшити кількість доступних для моделі мов.

«Ми звернулися до релігійних текстів, таких як Біблія, які були перекладені багатьма різними мовами і переклади яких широко вивчалися для дослідження перекладу на основі тексту, – пояснили в Meta. – Ці переклади мають загальнодоступні аудіозаписи людей, які читають ці тексти різними мовами».

Щоб зробити дані більш придатними для використання, Мета використала модель самоконтрольованого навчання представлення мови wav2vec 2.0, яка може навчатися на немаркованих даних. Поєднання нетрадиційних джерел даних та самокерованої мовленнєвої моделі призвело до високих результатів.

«Наші результати показують, що моделі масового багатомовного мовлення добре працюють порівняно з існуючими моделями і охоплюють в 10 разів більше мов, – розповіли в Meta. – Ми виявили, що моделі, навчені на даних Massively Multilingual Speech, мають вдвічі менший відсоток помилок у словах, але Massively Multilingual Speech охоплює в 11 разів більше мов».

Водночас компанія попереджає, що її нові моделі не є ідеальними. Приміром, існує ризик того, що модель перетворення мови в текст може неправильно перекласти окремі слова або фрази.

Раніше повідомлялося, що регуляторні органи ЄС наклали на компанію Meta рекордний штраф у розмірі $1,3 млрд (1,2 мільярда євро) і зобов’язали її припинити передачу даних громадян ЄС з Facebook до США. На думку судів ЄС, така передача даних наражає громадян ЄС на небезпеку порушення їхнього приватного життя.