Google планує створити гігантську мовну модель ШІ з підтримкою 1 тис. мов світу

Компанія Google оголосила про новий амбітний проєкт з розробки єдиної мовної моделі штучного інтелекту, яка підтримує 1000 найбільш поширених мов світу. Як перший крок до цієї мети вона представила модель ШІ, навчену на більш ніж 400 мовах, що є «найбільшим мовним покриттям, що спостерігається в мовних моделях на сьогодні», повідомляє The Verge.

Мова і ШІ, мабуть, завжди були в центрі продуктів Google, але останні досягнення в галузі машинного навчання — зокрема, розробка потужних, багатофункціональних «великих мовних моделей» (LLM) — зробили новий акцент на цих сферах.

Google вже почав інтегрувати ці мовні моделі в такі продукти, як Google Search, одночасно відбиваючись від критики щодо функціональності систем. Мовні моделі мають ряд недоліків, включаючи схильність до шкідливих суспільних упереджень, таких як расизм і ксенофобія, і нездатність розбирати мову з людською чутливістю.

У розмові з The Verge Зубін Гахрамані віцепрезидент з досліджень Google AI, сказав, що компанія вважає, що створення моделі такого розміру полегшить приведення різних функціональних можливостей ШІ до мов, які слабо представлені в онлайн-просторах і наборах даних для навчання ШІ (також відомих як «мови з низьким рівнем ресурсів»).

«Маючи єдину модель, яка піддається впливу і тренується на багатьох мовах, ми отримуємо набагато кращі результати на мовах з обмеженими ресурсами, – говорить Гахрамані. – Шлях до тисячі мов не полягає у створенні тисячі різних моделей. Мови подібні до організмів, вони еволюціонували одна від одної і мають певну схожість. І ми можемо знайти досить вражаючі досягнення в тому, що ми називаємо навчанням з нуля, коли ми включаємо дані з нової мови в нашу 1000-мовну модель і отримуємо можливість перекладати [те, що вона вивчила] з мови з високими ресурсами на мову з низькими ресурсами».

Попередні дослідження показали ефективність такого підходу, а масштаб запланованої моделі Google може запропонувати суттєві переваги над попередньою роботою. Такі масштабні проєкти стали типовими для технологічних компаній, які прагнуть домінувати в дослідженнях ШІ. Схожим проєктом є поточна спроба материнської компанії Facebook Meta створити «універсальний перекладач мови».

Однак доступ до даних є проблемою при навчанні багатьом мовам, і Google заявляє, що для підтримки роботи над 1000-мовною моделлю він фінансуватиме збір даних для мов з низьким рівнем ресурсів, включаючи аудіозаписи та письмові тексти.

Компанія заявляє, що не має прямих планів щодо застосування функціональності цієї моделі — лише очікує, що вона матиме широке застосування в різних продуктах Google, від Google Translate до підписів на YouTube.