Алгоритми Sonantic синтезують мовлення, яке практично не відрізняється від «біологічного»

Кирило Іртлач
21.02.2022
Категорії: Блоги
Теги: Sonantic, Технології, Штучний інтелект

Британський стартап Sonantic досяг значного прогресу у створенні штучних голосів, які важко відрізнити від людського мовлення. Компанія розробила ШІ, що здатен вокалізувати такі складні емоції, як кохання, гнів, страх, кокетство, сором’язливість. На демонстраційному відео жіночий голос говорить про кохання, імітуючи особливості мовлення звичайної людини — запинаючись, посміюючись і змінюючи тембр під час розмови. Зрозуміти, що це каже машина, а не жива людина, на слух практично неможливо.

Як повідомляє The Verge, Sonantic заявляє, що здійснив прорив у створенні “звукових дипфейків”. Розробникам вдалося створити синтетичний голос, котрий може відтворювати емоційні особливості мовлення реальної людини, включаючи піддражнювання та флірт. Ключем до відкриття стали алгоритми — ШІ Sonantic був навчений на десятках тисяч справжніх розмов, під час прослуховування яких програма навчилася якісно генерувати малопомітні, але важливі немовленнєві звуки — зітхання та смішки, робити задумливі паузи, симулювати інтонацію й тембр голосу людини під впливом почуттів й тепер може надавати штучному мовленню «біологічну правдивість».

Як доказ своїх досягнень Sonantic опублікував демонстраційний ролик під назвою “What’s Her Secret?”. В ньому синтезована дівчина звертається до глядача. Модель довго не може вирішити, як заговорити з користувачем, починає розмірковувати про почуття, а потім освідчується глядачеві в коханні та повідомляє, що насправді вона ніколи не існувала і все, що в неї є – це голос, створений на комп’ютері.

«Ми обрали кохання як розповсюджену тему. Але мета нашого дослідження полягала у тому, щоб перевірити, чи можемо ми в принципі моделювати тонкі емоції. Інтенсивні емоції відтворити набагато легше», – пояснив засновник та технічний директор Sonantic Джон Флінн.

Втім, технологічні новації Sonantic на цьому не закінчуються. Стартап також розробив спеціальну хмарну платформу, яка дозволяє користувачам самостійно створювати штучне мовлення й редагувати його емоційність. Компанія описує її як «Photoshop для голосу». Схема роботи з платформою побудована наступним чином: спочатку користувач пише текст, потім обирає потрібний голос з бази, створеної на основі голосів реальних акторів-людей, підключає необхідні емоції, регулює мовленнєві особливості, наприклад, висоту голосу, й додає такі нюанси, як подих й сміх.

Серед емоцій, що підтримує актуальна версія Sonantic – гнів, страх, смуток, щастя і радість, а найближчим часом до них приєднаються кокетування, сором’язливість, дратівливість та хвастощі.

Цільова аудиторія Sonantic – розробники відеоігор та компанії, що спеціалізуються на створенні мультимедійного контенту. Розробка дозволяє їм наділяти віртуальних персонажів “біологічними” голосами, не наймаючи акторів й не орендуючи звукозаписні студії. Втім, інтерес до мовних технологій стартапу вже проявляють й інші галузі. Наприклад, минулого року Sonantic уклав угоду з Mercedes – стартап займеться налаштуванням голосу цифрового помічника у розумних автомобілях від німецького бренду.

Більше коментарів!