Новий голосовий штучний інтелект від стартапу Sesame спричинив широкий резонанс в інтернеті: користувачі одночасно захоплюються його реалістичністю та відчувають дискомфорт через надзвичайно людську манеру спілкування. Компанія випустила демоверсію своєї "моделі розмовного мовлення" (CSM) у лютому, і вона розмиває межу між штучним та людським голосом, додаючи виразність, сміх, паузи та навіть виправлення помилок у реальному часі, повідомляє ArsTechnica.
"Я спробував демо, і це було дійсно вражаюче, наскільки воно звучало по-людськи", — написав один із користувачів Hacker News. "Мені навіть стало трохи лячно, що я можу емоційно прив’язатися до голосового помічника, який звучить так правдоподібно".
Sesame пропонує два голоси: чоловічий ("Майлз") та жіночий ("Мая"), і деякі користувачі вже повідомляють, що почали відчувати емоційний зв’язок з голосовими моделями. Один із батьків розповів, що його 4-річна донька розплакалася, коли їй не дозволили продовжити розмову з ШІ.
Компанія Sesame, заснована Бренданом Ірібом, Анкітом Кумаром та Райаном Брауном, вже привернула значну увагу венчурних інвесторів. Її підтримують Andreessen Horowitz, Spark Capital, Matrix Partners та інші фонди.
"У Sesame ми прагнемо досягти "присутності голосу" — того чарівного ефекту, що робить взаємодію через мову живою, зрозумілою та цінною", — заявила компанія. "Ми хочемо створювати партнерів для діалогу, які не просто виконують запити, а ведуть реальні розмови, що формують довіру".
Перші користувачі повідомляють про тривалі розмови до 30 хвилин, у яких ШІ підтримує дискусії про філософію, етику та особисті емоції. При цьому голосова модель вражає своєю природністю, відтворюючи дихання, сміх, перебивання та паузи.
Але не всім це подобається. Марк Хахман, старший редактор PCWorld, заявив, що відчув справжній дискомфорт, спілкуючись із системою, адже її тон і стиль нагадали йому давню подругу.
Sesame також порівнюють з Advanced Voice Mode від OpenAI для ChatGPT. Деякі користувачі вважають, що Sesame звучить навіть природніше, а також виконує рольові сценарії, включаючи гнівні розмови, що OpenAI наразі не дозволяє.
В одному з відео на Reddit демонструється, як ШІ веде суперечку із користувачем, який грає роль казнокрада і нібито сперечається з начальником. Настільки динамічно, що важко відрізнити, де людина, а де штучний інтелект.
Sesame змінив підхід до генерації голосу, застосовуючи єдину інтегровану нейромережу, яка обробляє текст і аудіо одночасно. Голосовий ШІ базується на архітектурі Llama від Meta та використовує дві нейромережі: головну та декодер. Найбільша модель має 8,3 мільярда параметрів, навчена на 1 мільйоні годин англомовного аудіо.
При цьому в тестах "наосліп" слухачі не змогли чітко відрізнити ШІ-голос від справжніх людських записів, коли це були короткі фрази. Проте, у довгих розмовах люди все ще віддають перевагу справжньому голосу, що свідчить про недостатню контекстну обізнаність ШІ.
Брендан Іріб, співзасновник Sesame, визнав, що модель поки що має недоліки.
"Система все ще занадто емоційно виражена, іноді некоректна у тональності, ритмі й перебиванні", — заявив він. "Ми ще у процесі вдосконалення, але впевнені, що зможемо це покращити".
Попри технологічний прорив, експерти застерігають, що реалістичні голосові ШІ можуть посилити загрози шахрайства. Уже зараз голосовий фішинг (vishing) став потужним інструментом для шахраїв, які імітують голоси рідних, колег або держслужбовців.
На відміну від поточних роботизованих дзвінків, які звучать неприродно, нове покоління ШІ-голосів може повністю позбутися підозрілих ознак, роблячи обман ще більш переконливим.
Деякі люди вже почали використовувати кодові слова зі своїми рідними, щоб перевіряти, чи вони справді розмовляють із людиною.
Sesame наразі не підтримує копіювання голосів, але в майбутньому відкритий доступ до подібних технологій може дозволити зловмисникам створювати ще витонченіші атаки. OpenAI навіть відклала запуск своєї голосової системи, побоюючись її неправильного використання.