У березні 2023 року виконавчий директор Microsoft Сатья Наделла в інтерв’ю Financial Times спрогнозував, що новий розмовний штучний інтелект буде активніше розвиватися, адже старі голосові помічники «тупі, як камінь». Як всі ми бачимо, технологічний світ наразі сповнений нового типу віртуальних помічників: чат-ботів. Ці боти на основі штучного інтелекту, такі як славнозвісний ChatGPT від компанії OpenAI, можуть швидко імпровізувати, відповідати на запитання та спілкуватися.

Нещодавно OpenAI завершила свій довгоочікуваний раунд фінансування, залучивши $6,6 млрд від інвестиційних і великих технологічних компаній. Серед інвесторів — Microsoft, NVIDIA, SoftBank. OpenAI тепер оцінюється у $157 млрд. Ажіотаж навколо чат-ботів демонструє, що Siri, Alexa та інші голосові помічники, які колись викликали великий ентузіазм, втрачають свою лідерську позицію в перегонах ШІ. Помічники та чат-боти засновані на різних типах ШІ. Чат-боти працюють на основі так званих великих мовних моделей, які є системами, навченими розпізнавати та генерувати текст на основі величезних масивів даних, зібраних з інтернету. Також вони можуть запропонувати слова для завершення речення. А всім відомі помічники — це насамперед системи командування та управління.

Тож ми вирішили розібратися, в якому напрямку так стрімко рухаються розмовні технології на основі штучного інтелекту, а також зробили добірку зі старих та нових ШІ-сервісів, з якими можна поговорити.

Що таке розмовний ШІ?

Розмовний ШІ означає технологію, яка дозволяє машинам взаємодіяти з людьми розмовним способом за допомогою обробки природної мови (Natural language processing), машинного навчання та інших методів штучного інтелекту. Розмовні системи ШІ широко використовуються у різних застосунках, чат-ботах, голосових помічниках, платформах та сервісах підтримки клієнтів. Якщо покопатися в історії штучного інтелекту, то можна дізнатися, що однією з важливих цілей досліджень ШІ було уможливлення спілкування комп’ютерів природними мовами, наприклад, англійською. Раннім успіхом стала програма науковця Деніела Боброва STUDENT, яка могла розв’язувати задачі з алгебри середньої школи.

А ось програма ELIZA вченого Джозефа Вейценбаума, написана ним у 1966 році, могла вести розмови, які були настільки реалістичними, що користувачі іноді помилялися, думаючи, що вони спілкуються з людиною, а не з програмою. Цей віртуальний співрозмовник імітував діалог з психотерапевтом, реалізуючи техніку активного слухання.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
A conversation with Eliza

Програма була названа на честь Елізи Дуліттл з п’єси «Пігмаліон» Бернарда Шоу, яку навчали мови «вищого класу людей». Програма здебільшого просто перефразовувала висловлювання користувача за допомогою кількох граматичних правил. ELIZA була першим чат-ботом.

Приблизно у 2018 році з’явився термін велика мовна модель (LLM від англ. large language model). Це модель мови, що складається з нейронної мережі з багатьма параметрами (від десятків мільйонів до мільярдів), навчених на великій кількості немаркованого тексту за допомогою самокерованого або напівкерованого навчання. Ці моделі добре справляються з різноманітними завданнями. Моделі, такі як GPT-3, випущену OpenAI 2020 року, та Gato, випущену компанією DeepMind 2022 року, описували як важливі досягнення машинного навчання.

У 2023 році Microsoft Research перевірила велику мовну модель GPT-4 на великому розмаїтті завдань та зробила висновок, що «її можливо стерпно розглядати як ранню версію системи сильного ШІ». Але вже у 2024 році OpenAI продемонструвала новий, розширений голосовий режим для ChatGPT, здатний підтримувати схожу на людську розмову. Google же почала інтегрувати чат-бот Gemini в мобільні пристрої. Схоже, що у 2025 році ми побачимо, як ці можливості з’являться на дедалі більшій кількості пристроїв, що дасть змогу більш природно спілкуватися голосом.

Добірка ШІ-сервісів, з якими можна поговорити

1) ChatGPT Voice — це голосова функція ChatGPT, заснована на новій моделі перетворення тексту в мову, яка здатна генерувати звучання, схоже на людське: у ChatGPT є п’ять голосів на вибір, які створені за участю професійних акторів дубляжу. Послухати їх можна за посиланням.

В кінці 2023 року функція стала відкритою і для безплатних акаунтів, що зробило її доступною для широкої аудиторії. ChatGPT Voice працює в мобільних застосунках для iOS та Android. Щоб почати розмову з ботом, треба зайти в налаштування застосунку і вибрати відповідну можливість. ChatGPT добре розуміє українську мову та може відповідати українською.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
Advanced Voice Mode від ChatGPT

Вже у 2024 році компанія OpenAI запустила розширений голосовий режим для користувачів ChatGPT Plus і Teams. За словами розробників, Advanced Voice Mode є ще одним кроком на шляху до більш схожої на людську взаємодію зі штучним інтелектом. Функція дозволяє вести невимушені розмови в режимі реального часу на базі останньої моделі GPT-4o. Розробники презентували п’ять нових голосів: Arbor, Maple, Sol, Spruce і Vale, які доступні як у стандартному, так і в розширеному голосовому режимі. До них приєдналися раніше доступні Breeze, Juniper, Cove і Ember.

Advanced Voice Mode постачається з покращеними акцентами в окремих іноземних мовах, що має підвищити чіткість взаємодії з користувачами. Це включає зміни швидкості та плавності розмови, щоб кожна розмова звучала більш природно. А ще функція пам’яті дозволяє ШІ згадувати попередні розмови та підтримувати контекст протягом тривалого використання. Advanced Voice поки що доступна не у всіх у регіонах.

Що взагалі може ChatGPT Voice? Наприклад, навчати іноземної мови, підготувати до співбесіди, давати поради, розказувати дітям казки, брейнштормити, імітувати діалог з улюбленим персонажем, проводити аудіоекскурсії та багато всього іншого.

Цікавий факт: користувач Reddit у вересні розповів, що ChatGPT нібито написав йому першим. Юзер розказав чат-боту про своє переведення до старшої школи, і через деякий час ChatGPT нагадав про це, запитавши, як пройшов перший тиждень навчання. Чат-бот повинен відповідати на запити людей, а не звертатися до них за власною ініціативою. У OpenAI розповіли, що незвичайна ситуація виявилася багом, а не фічею.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
Користувач Reddit показав, як ChatGPT першим заговорив з ним

Журналісти звернулися до OpenAI щодо цього і компанія підтвердила подібні кейси. Також вона повідомила, що баг виправлено. «Ми розвʼязали проблему, через яку здавалося, що ChatGPT починає нові розмови. Проблема виникала, коли модель намагалася відповісти на повідомлення, яке не було надіслано належним чином. Тому вона або давала загальну відповідь, або спиралася на пам’ять ChatGPT», — заявили в OpenAI.

2) Gemini Live (ex-Google Bard) — це інтерактивний інтерфейс для спілкування з найновішою версією ШІ від Google, який компанія запустила у жовтні 2024 року. Він пропонує природне спілкування, де ви можете перебивати ШІ, уточнювати інформацію, змінювати напрямок розмови посеред відповіді. Це як розмова з реальною людиною, яка має доступ до величезного обсягу знань і може миттєво їх обробляти.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
Фото з презентації Gemini Live

Щоб отримати доступ до Gemini Live, треба зайти на офіційний сайт Google AI, увійти у свій Google-акаунт та вибрати опцію Try Gemini. Наразі сервіс доступний не у всіх країнах, але список постійно розширюється. Також Gemini Live буде доступний для всіх користувачів Android у застосунку Gemini. По суті він є заміною Google Assistant. Розмовний ШІ від Google матиме підтримку 40 нових мов. До цього підтримувалися англійська, німецька, іспанська, французька і португальська, тож сподіваємося побачити там незабаром і українську.

Gemini Live інтегруватиметься в інші застосунки Google та матиме змогу розмовляти двома мовами одночасно. А ще він легко зможе «витягнути» листа з вашої поштової скриньки Gmail та внести у нього надиктовані зміни, або запланувати подію в календарі та поставити нагадування. Як і належить асистенту, почати розмову з Gemini можна буде, наприклад, фразою Hey Google. Після цього можна буде запитати, що відбувається на екрані, про що відео на YouTube або попросити знайти локацію на картах.

3) Copilot Voice — це нова функція інструменту штучного інтелекту Copilot від Microsoft. Це функція безперервного голосового спілкування зі штучним інтелектом на мобільних пристроях, яка працює подібно до Gemini Live від Google чи аналога у ChatGPT. Вона дозволяє взаємодіяти з Copilot за допомогою голосових команд, а відповіді можуть бути озвучені. Корпорація Microsoft нещодавно випустила ряд нових функцій для ШІ Copilot, які стали доступні для Windows, iOS, Android та вебверсії. Серед оновлень: голосові команди й відповіді.

Ви можете спілкуватися з ШІ точно так само, як з людиною, ставлячи питання, даючи завдання, перебиваючи й уточнюючи. При цьому вам не потрібно щоразу натискати на кнопку початку розмови. Система буде адаптовуватися, враховувати попередній діалог, контексти, додаткові дані. Copilot Voice особливо корисний в час багатозадачності, адже завдання можна вирішувати без введення тексту вручну. Голосовий режим вже доступний у США, Великій Британії, Канаді, Австралії та Новій Зеландії.

Функція пропонує чотири синтетичні голоси, які дозволяють розмовляти з Copilot, а його відповіді озвучувати вголос. Програма може вловлювати тон під час розмови та відповідно реагувати, а також має часовий ліміт використання — передплатники Copilot Pro отримують більше хвилин, але їхня кількість може варіюватися. Журналісти Mashable, які ознайомилися з демонстраційною версією функції, розповіли, що голос звучить доволі приємно — з паузами, незначними помилками та вставними словами.

4) Character AI — це вебзастосунок чат-бота зі штучним інтелектом, який може генерувати текстові відповіді та брати участь у розмові. Повна версія з’явилася у 2024 році, з новим дизайном, інтерфейсом та анімаціями. Раніше застосунок був доступний лише через сайт, але у 2023 році було випущено додаток як для App Store, так і для Google Play Store.

Нова інноваційна функція Character AI Voice оживляє персонажів, дозволяючи їм говорити реалістичними, виразними голосами в розмові сам на сам. Голоси, створені ШІ, додають новий вимір розмові, роблячи її природною та реалістичною. Наразі Character AI Voice підтримує англійську мову, але найближчим часом планується розширити її функціонал на інші мови. Текстово ж чат-бот вже має українську.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
Чат-бот зі штучним інтелектом Character AI

Особливістю Character AI є можливість створювати ШІ-персонажів, створювати свої особистості, встановлювати та налаштовувати конкретні параметри, а потім публікувати їх у спільноті, щоб інші могли спілкуватися з ними. Багато персонажів можуть бути засновані на вигаданих медіаджерелах або знаменитостях, тоді як інші є повністю оригінальними, деякі створені з певними цілями, наприклад, допомагати у творчості або вести текстову рольову гру. Користувачі можуть спілкуватися з одним персонажем або організовувати групові чати, у яких кілька персонажів спілкуються один з одним та/або користувачем одночасно. У травні 2023 року застосунок було монетизовано, з’явилася і преміумпідписка за $9,99 на місяць, яка надає користувачеві такі переваги, як пріоритетний доступ до чату, швидший час відповіді та ранній доступ до нових функцій.

Сервіс підходить для приємного спілкування, дозволяє більше дізнатися про ШІ, покращити навички (письма, досліджень, мови), допомагає отримати емоційну підтримку чи створити креативний контент. Плюси: можливість творчого самовираження; хороші сюжети; персонажі з різним походженням; можливість мовної практики; допомога в написанні творчих робіт; рольові ігри й підтримка психічного здоров’я. Мінуси: потрібен час для навчання персонального ШІ; прогалини в знаннях; надмірні фільтри контенту; непослідовність наративів; обмежена пам’ять персонажів; проблеми з використанням даних і брак емоційного інтелекту.

5) Pi — це чат-бот зі штучним інтелектом від компанії Inflection AI. Він надає користувачам унікальний досвід емоційної підтримки. Розробники стверджують, що Pi не просто вміє підтримати цікаву бесіду, а й проявляє у спілкуванні доброту, дипломатичність та гумор. Вони позиціюють Pi як чат-бота з потужнішим емоційним інтелектом порівняно з ChatGPT.

Цей проєкт є стартапом у галузі ШІ від співзасновника LinkedIn Ріда Хоффмана та співзасновника DeepMind Мустафи Сулеймана.  Нейромережа відповідає не лише текстом, а й згенерованим голосом. Інтерфейс мінімалістичний. Жодних налаштувань тут немає, крім можливості вибрати голос. Поспілкуватися з Pi поки що можна англійською, але так буде не завжди. У Inflection AI зараз активно працюють над тим, щоб розширити його мовні можливості. Існує як застосунок як для Android, так і для iOS.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
Чат-бот Pi від компанії Inflection AI

На відміну від інших мовних моделей, Pi виявляє цікавість, прагнення до самонавчання та адаптації. Завдяки цьому він краще справляється із використанням природної мови. Крім того, Pi здатний запам’ятати 100 ходів розмови з користувачем, який входив до системи з різних платформ. Наприклад, якщо ви попросите Pi допомогти вам із планом святкування дня народження у WhatsApp, він обов’язково поцікавиться, як пройшло свято, коли ви потім почнете з ним розмовляти на іншу тему у Facebook.

«Для багатьох людей дуже важливо бути почутими. Вони потребують інструменту, який дасть можливість зрозуміти, що хтось їх чує. Єдине, чого ми остерігаємося, щоб люди не почали зав’язувати з Pi романтичні стосунки. Потоваришувавши з чат-ботом, головне, не забувати, що це ШІ. Нехай дуже людяний, але все ж не живий», — розповів Мустафа Сулейман.

Ну і ми не могли не згадати про всім відомі голосові помічники від Apple, Amazon та Samsung, адже нам стало цікаво, чи збираються ці компанії вступати в ШІ-перегони та як саме. Схоже, що таки збираються.

6) Siri — це один із найвідоміших персональних помічників зі штучним інтелектом і питально-відповідальна система, адаптована під iOS. Програма спілкується природною мовою, щоб відповідати на питання і давати рекомендації. Siri пристосовується до кожного користувача індивідуально, вивчаючи його особливості протягом тривалого часу.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
Фото з презентації Siri від Apple

Ви можете активувати Siri голосом або натиснувши кнопку на вашому пристрої. Як секретар, помічник допомагатиме з різними завданнями: здійснюватиме дзвінки, відправлятиме повідомлення, шукатиме інформацію, підбиратиме музику, будуватиме маршрути та нагадуватиме про важливі дати. А ще Siri може просто поговорити з вами. Ви можете розпитати про її улюблені хобі, інтереси, мрії, попросити розповісти анекдот або пожартувати.

Нещодавно Марк Гурман з Bloomberg, який відомий своїми інсайдами стосовно Apple, поділився планами на роботизоване майбутнє компанії. За його словами, просування у сфері робототехніки призведе до того, що Apple розвиватиме власні ШІ-технології. Одним із важливих елементів роботизації є створення особистості. Хоча Siri і є цифровим помічником на поточних пристроях Apple, за даними інсайдера, компанія працює над іншим людиноподібним інтерфейсом, заснованим на генеративному ШІ.

Гурман також зазначив, що втілення в життя ідеї про людиноподібний ШІ є наразі доволі далекою перспективою, адже для Apple це буде дорогою розробкою, яка відповідно буде дорого коштувати й для покупців. Щодо ж до оновленої Siri на основі Apple Intelligence, то вона найімовірніше з’явиться лише навесні 2025 року з релізом iOS 18.4. За даними Гурмана, деякі ШІ-функції Siri можуть зʼявитись і в iOS 18.3, але які саме, невідомо.

Нагадаємо, що під час WWDC 2024 Apple нарешті представила набір функцій на основі ШІ для iPhone, iPad та Mac, які компанія називає Apple Intelligence та які будуть глибоко інтегровані в iOS 18, iPadOS 18 та у новій macOS Seqoia. А як же саме порозумнішає Siri, читайте за посиланням.

7) Alexa від Amazon — це ще один із найпопулярніших віртуальних помічників на основі штучного інтелекту. Він доступний на багатьох пристроях компанії (колонки Echo, Echo Dot, Tap), в яких використовується голосова взаємодія, NLP, голосові запити та багато іншого для виконання завдань. Може працювати з будь-яким стороннім додатком або послугою завдяки відкритому API. Для деяких пристроїв існують супутні додатки в App Store, Google Play та Amazon Appstore.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
На фото пристрої з помічником Alexa від Amazon

Помічник може створювати списки справ, налаштовувати будильники, відтворювати аудіокниги, транслювати подкасти. Деякі з інших основних функцій включають інформацію в реальному часі про дорожній рух, новини, погоду, спорт тощо. Однією з найвідоміших функцій Alexa є слово, яке дозволяє користувачам активувати її. Це відрізняє Alexa від інших пристроїв, які потребують натискання кнопки. Цей AI Assistant наразі використовується на понад 100 мільйонах пристроїв. В червні 2024 року стало відомо, що Amazon планує суттєве оновлення свого голосового помічника Alexa, щоб включити в нього розмовний генеративний ШІ.

Проєкт, відомий всередині компанії як Banyan, стане першим капітальним оновленням голосового помічника з моменту його появи у 2014 році разом з лінійкою динаміків Echo. Оновлений помічник буде називатись Remarkable Alexa. «Ми вже інтегрували генеративний ШІ у компоненти Alexa та наполегливо працюємо над впровадженням у масштабах — у понад пів мільярда пристроїв із підтримкою Alexa, які вже є в домівках по всьому світу — щоб забезпечити ще більш проактивну, особисту та надійну допомогу нашим клієнтам», — сказано в заяві речниці Amazon.

8) Bixby — це віртуальний помічник від Samsung Electronics, доступний на смартфоні Galaxy S8 і новіших моделях. Він вперше був представлений на заході Samsung Galaxy Unpacked у 2017 році.

Bixby має чотири основні функції: Bixby Home — це головна сторінка Bixby, яка вивчає поведінку користувачів і рекомендує вміст, який підходить за різних обставин, забезпечуючи зручне використання. Щоб отримати доступ до Bixby Home, ви можете провести пальцем вправо на головному екрані або натиснути кнопку Bixby, розташовану збоку вашого пристрою; Bixby Voice — дозволяє керувати телефоном і програмами за допомогою голосового керування; Bixby Vision — розпізнає зображення предметів, надає інформацію, пов’язану з розпізнаними зображеннями, шукає товари для покупок і пропонує переклади; Bixby Reminder — запам’ятовує запити, зроблені користувачем, і сповіщає користувача про них відповідно до встановленого часу, місця та ситуації.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
Фото з презентації голосового помічника Bixby від Samsung

Можливостями голосового помічника Bixby є голосове управління девайсами; прості функції типу зміни шпалер робочого столу на телефоні або виведення відео на телевізор Samsung; сумісність зі сторонніми застосунками, управління ними; пошук різноманітної інформації в інтернеті; проведення платежів через Bixby Pay та інше.

З появою чат-ботів на кшталт ChatGPT функціональність голосового асистента стала явно застарілою. У квітні 2024 року виконавчий віцепрезидент мобільного бізнесу Samsung Electronics Вон Джун Чой розповів, що компанії потрібно переосмислити Bixby та додати асистенту функції генеративного штучного інтелекту.

«Bixby став ключовим голосовим помічником для Samsung не лише для мобільних пристроїв, але й для телевізорів і цифрових пристроїв, які існують в екосистемі. Тож досі це був основний голосовий помічник. З появою генеративного ШІ та технології LLM я вважаю, що ми повинні переглянути роль Bixby, щоб він міг бути оснащений генеративним штучним інтелектом і ставати розумнішим у майбутньому», — сказав Чой.

9) Google Assistant — розумний персональний асистент, розроблений компанією Google і представлений у 2016 році. Він має довгий перелік функцій та можливостей, але на базовому рівні він відповідає на будь-які запитання. Google Assistant дуже корисний, коли справа стосується особистих планів. Якщо у нього є доступ до вашого облікового запису Google та інших служб, він може надати більше, ніж просто загальну інформацію. Наприклад, ви можете запитати, чи є у календарі якісь події, отримати місцевий прогноз погоди, надіслати текстові повідомлення тощо. Неймовірно корисний він і для пристроїв розумного будинку.

Говорить ШІ: 10 чат-ботів та голосових помічників для спілкування
Фото з презентації Google Assistant

У січні 2024 року компанія Google оголосила про важливі зміни у роботі свого віртуального асистента. Було анонсовано видалення сімнадцяти «недостатньо використовуваних» функцій Google Assistant, наприклад, можливість використовувати голос для відправки електронної пошти або аудіоповідомлень. Крім того, Google дозволила користувачам Android перемикатися з Google Assistant на Gemini. А ще Gemini можна призначити стандартним ШІ-асистентом на мобільних пристроях. Схоже, що Google готова повністю видалити Assistant і замінити його на Gemini.

10) Якщо відійти від деяких звичних помічників штучного інтелекту, то одним із цікавих варіантів є ELSA Speak. Це застосунок, який допомагає покращити вимову англійської за допомогою ШІ, коротких діалогів та персоналізованих вправ. Є чудовим прикладом того, як цих помічників можна використовувати в освітніх цілях. Технології штучного інтелекту забезпечують миттєвий зворотний зв’язок, щоб допомогти користувачам швидко прогресувати. За даними компанії, застосунок було завантажено понад 4,4 млн разів, і він отримав понад 3,6 млн користувачів у 101 країні.

Додаток має пробний період та доступний як на Android, так і на iOS.

Очевидно, що у майбутньому технології чат-ботів і голосових помічників будуть зближатися. Експерти з ШІ вважають, що люди керуватимуть чат-ботами за допомогою мови, а ті, хто користується продуктами Apple, Amazon і Google, зможуть просити віртуальних помічників допомогти їм у роботі, а не лише у простих завданнях. «Ці продукти ніколи не працювали в минулому, тому що ми ніколи не мали можливостей діалогу на рівні людини. Тепер ми маємо», — зазначив понад рік тому виданню The New York Times Аравінд Срінівас, засновник Perplexity, стартапу, який пропонує пошукову систему на основі чат-бота. Схоже, він має рацію.

Bonus: А ще в контексті теми хочеться згадати важливий кейс та звернути вашу увагу на голосовий ШІ-сервіс Replika, яким не варто користуватися, адже за ним стоїть російський олігархат. Molfar та AIN у 2022 році вже розповідали про це. Основний напрямок роботи Replika — це психологічна підтримка через цифрового аватара. Компанія-розробник Luka заснована двома партнерами — це Євгенія Куйда та Філіп Дудчук. Обидва родом з рф, але свій стартап називали «американським з російським корінням». З початком повномасштабного вторгнення рф в Україну користувачі Replika помітили максимальну проросійськість сервісу.

Назва компанії недарма схожа на ім’я, що часто зустрічається в росії — Лука. А все тому, що так і є: Luka Inc названа на честь сина російського олігарха та ексспівласника комунікаційних компаній Yota та Мегафон — Сергія Адоньєва. Саме його Куйда називає своїм ментором та вчителем. Окрім того, «американський стартап з російським корінням» має й офіс у Москві. В росії ж зареєстрований і домен Luka.ai. В січні 2023 року повідомлялося про 10 мільйонів користувачів сервісом Replika.
Більше про репутацію «стартапу» можна почитати за посиланням.