Нещодавно президент України Володимир Зеленський дав величезне інтерв’ю відомому блогеру зі США Лексу Фрідману. Розмову можна подивитися та послухати трьома мовами одночасно — українською, англійською і російською завдяки американському ШІ-сервісу ElevenLabs, який зробив паралельний переклад.

У тригодинній розмові йшлося про мирні переговори, НАТО і безпекові гарантії для України, військову допомогу США, воєнний стан та вибори, а також про Дональда Трампа та Ілона Маска. Цікавою особливістю є той факт, що штучний інтелект навіть у перекладі зберіг голос Володимира Зеленського автентичним: інтонації, емоції та стиль мовлення відчутні, незалежно від того, якою мовою ви слухаєте інтерв’ю.

Розповідаємо, як заснований поляками стартап ElevenLabs отримав статус «єдинорога» (оцінку в $1 млрд), в чому його ключові особливості та як саме сервіс використовують тролі та російські пропагандисти.

Що таке сервіс ElevenLabs та як він працює?

Компанія ElevenLabs зі штаб-квартирою в Нью-Йорку заснована у 2022 році колишнім ML-інженером Google Пьотром Дабковскі та колишнім розробником стратегій розгортання в Palantir Маті Станішевскі. Ідея створення з’явилася через бажання поліпшити якість дубляжу: Пьотр і Маті ненавиділи неякісний дубляж голлівудських фільмів в дитинстві.

ШІ-сервіс ElevenLabs переклав інтерв’ю Зеленського Лексу Фрідману. Що це за стартап та як він працює?
Пьотр Дабковскі та Маті Станішевскі, засновники компанії ElevenLabs; фото з сайту forbes.pl

Мета стартапу — бажання допомогти подолати мовні бар’єри у контенті. Зараз компанія розробляє інструменти для створення та редагування синтетичних голосів. По суті ElevenLabs — це онлайн-генератор голосу на базі ШІ, доступ до якого можна отримати прямо з веббраузера. Вже у червні 2023 року компанія залучила $19 млн інвестицій: раунд серії A очолили американський венчурний фонд Andreessen Horowitz, ex-CEO GitHub Нат Фрідман та екскерівник ШІ-відділу в бізнес-інкубаторі Y Combinator Даніель Гросс; вартість компанії тоді оцінили в $100 млн.

А вже у січні 2024 року стартапу вдалося отримати $80 млн інвестицій: тоді Bloomberg із посиланням на виконавчого директора проєкту Маті Станішевські повідомив, що оцінка компанії сягнула $1,1 млрд. Так, менше ніж за рік, сервіс ElevenLabs став «єдинорогом». Після залучення коштів Станішевскі відзначив, що ElevenLabs планує вийти на використання сервісу в аудіокнигах, відеоіграх, медіа, дубляжі фільмів та створенні повноцінних ШІ-акторів. На січень 2024 року в компанії працювало лише 40 співробітників, але в планах значилося розширити штат до 100 осіб.

ШІ-сервіс ElevenLabs переклав інтерв’ю Зеленського Лексу Фрідману. Що це за стартап та як він працює?
Команда стартапу ElevenLabs; фото з сайту компанії

Через кілька місяців після запуску інструментів у бета-версії до ElevenLabs приєднався перший мільйон користувачів. Компанія спиралася і на дослідження голосу ШІ, запустивши AI Dubbing, інструмент перетворення мови в мову, який дозволив перекладати аудіо і відео вже 32 різними мовами, зберігаючи голос, емоції та стиль мовлення оригінального спікера.

Технологія компанії пропонує наразі два основних способи створення аудіо: перетворення тексту в мову та перетворення аудіо в інше аудіо з використанням різних голосів. ElevenLabs підходить для різних завдань — від створення аудіокниг і подкастів до озвучування навчальних відео та роботи з віртуальними асистентами. А ще сервіс надає інструменти для налаштування голосу: можна змінювати тон, швидкість та навіть емоції, що робить процес створення голосу гнучким та дозволяє отримати результат, який ідеально збігається з задумом користувача.

За словами Маті Станішевскі, технологія ElevenLabs поєднує у собі розпізнавання контексту та високий рівень стиснення для передачі надреалістичного мовлення. «Замість того, щоб генерувати речення одне за одним, фірмова модель створена для розуміння взаємозв’язків між словами та коригує їх передачу на основі ширшого контексту. Ця модель також не має жорстко запрограмованих функцій. Це означає, що вона може динамічно передбачати тисячі характеристик голосу під час генерації мови. Ми постійно вступаємо в нові B2B партнерства, їх створено вже понад 100. Голоси ШІ мають широке застосування — від надання можливості творцям покращити досвід аудиторії, до розширення доступу до освіти та надання інноваційних рішень у видавництві та розвагах», — пояснив виданню VentureBeat співзасновник стартапу.

Серед ключових функцій ElevenLabs можна виділити наступні:

▪️висока якість голосу зі штучним інтелектом — сервіс пропонує кілька мовних моделей, які можна вибрати для різних мов і потреб;

▪️зручне та легке налаштування — в онлайн-інтерфейсі ви можете налаштовувати параметри голосу для всього проєкту: регулювати стабільність, схожість, а також додавати стиль;

▪️бібліотека голосів — сервіс надає понад 100 готових голосів; також ви можете створити власний голос у розділі VoiceLab; а ще є можливість налаштовувати нові голоси чи завантажувати аудіофайли для клонування;

▪️простий та інтуїтивний інтерфейс — легко зрозуміти, як все працює; генератор голосу дозволяє змінювати голоси безпосередньо на тій же сторінці, без необхідності використовувати додаткові інструменти.

ElevenLabs пропонує кілька тарифів для різних потреб:

План Ціна Кредити/місяць Аудіо/місяць Основні функції
Free $0 10,000 ~10 хвилин Генерація голосу в 32 мовах, переклад з автоматичним дублюванням, створення унікальних голосів, звукові ефекти, доступ до API
Starter $5/місяць 30,000 ~30 хвилин Все з Free, плюс клонування голосу (від 1 хв аудіо), доступ до студії дубляжу для налаштування перекладу та синхронізації, ліцензія на комерційне використання
Creator $11/місяць 100,000 ~2 години Все з Starter, плюс професійне клонування голосу, проєкти для довгого контенту з кількома голосами, якісніший звук
Pro $99/місяць 500,000 ~10 годин Все з Creator, плюс покращений вихід звуку (44.1 kHz PCM)
Scale $330/місяць 2,000,000 ~40 годин Все з Pro, пріоритетна підтримка
Business $1,320/місяць 11,000,000 ~180 годин Все з Scale, плюс Turbo-модель ($50/мільйон кредитів при річній оплаті), 3 професійні клони голосів, пріоритетна підтримка
Enterprise Індивідуально Необмежено Необмежено Все з Business, плюс повний доступ до API, налаштовувані умови, гарантії безпеки, опитувальники з безпеки, підтримка SSO, більше голосів та операцій щомісяця

У 2023 році сервіс додав 20 мов до своїх ШІ-дубляжів. Так в ElevenLabs з’явилася українська, польська, іспанська, японська та арабська мови. А вже у 2024 році «стартап-єдинорог» запустив загальнодоступний додаток. ElevenLabs Reader: AI Audio може розпізнавати та озвучувати текст з вебсторінок і PDF-файлів, використовуючи 11 різних голосів. Окрім вебверсії, сервіс тепер доступний і для основних мобільних платформ: Android і іOS.

Технології компанії використовуються і для голосової взаємодії на пристрої Rabbit r1, а також для функцій text-to-speech у пошуковій системі зі штучним інтелектом Perplexity та аудіоплатформах PocketFM і KukuFM. ElevenLabs Reader: AI Audio став першим продуктом сервісу, орієнтованим на масового споживача. Найближчим конкурентом застосунку компанії є Speechify, який пропонує додаткові функції: сканування документів для розпізнавання тексту, інтеграцію з Gmail та Canvas. Нещодавно ElevenLabs представила функцію, що дозволяє завантажувати різні типи контенту для створення подкасту з кількома спікерами: функцію GenFM можна знайти в застосунку ElevenLabs Reader для iOS. Наразі GenFM підтримує 32 мови. У 2024 році компанія запустила і модель перетворення тексту на музику, а також функцію Voice Isolator, яка видаляє фоновий шум з аудіо.

А ще компанія заявила про $11 млн інвестицій у польську стартап-екосистему та відкриття офісу у Варшаві, який стане центром розробок для залучення талантів у галузі ШІ. Стартап також хоче розширити свою присутність в Індії, де вже найняв керівника бізнесу та формує команду.

Щодо алгоритмів синтезу мови, трансформації голосу та розпізнавання записів CEO у DevRain та автор книжки про генеративний ШІ Олександр Краковецький розповів нам наступне: «Мовлення (у вигляді аудіо) можна представити у вигляді спектограми, яка піддається аналізу та обробці (ця галузь має назву signal processing). На базі навчальних даних моделі штучного інтелекту вчаться розпізнавати шаблони, як-от окремі звуки, слова, шум, а зараз і більш складні шаблони, як-от інтонацію, діалект тощо. Ці визначені шаблони потім перетворюються у текст (speech to text). Як правило, для цього використовуються саме нейронні мережі».

ШІ-сервіс ElevenLabs переклав інтерв’ю Зеленського Лексу Фрідману. Що це за стартап та як він працює?
Олександр Краковецький, CEO у DevRain, CTO у DonorUA та автор книжки про генеративний ШІ

Він також зазначив, що за допомогою інших моделей відбувається синтез мовлення, який полягає в тому, щоб на основі створеного синтетичного голосу генерувати мовлення, як правило, з тексту (text to speech).

«При генеруванні нової спектограми можна змінити тональність, швидкість, тембр тощо. Фактично, змінивши «голос» (voice generation). Якщо робити всі ці кроки окремо, то це займає багато часу, що унеможливлює обробку в реальному часі. Але за останні кілька років з’явилися кращі моделі, які здатні перетворювати мовлення в мовлення без конвертації у текст (speech to speech), що дозволило синтезувати мовлення якісно і швидко, що і стало причиною появи такого поняття як нейродубляж», — пояснив фахівець. За його словами, компанії на кшталт Microsoft та Google давно пропонують технології перетворення тексту у мовлення і мовлення у текст. Однак, ці моделі підтримували, як правило, лише дуже популярні мови. Також вони все ще мають проблеми з наголосами і обмежену кількість голосів. Тому, на думку Олександра Краковецького, ElevenLabs багато в чому вдалось розв’язати вищезгадані проблеми, що дало можливість компанії стати лідером ринку.

«У майбутньому штучний інтелект дозволить легко локалізовувати контент різними мовами, створювати персоналізовані голоси, перекладати навчальні курси, онлайн трансляції та YouTube відеоролики, озвучувати фільми, відеоігри, проводити ділові зустрічі та офіційні перемовини без перекладачів, створювати цифрові асистенти тощо», — підсумував CEO у DevRain та CTO у DonorUA Олександр Краковецький.

А ось український актор дубляжу Олексій Сафін, який озвучував різних персонажів у комп’ютерних іграх Metro Exodus, «S.T.A.L.K.E.R. 2: Серце Чорнобиля», Quake II, співпрацює з ElevenLabs як диктор. Він надав свій голос для використання у проєкті text-to-speech. За словами Олексія, пасивний заробіток є одним із плюсів такої співпраці: актор отримує роялті щоразу, коли клієнти Elevenlabs використовують його голос.

ШІ-сервіс ElevenLabs переклав інтерв’ю Зеленського Лексу Фрідману. Що це за стартап та як він працює?
Олексій Сафін, актор дубляжу; озвучував персонажів у іграх Metro Exodus, «S.T.A.L.K.E.R. 2: Серце Чорнобиля», Quake II

«Мінуси незначні. Вони більше стосуються внутрішніх технічних моментів. Про клієнтів можу лише здогадуватись, але вже бачив багато роликів у Instagram, TikTok та YouTube, озвучених моїм голосом, згенерованим на Elevenlabs. Тож роблю висновок, що послугами компанії користується доволі широке коло контент-мейкерів, блогерів і навіть два великих українських медіахолдинга. Багато дикторів та акторів дубляжу бояться, що з розвитком ШІ вони залишаться без роботи. Моя думка — не залишимось. Гарно написаний код, якісно оброблений звук, додаткові налаштування швидкості, плавності, інтонаційного розмаїття клонованого голосу — це все круто, але будь-яка «озвучка», зроблена ШІ, не має «душі», і це відчувається навіть пересічним слухачем. Це називають відчуттям «мертвої долини». Тому штучна генерація голосу не замінить «живого» актора-диктора», — розповів нам український актор дубляжу.

На його думку, штучний інтелект добре підходить, коли потрібно озвучити більш-менш якісно великі об’єми інформації з мінімальними витратами. «Наприклад, ШІ без проблем впорається з озвучкою інструкції для будь-якого приладу, і байдуже, що воно звучатиме без душі. Я вбачаю в цьому хороший інструмент для задоволення базових потреб клієнта/замовника і саме тому вирішив «віддати» свій голос у використання Elevenlabs. Можливо, і настане той день, коли він зазвучить краще, ніж я «наживо», але наразі роботи вистачає і для мого «клона» і для мене, що не може не радувати», — підсумував диктор Олексій Сафін.

Скандали та ElevenLabs: тролі, росіяни та обурені актори

Запуск сервісу ElevenLabs не обійшовся без проблем. Інтернет-тролі негайно скористалися відкритим доступом до технології та почали поширювати у соцмережах фейкові аудіозаписи, в яких голоси відомих персон вимовляли образливі вислови, оголошували війни чи цитували Гітлера. Так, деякі користувачі анонімного англомовного іміджборду 4chan використовували платформу синтезу голосу ElevenLabs для клонування голосів знаменитостей і зачитування аудіо — від мемів та еротики до мови ворожнечі та дезінформації. Про зловживання ПЗ компанії вперше повідомило видання Motherboard, яке виявило на сайті 4chan постери, що поширювали згенеровані штучним інтелектом голосові кліпи, схожі на голоси відомих особистостей, зокрема Емми Вотсон і Джо Рогана:

«В одному прикладі згенерований голос, схожий на голос акторки Емми Вотсон, читає розділ з «Майн Кампф». В іншому — голос, дуже схожий на голос Бена Шапіро, робить расистські зауваження про Александрію Окасіо-Кортес. У третьому — душать людину, яка каже, що «права трансгендерів — це права людини».

ШІ-сервіс ElevenLabs переклав інтерв’ю Зеленського Лексу Фрідману. Що це за стартап та як він працює?
У 4chan використовували голоси знаменитостей для зловживань

Тоді ElevenLabs у соцмережі X (ex-Twitter) визнала це зловживання і заявила, що вивчатиме способи пом’якшення цих проблем. Компанія зазначила, що може «відстежити будь-яке згенероване аудіо до користувача», і вивчатиме такі заходи безпеки, як перевірка особи користувача і ручна перевірка кожного запиту на клонування голосу.

За даними різних правозахисних організацій, від акторів дубляжу тепер все частіше просять підписувати права на свої голоси, щоб клієнти могли використовувати штучний інтелект для створення синтетичних версій, які з часом можуть їх замінити, причому інколи без додаткової компенсації. Ці контрактні зобов’язання — лише одне з багатьох занепокоєнь акторів у зв’язку розвитком штучного інтелекту, який генерує голоси. ШІ, за їхніми словами, загрожує витіснити цілі сегменти індустрії з ринку праці.

З одного боку ElevenLabs встановлює чіткі правила використання своєї технології, забороняючи клонування голосів у образливих цілях, таких як шахрайство, дискримінація, розпалювання ненависті, з іншого боку компанія підтримує використання платформи для «карикатур, пародій та сатири», а також для «художніх і політичних промов, дебатів». А ще компанія заявила про свої повноваження призупиняти дії облікових записів і контенту користувачів, викритих у порушенні цих правил.

Напередодні праймериз Демократичної партії США у Нью-Гемпширі в січні 2024 року тисячі громадян отримали автоматичні дзвінки, згенеровані штучним інтелектом, нібито від Джо Байдена, які закликали виборців пропустити голосування у день праймериз. Генпрокуратура Нью-Гемпшира тоді розпочала розслідування інциденту і зв’язала його з компанією, що базується в Техасі, але експерти дійшли висновку, що дзвінок було зроблено за допомогою технологій ElevenLabs. У відповідь на інцидент CEO компанії Маті Станішевскі заявив, що ElevenLabs «прагне запобігти неправомірному використанню аудіоінструментів штучного інтелекту», але не надав жодних коментарів щодо конкретних інцидентів.

У грудні 2024 року з’явилася інформація про те, що рф використовує штучний інтелект від ElevenLabs для генерації голосів, щоб підірвати підтримку України на Заході. Як сказано у звіті компанії з кібербезпеки Recorded Future, росія використовує генеративний ШІ у новій пропагандистській кампанії, спрямованій на дискредитацію України та підрив допомоги з боку європейських країн. У фейкових відео активно використовувалися голоси, згенеровані за допомогою сервісу ElevenLabs.

ШІ-сервіс ElevenLabs переклав інтерв’ю Зеленського Лексу Фрідману. Що це за стартап та як він працює?
Скриншот зі звіту компанії Recorded Future

За організацією цієї кампанії стояла «Агенція соціального дизайну» — російська структура, яка знаходиться під санкціями США. У відео, орієнтованих на європейську аудиторію, українських політиків звинувачували в корупції, а західну техніку, зокрема американські танки Abrams, виставляли як неефективну. Експерти встановили, що декілька відео були озвучені реальними людьми. Це з’ясувалося через помітний російський акцент. Журналісти раніше дослідили, що дана агенція використовує дезінформацію для дискредитації України та просуває інтереси рф. Нею керує російський політтехнолог Ілля Гамбашидзе.

Як повідомляв TechCrunch, за допомогою штучного інтелекту від ElevenLabs росіяни швидко перекладали відео на кілька європейських мов: англійську, німецьку, французьку, польську та турецьку. Для підтвердження, що голоси на відео було створено за допомогою ШІ, компанія Recorded Future використала інструмент AI Speech Classifier від ElevenLabs. Він це підтвердив. У відповідь на ці інциденти в ElevenLabs запровадили нові заходи безпеки, щоб обмежити використання їхніх технологій для обману, зокрема автоматично блокуючи голоси політиків.