ElevenLabs виходить на ринок розпізнавання мови зі Scribe — моделлю перетворення голосу в текст

Тарас Міщенко Головний редактор Mezha.Media. Тарас має понад 15 років досвіду в IT-журналістиці, пише про нові технології та ґаджети.

27 лютого, 11:33

ElevenLabs, стартап у сфері штучного інтелекту, який нещодавно дозволив подкастеру Лексу Фрідману перекласти інтервʼю Володимира Зеленського багатьма мовами, запустив свою першу самостійну модель перетворення голосу в текст під назвою Scribe. Це перший вихід компанії за межі аудіогенерації, який має дозволити їй конкурувати з таким компаніям, як Gladia, Speechmatics, AssemblyAI, Deepgram та Whisper від OpenAI у галузі розпізнавання мови, повідомляє TechCrunch.

Запуск відбувся незабаром після того, як ElevenLabs залучила $180 мільйонів фінансування, що підвищило її оцінку до $3,3 мільярда. Раніше компанія в основному зосереджувалася на послугах перетворення тексту в мову за допомогою широкої бібліотеки синтетичних голосів. Тепер вона прагне використати свій досвід для вдосконалення розпізнавання мови та точності транскрибування.

Модель Scribe підтримує понад 99 мов, при цьому 25 мов потрапляють до категорії "відмінна точність", що визначається показником помилки слів (WER) менш як 5%. До цих мов входять англійська (з заявленою точністю 97%), французька, німецька, хінді, індонезійська, японська, каннада, малаялам, польська, португальська, іспанська, в’єтнамська та українська. Інші мови мають високу (5%-10% WER), хорошу (10%-20% WER) або помірну (25%-50% WER) точність.

Компанія стверджує, що Scribe перевершує Google Gemini 2.0 Flash і Whisper Large V3 в тестах на базі FLEURS та Common Voice, демонструючи свою конкурентоспроможність.

Scribe включає кілька передових функцій:

Розрізнення спікерів (speaker diarization) для визначення, хто говорить;
Тимчасові мітки на рівні слів для точного синхронізованого субтитрування;
Автоматичне маркування звукових подій, таких як сміх аудиторії;
Прямий транскрипт відеоконтенту для додавання субтитрів та підписів.

На цей час Scribe працює тільки з попередньо записаними аудіоформатами, що робить її непридатною для транскрипції зустрічей або живих розмов. Однак ElevenLabs планує випустити версію з низькою затримкою для реального часу найближчим часом.

Розробка Scribe показує ширші амбіції ElevenLabs в області технологій штучного інтелекту для голосу. Хоча компанія спочатку створювала компоненти для розпізнавання мови в рамках своєї платформи для ШІ-агентів, це її перша самостійна модель транскрибування.

В інтерв’ю TechCrunch генеральний директор ElevenLabs Маті Станішевський підкреслив необхідність покращення моделей розпізнавання мови:

"Ми хочемо краще розуміти, що саме говориться під час розмови. Багато хто вважає, що перетворення мови в текст — це розв'язана проблема, але для багатьох мов точність досі погана. Ми віримо, що можемо створити кращі моделі розпізнавання мови, оскільки маємо внутрішні команди для анотації даних та швидкого зворотного зв’язку."

Ціна на Scribe складає $0,40 за годину транскрибованого аудіо. Хоча це конкурентоспроможний тариф, деякі конкуренти наразі пропонують нижчі ціни й інші функціональні відмінності. З усім тим, сильні позиції ElevenLabs у галузі аудіо-ШІ та зростаючі можливості в розпізнаванні мови можуть зробити компанію серйозним гравцем на цьому ринку.

Якщо вас не зацікавили можливості Scribe від ElevenLabs, ми нещодавно писали про сервіси для транскрибування, які добре працюють з українською мовою.

Штучний інтелект Транскрибування

Поділитися:

ElevenLabs виходить на ринок розпізнавання мови зі Scribe — моделлю перетворення голосу в текст

Топ обговорень

Останні новини

Новини партнерів