Українська правда

Перетворити пряму мову на текст: як працюють та скільки коштують сервіси для транскрибування

Перетворити пряму мову на текст: як працюють та скільки коштують сервіси для транскрибування
0

Технології щодня спрощують наше життя – перекладаючи на них рутинні завдання, ми зберігаємо сили та час. Наприклад, це стосується перетворення аудіо на текст. Для людини це своєрідний "квест на витривалість": знову й знову слухати запис, намагатися зрозуміти нерозбірливі слова та радіти, якщо спікер говорить чітко та неквапливо.

Сучасні рішення значно полегшують цей процес. У мережі є чимало інструментів для транскрибування, які можуть виконувати цю роботу швидко та якісно. Ми на "Межі" підібрали чотири сервіси та перевірили, наскільки добре вони функціонують. Кожен із них підтримує українську мову та пропонує різні можливості.

Для тестування записали уривок повісті "Кайдашева сім'я" Івана Нечуя-Левицького та перетворили його на текст обраними інструментами. Далі розповідаємо, що з цього вийшло.

Початок повісті Кайдашева сім'я Івана Нечуя-Левицького
Початок повісті "Кайдашева сім'я" Івана Нечуя-Левицького

Any to Text

Цей онлайн-сервіс автоматично конвертує на текст як аудіо, так і відео. Він використовує штучний інтелект та працює доволі просто: користувач має завантажити запис, натиснути кнопку Transcribe і чекати на результат.

На сайті вказано, що Any to Text підтримує різні формати аудіо та відео. Серед них: MP4, MKV, FLV, AVI, MOV, WMV, M4A, MP3, Ogg, AAC, WAV, FLAC, WMA. Сервіс автоматично розпізнає понад 50 мов і дозволяє експортувати готовий файл у форматах .docs, .xlsx, .srt або .txt.

Щоб спробувати інструмент, користувачі можуть безплатно розшифрувати 15 хвилин запису. А далі Any to Text пропонує різні плани підписки за зниженою ціною: 100 хвилин (за $3,2), 500 хвилин (за $14) або 1000 хвилин (за $25).

Any to Text обіцяє точність до 98%. Однак тестування засвідчило, що насправді якість дещо нижча. Те, як інструмент впорався з українським текстом, можна побачити на скрині нижче. Із плюсів – весь процес триває лічені хвилини.

Транскрибування за допомогою Any to Text
Транскрибування за допомогою Any to Text

Good Tape

Сервіс розробили журналісти, які "провели тисячі годин у ньюзрумах, медіацентрах та редакціях, висмикуючи собі волосся, бо ненавиділи розшифровувати вручну". Вони вирішили все спростити – для себе та всіх інших.

Цей інструмент також використовує штучний інтелект і привертає увагу своєю простотою. Як і в попередньому випадку, Good Tape дозволяє завантажити файл, натиснути Transcribe і побачити готовий результат.

Щодо функціональності, то сервіс транскрибує аудіо/відео та підтримує більшість, якщо не всі, формати. Користувачі можуть завантажувати файли до 2 ГБ кожен.

Інструмент розпізнає понад 100 мов і діалектів та дає змогу експортувати файли у форматах .docs, .srt або .txt. Якість конвертованих файлів видається трохи кращою, проте до бажаної досконалості ще далеко.

Транскрибування за допомогою Good Tape
Транскрибування за допомогою Good Tape

Тим часом Good Tape акцентує, що не використовує файли користувачів для навчання ШІ або будь-яких інших цілей. Команда запевняє: "Ваші файли належать вам". Також сервіс вказує, що відповідає вимогам GDPR (General Data Protection Regulation).

У Good Tape є "Безплатний", "Професійний" та "Командний" плани підписки. За умовами першого, щомісяця можна безплатно конвертувати до трьох файлів тривалістю до 30 хвилин кожен. Серед мінусів – довгий процес. Приміром, обробка 35-секундного аудіо тривала близько години.

"Професійний" план – це 20 годин записів та вища швидкість обробки. Користувачам також пропонують автоматичне розпізнавання спікерів та короткий підсумок розшифрованого тексту. А ще переваги, як-от пріоритетний доступ до нових функцій.

Вартість "Професійного" тарифу становить 15 євро на місяць, але перший місяць коштує 9 євро. При річній підписці місячна вартість знижується до 13,75 євро.

"Командний" план Good Tape призначений для груп від 5 осіб. Вартість і конкретні умови цього тарифу не вказують – їх обіцяють підготувати на індивідуальний запит.

Sonix AI

Серед чотирьох представлених у списку сервісів цей має ледь не найбільшу функціональність. Використовуючи новітні технології ШІ, компанія створила платформу для транскрибування, перекладу та аналізу.

Насамперед тут можна виконати дослівне розшифрування аудіо- або відеофайлу до 4 ГБ з усіма вигуками, паузами чи запинками. Для цього на платформу слід завантажити файл з ПК, Dropbox, Google Drive, YouTube або вказати посилання на відео.

Далі Sonix AI пропонує автоматично або вручну визначити мову чи діалект на записі з-поміж 53+ доступних варіантів. Наступний крок – перехід власне до конвертації.

Незалежно від того, платна це версія чи ні, весь процес забирає кілька хвилин. Готовий текст можна редагувати, копіювати, виділяти кольором, додавати нотатку тощо. Він містить часові мітки та визначає спікерів.

Платформа підтримує більшість форматів аудіо та відео. Експортувати файл можна у форматах: .docs, .txt, .pdf, .srt, .vtt, .ttml, .csv, .sesx, .xml, .fcpxml, wav або mp3. Якість результату, за винятком кількох помилок, – гарна.

Mezha

Щодо перекладу, то компанія обіцяє долати "мовні бар'єри", виконуючи його швидко та точно – знов-таки завдяки ШІ. За твердженнями Sonix AI, технологія не просто перекладає слова, а адаптує контент до цільової аудиторії та контексту.

А от інструменти для аналізу дозволяють користувачам глибше занурюватися в їхній контент, визначати його ключові теми та навіть звертати увагу на настрої аудиторії.

Втім, Sonix AI – це не лише про наявні можливості, а й про майбутні. Наприклад, зараз компанія дає змогу оформити ранній доступ до функції перетворення аудіо та відео на текст у режимі реального часу, реліз якої планують незабаром.

Крім того, вона має великий попит на транскрибування медичної інформації та пропонує ранній доступ до сервісу, який відповідатиме вимогам HIPAA (Health Insurance Portability and Accountability Act).

Sonix AI надає 30 хвилин безплатної конвертації звуку на текст, але для цього потрібно зареєструватися на платформі. Також є три платні плани: "Стандартний", "Преміум" та "Корпоративний".

"Стандартний" не має плати за підписку. В його межах користувач може скористатися сервісом розшифрування та перекладу. Вартість – $10 за годину запису.

"Преміум" – це план із можливістю доступу для кількох користувачів. Він пропонує перетворення запису на текст або аналіз за $5 за годину та переклад за $3 за годину. Окрім погодинної оплати, необхідно оформити підписку: $22 на місяць за кожного користувача при помісячній оплаті або $16,5 на місяць при оплаті за рік.

"Корпоративний" план передбачає доступ понад п'ятьом користувачам, його ціни та умови обговорюються індивідуально.

TurboScribe

Цей ШІ-сервіс передусім фокусується на конвертації аудіо та відео, перетворюючи їх на текст понад 98 мовами. Але принцип його роботи дещо відрізняється від інструментів, описаних вище.

Як і попередні, TurboScribe теж підтримує найбільш поширені формати. Проте після завантаження файлу треба обрати один із трьох режимів розшифрування: гепард (найшвидший), дельфін (збалансований) і кит (найточніший).

Крім того, тут потрібно самостійно обрати мову, на бажання налаштувати розпізнавання спікерів та прибрати фоновий шум для покращення якості звуку. Після цього можна запускати обробку файлу – вона відбувається швидко.

Далі готовий текст можна редагувати, перекладати, поширювати, підсумовувати, експортувати. Щодо якості транскрибування TurboScribe, то її можна вважати непоганою, хоч і неідеальною.

Транскрибування за допомогою TurboScribe
Транскрибування за допомогою TurboScribe

Одна з характерних особливостей сервісу – умови використання. За день користувачі можуть безплатно розшифрувати до 3 файлів тривалістю до 30 хвилин кожен.

Охочі також можуть обрати план TurboScribe Unlimited і отримати необмежене транскрибування та обробку записів, тривалість яких становить до 10 годин. При цьому допускається завантаження файлів до 5 ГБ кожен. Вартість плану за зниженою ціною $20 на місяць при помісячній оплаті або $10 за місяць при оплаті на рік.

Крім цього, є TurboScribe for Teams – план для команд з необмеженим транскрибуванням. Його щорічна вартість становить $120 за кожного користувача.

Поділитися:
Посилання скопійовано
Реклама:
Реклама: