Минулого тижня Meta анонсувала власний спосіб аудіокомпресії EnCodec. Він містить роботу штучного інтелекту, при якому можна досягнути до десяти разів більшу компресію за mp3 64 Кбіт/с без втрати якості. Meta вказує, що така технологія дозволить значно поліпшити якість передачі голосу при поганому зв’язку (наприклад, телефонних дзвінках при слабкому сигналі). Але також це може працювати й з музикою.

Технологію представили в роботі «Високоточне нейронне стиснення аудіо» (High Fidelity Neural Audio Compression) працівники Meta: Александр Дефоссе (Alexandre Défossez), Джейд Копет (Jade Copet), Габріель Сіннев (Gabriel Synnaeve) та Йоссі Аді (Yossi Adi). Також про неї розповіли в корпоративному блозі.

Компанія описує систему з трьох частин. Спершу дані стискаються до «прихованого простору» (latent space) з нижчою частотою. Після чого «квантувач» (quantizer) стискає файл до зазначеного розміру, зберігаючи при цьому найважливіші дані, які пізніше використає третя частина. Отриманий файл і передається далі Мережею або зберігається в накопичувачі. І вже після цього він декодується в режимі реального часу, де нейронна мережа відтворює аудіофайл використовуючи лише ЦП.

Аудіокодек від ШІ Meta обіцяє до десяти разів ефективнішу компресію порівнянно з mp3

Ключ до стиснення з втратами полягає в тому, щоб визначити зміни, які не будуть сприйняті людиною, оскільки ідеальна реконструкція неможлива за низьких бітрейтів. Для цього ми використовуємо дискримінатори, щоб покращити сприйнятливу якість згенерованих семплів. Це створює гру в «кішки-мишки», де робота дискримінатора полягає в тому, щоб розрізняти реальні та реконструйовані семпли. Модель стиснення намагається генерувати їх, щоб обдурити дискримінатори, підштовхуючи реконструйовані семпли до більш схожих на сприйняття оригінальних семплів.

Тут варто відзначити, що використання нейронних мереж для обробки звуку не є чимось новим, особливо для голосових записів. Але команда Meta стверджує, що вони вперше залучили технологію для частоти дискретизації у 48 кГц, яка частіше за все використовується для музичних файлів.

Щодо використання, Meta каже, що така технологія може значно покращити якість дзвінків при слабких умовах з’єднання. І, звісно, EnCodec може використовуватися у метавсесвітах, забезпечуючи «багатий досвід метавсесвіту, не вимагаючи серйозних покращень пропускної здатності». З часом, можливо, вона також дозволить зменшити розмір музичних файлів. 

Наразі технологія EnCodec залишається на стадії дослідження.