Компанія Meta створила модель MusicGen, яка за допомогою штучного інтелекту здатна генерувати нові музичні твори на основі текстових підказок, повідомляє The Decoder.

Подібно до того, як мовна модель передбачає наступні символи у реченні, MusicGen передбачає наступну частину музичного твору. Для її навчання було використано 20 тис. годин ліцензійної музики.

Модель унікальна тим, що може обробляти як текстові, так і музичні підказки. Текст задає основний стиль, який потім відповідає мелодії в аудіофайлі.

Порівняно з іншими музичними моделями, такими як Riffusion, Mousai, MusicLM та Noise2Music, MusicGen має кращі показники як за об’єктивними, так і за суб’єктивними метриками, які перевіряють, наскільки добре музика відповідає тексту та наскільки правдоподібною є композиція. Тести показують, що продуктивність MusicGen можна порівняти з Google MusicLM.

Мета випустила модель ШІ з відкритим вихідним кодом на Github, дозволяючи комерційне використання. Демонстраційна версія доступна на Huggingface.

Раніше повідомлялося, що Meta створила мовну модель штучного інтелекту, яка здатна розпізнавати понад 4 000 розмовних мов і відтворювати мовлення більш ніж 1 100 мовами. Йдеться про проєкт Massively Multilingual Speech (MMS) і він не є клоном ChatGPT. Meta надає до нього відкритий доступ.