Штучний інтелект можна навчити без порушення авторських прав — дослідження

Мирослав Трінько - 6 червня, 18:37

Компанії зі сфери ШІ стверджують, що їхні моделі неможливо створити без навчання на матеріалах, захищених авторським правом. Але, як з’ясувалося, це цілком можливо — просто дуже складно. Про це пише The Washington Post.

Щоб це довести, дослідники створили нову модель, менш потужну, зате значно етичнішу. Її навчили виключно на даних з відкритих джерел і матеріалах, що перебувають у суспільному надбанні.

Над дослідженням працювали науковці з 14 установ, зокрема з MIT, Університету Карнегі-Меллона та Торонтського університету. До проєкту також долучилися некомерційні організації, такі як Vector Institute та Інститут ШІ Аллена.

Дослідники зібрали 8 ТБ етично отриманих даних, серед яких — 130 тисяч книг із Бібліотеки Конгресу США. На основі цього вони навчили велику мовну модель (LLM) з 7 мільярдами параметрів. В результаті модель показала продуктивність, приблизно співмірну з Llama 2-7B від Meta зразка 2023 року. Щоправда, автори не публікували порівняння з найпотужнішими сучасними моделями.

Процес підготовки даних виявився виснажливим. Багато інформації не читалася автоматичними інструментами, тому її доводилося вручну перевіряти та анотувати.

"Ми використовували автоматизовані засоби, але наприкінці все вручну перевіряли люди", — розповіла співавторка Стелла Бідерман.

Також складно було визначити, які ліцензії поширюються на кожне джерело.

Це дослідження навряд чи змінить стратегії великих компаній — їм вигідніше створювати потужніші моделі з меншими затратами. Але тепер у суперечках щодо авторських прав у ШІ з’явиться новий вагомий контраргумент.