Чотири розробники в сфері штучного інтелекту створили бенчмарк, який дає змогу “зіткнути” в поєдинку різні великі мовні моделі (LLM) в Street Fighter III, повідомляє The Register.

Бенчмарк отримав назву LLM Colosseum та був створений під час хакатону Mistral у Сан-Франциско минулого місяця. Тест інформує мовну модель про все, що відбувається в грі, а модель відповідає, враховуючи правила гри.

Бенчмарк можна відтворити своїми силами, проєкт розміщений на GitHub для всіх охочих.

Згідно з офіційним списком лідерів LLM Colosseum, який базується на 342 поєдинках між вісьмома різними LLM, ChatGPT-3.5 Turbo є беззаперечним переможцем із рейтингом Elo 1,776.11. Це значно випереджає кілька ітерацій ChatGPT-4, які мають рейтинг в діапазоні від 1 400 до 1 500 балів.

За словами Ніколаса Ульянова, одного з розробників LLM Colosseum, баланс між ключовими характеристиками робить LLM хорошим навіть у Street Fighter III. GPT-3.5 Turbo має хороший баланс між швидкістю та потужністю. GPT-4 – більша модель, а отже, розумніша, але набагато повільніша.

Різниця між ChatGPT-3.5 і 4 в LLM Colosseum свідчить про те, які функції є пріоритетними в новітніх LLM. На думку розробника, існуючі бенчмарки занадто зосереджені на продуктивності. У файтингах важливі навіть частки секунди, тому зайвий час може призвести до швидкого програшу.

Інший експеримент із LLM Colosseum задокументував розробник Amazon Web Services Банджо Обайомі, запускаючи моделі на Amazon Bedrock. У цьому турнірі брали участь десятки різних моделей, але Claude явно випередив конкурентів, посівши з першого по четверте місце, перше місце дісталося Claude 3 Haiku.

Були  випадки, коли LLM просто відмовлялися грати. ШІ-моделі, як правило, мають антинасильницький світогляд і часто відмовляються відповідати на будь-які промти, які вони вважають надто жорстокими. Claude 2.1 був особливо пацифістським, заявляючи, що не може терпіти навіть вигаданих бійок.

Однак порівняно з реальними гравцями ці чат-боти не грають на професійному рівні. Розробник пограв проти LLM та повідомив, що нейромодель зможе обіграти хіба 70-річного або п’ятирічного гравця.