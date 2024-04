Чотири розробники в сфері штучного інтелекту створили бенчмарк, який дає змогу “зіткнути” в поєдинку різні великі мовні моделі (LLM) в Street Fighter III, повідомляє The Register.

Бенчмарк отримав назву LLM Colosseum та був створений під час хакатону Mistral у Сан-Франциско минулого місяця. Тест інформує мовну модель про все, що відбувається в грі, а модель відповідає, враховуючи правила гри.

Бенчмарк можна відтворити своїми силами, проєкт розміщений на GitHub для всіх охочих.

Згідно з офіційним списком лідерів LLM Colosseum, який базується на 342 поєдинках між вісьмома різними LLM, ChatGPT-3.5 Turbo є беззаперечним переможцем із рейтингом Elo 1,776.11. Це значно випереджає кілька ітерацій ChatGPT-4, які мають рейтинг в діапазоні від 1 400 до 1 500 балів.

За словами Ніколаса Ульянова, одного з розробників LLM Colosseum, баланс між ключовими характеристиками робить LLM хорошим навіть у Street Fighter III. GPT-3.5 Turbo має хороший баланс між швидкістю та потужністю. GPT-4 – більша модель, а отже, розумніша, але набагато повільніша.

Різниця між ChatGPT-3.5 і 4 в LLM Colosseum свідчить про те, які функції є пріоритетними в новітніх LLM. На думку розробника, існуючі бенчмарки занадто зосереджені на продуктивності. У файтингах важливі навіть частки секунди, тому зайвий час може призвести до швидкого програшу.

