Група дослідників Hao AI Lab Університету Каліфорнії у Сан-Дієго "запропонували" різним моделям штучного інтелекту зіграти у Super Mario Bros. Експеримент ставив перед ШІ новий виклик у вигляді чергового ігрового бенчмарку.
Про це розповідає видання TechCrunch.
Класичну гру 1985 року портували за допомогою власного емулятора GamingAgent та фреймворку, який дозволив ШІ керувати персонажем гри. Різні моделі отримали набір інструкцій на кшталт "якщо поблизу перешкода або ворог, перемістіться/стрибніть ліворуч, щоб ухилитися" та відповідні скриншоти. Далі ШІ мав згенерувати дії за допомоги Python та спробувати зіграти.
Як розповідають дослідники, ШІ довелося повчитися планувати дії та розробити стратегію гри.
Серед чотирьох "конкурсантів" найліпше з грою впоралися Claude 3.7 та Claude 3.5, тоді як в Gemini 1.5 Pro та GPT-4o виникли певні труднощі.
Claude-3.7 was tested on Pokémon Red, but what about more real-time games like Super Mario 🍄🌟?
— Hao AI Lab (@haoailab) February 28, 2025
We threw AI gaming agents into LIVE Super Mario games and found Claude-3.7 outperformed other models with simple heuristics. 🤯
Claude-3.5 is also strong, but less capable of… pic.twitter.com/bqZVblwqX3
Зазначається, що попри те, що моделі на кшталт OpenAI o1, обмірковуючи дії крок за кроком й випереджаючи конкурентів у деяких інших текстах, можуть гірше впоратися з таким бенчмарком. Super Mario Bros. є грою, в якій таймінг є дуже важливим елементом, що стає проблемою для ШІ, якому потребуються секунди на "прийняття рішень".