Модель Gemini 2.5 Pro від Google DeepMind демонструє помітне погіршення логіки дій під час гри в Pokémon, коли її покемони опиняються на межі поразки. Про це пише TechCrunch.
Згідно з дослідженням, у критичних ситуаціях Gemini 2.5 Pro припиняє використовувати доступні інструменти, що призводить до "помітного погіршення здатності до міркування". Така поведінка нагадує людську реакцію на стрес.
Гру моделі транслюють у прямому ефірі на Twitch-каналі Gemini Plays Pokémon. Також є схожий канал з Claude від Anthropic. Обидві трансляції супроводжуються поясненнями рішень, які ухвалює ШІ під час гри.
Модель потребує багато часу для проходження гри. Те, що дитина пройшла б за десятки годин, Gemini 2.5 Pro виконує за сотні. Але іноді ШІ робить помітні успіхи, наприклад, зміг вирішити просторовий пазл в грі з першої ж спроби лише на основі текстового опису фізики об’єктів.
Штучний інтелект також може іноді обирати дивні стратегії для вирішення ігрових ситуацій. Наприклад модель Claude, застрягши в печері Mt. Moon, навмисне "вбила" всіх своїх покемонів, очікуючи, що це телепортує її до іншого кінця печери.
Попри численні недоліки, такі експерименти мають дослідницьку цінність. Ігри слугують безпечним і контрольованим середовищем для перевірки здатності моделей до адаптації, планування та стратегічного мислення в складних ситуаціях. Крім того, Google зазначає, що модель Gemini здатна самостійно створювати агентні інструменти для виконання конкретних завдань — потенційно без втручання людини.