Google випустила нову модель Gemini 2.5, яка може користуватись браузером

Євгеній Демківський - 8 жовтня, 11:57

Google анонсувала модель Gemini 2.5 Computer Use, яка здатна взаємодіяти з інтерфейсом браузера як звичайний користувач — натискати, скролити та вводити текст. Це дає змогу виконувати завдання в середовищах без API, де автоматизований доступ обмежений.

Модель використовує візуальне розпізнавання та логічне міркування для виконання інструкцій користувача. Наприклад, вона може заповнити та надіслати онлайн-форму, протестувати інтерфейс або взаємодіяти з вебсайтами, як це робить людина. Подібні технології Google раніше тестувала у внутрішніх проєктах AI Mode та Project Mariner.

За словами компанії, Gemini 2.5 Computer Use перевершує конкурентів за низкою веб- і мобільних бенчмарків. Модель підтримує 13 базових дій, включно з відкриттям вкладок, введенням тексту, перетягуванням елементів і навігацією по сторінках. Вона працює лише через браузер, без доступу до системного рівня ОС.

Функція доступна для розробників через Google AI Studio та Vertex AI. Крім того, компанія відкрила публічну демонстрацію на Browserbase — там модель виконує завдання на кшталт гри у 2048 або пошуку дискусій на Hacker News.

Анонс з’явився на наступний день після презентації OpenAI, на якій показали інтеграцію додатків в ChatGPT. Схожі можливості вже пропонувала Anthropic у своїй моделі Claude минулого року.