Google не зупиняється на чат-ботах. Компанія представила Gemini 2.5 Computer Use - модель ШІ, яка може самостійно клікати, вводити текст, скролити сторінки та взаємодіяти з веб-інтерфейсами. По суті, це агент, який працює з браузером замість користувача. Модель уже доступна у публічному попередньому перегляді через Gemini API на платформах Google AI Studio та Vertex AI. Для розробників це означає можливість інтегрувати такого агента у власні проєкти вже зараз.
Як це працює
На відміну від класичних ШІ-моделей, які працюють через API та структуровані дані, Gemini 2.5 Computer Use аналізує скріншоти веб-інтерфейсів. Процес виглядає так:
- Агент отримує завдання, скріншот екрану та історію попередніх дій
- Аналізує інтерфейс і визначає, що треба зробити далі
- Повертає конкретну UI-дію: клік, введення тексту, скрол тощо
- Дія виконується на стороні клієнта
- Новий скріншот повертається моделі - і цикл повторюється

Google базувала модель на можливостях Gemini 2.5 Pro - візуальному розумінні та логічному аналізі. Результат: агент може відкривати випадаючі меню, переходити за URL-адресами, наводити курсор на елементи та виконувати інші типові дії користувача.
Що вміє модель
Зараз підтримується 13 типів дій. Google продемонструвала кілька прикладів роботи агента:
- Сортування стікерів на цифровій дошці
- Перенесення інформації про домашніх тварин з одного сайту до CRM-системи
Демо-відео прискорені для наочності, але показують реальний процес роботи. Модель найкраще працює з веб-браузерами. Для десктопних завдань на рівні операційної системи вона поки що не оптимізована, хоча на мобільних бенчмарках показала непогані результати.
Benchmarks: краще за конкурентів
Google стверджує, що Gemini 2.5 Computer Use випереджає альтернативні рішення на кількох тестах:
- Online-Mind2Web
- WebVoyager
- AndroidWorld
При цьому модель працює з меншою затримкою порівняно з конкурентами. Це важливо для практичного застосування - ніхто не хоче чекати по кілька секунд на кожну дію агента.
Безпека: не все так просто
Google розуміє ризики автоматизованого управління інтерфейсами. Тому компанія впровадила кілька захисних механізмів:
- Кожна дія перед виконанням перевіряється сервісом безпеки
- Розробники можуть заборонити певні типи дій
- Для ризикованих операцій (наприклад, фінансових транзакцій) можна налаштувати обов'язкове підтвердження користувачем
Це логічно. Уявіть агента, який випадково переведе гроші не туди або видалить важливі дані. Механізми контролю - не перестраховка, а необхідність.

Хто вже використовує
Кілька внутрішніх команд Google уже застосовують модель у продакшені. Вона підтримує UI-тестування та автоматизацію завдань на таких платформах, як Search та Firebase.
Зовнішні розробники з програми раннього доступу використовують Gemini 2.5 Computer Use для:
- Автоматизації робочих процесів
- Створення асистентів для рутинних завдань
Це логічний напрямок. Багато бізнес-процесів досі вимагають ручного копіювання даних між системами, заповнення форм або перевірки інтерфейсів. Агент може взяти це на себе.
Можливості очевидні:
- Тестування: автоматична перевірка інтерфейсів без написання скриптів
- Інтеграція систем: перенесення даних між платформами без API
- Рутинні завдання: заповнення форм, обробка заявок, моніторинг сайтів
Наприклад, маркетологи можуть налаштувати агента для збору даних з конкурентів. HR-спеціалісти - для автоматичного заповнення профілів кандидатів. Можливостей багато.
Обмеження та перспективи
Модель поки що не ідеальна. Google чесно каже, що десктопні завдання на рівні ОС - не її сильна сторона. Також є питання точності: агент може помилятися у складних інтерфейсах або нестандартних сценаріях.
Але це публічний попередній перегляд. Google збиратиме фідбек від розробників і вдосконалюватиме модель. З урахуванням темпів розвитку ШІ, через півроку можемо побачити значно потужнішу версію.
Висновок
Gemini 2.5 Computer Use - це крок до майбутнього, де ШІ-агенти виконують рутинні завдання замість людей. Технологія ще сира, але напрямок правильний. Якщо Google зможе підвищити точність і розширити функціонал, ми побачимо справжню революцію в автоматизації роботи з веб-інтерфейсами.
Для розробників це можливість експериментувати вже зараз. Для бізнесу - шанс оптимізувати процеси. А для звичайних користувачів - надія, що колись ШІ-асистент нарешті зможе замовити їжу або записати до лікаря без участі людини.