Google випустила Gemini 2.5 Computer Use: ШІ, який керує браузером замість вас

Google випустила Gemini 2.5 Computer Use: ШІ, який керує браузером замість вас

Google не зупиняється на чат-ботах. Компанія представила Gemini 2.5 Computer Use - модель ШІ, яка може самостійно клікати, вводити текст, скролити сторінки та взаємодіяти з веб-інтерфейсами. По суті, це агент, який працює з браузером замість користувача. Модель уже доступна у публічному попередньому перегляді через Gemini API на платформах Google AI Studio та Vertex AI. Для розробників це означає можливість інтегрувати такого агента у власні проєкти вже зараз.

Як це працює

На відміну від класичних ШІ-моделей, які працюють через API та структуровані дані, Gemini 2.5 Computer Use аналізує скріншоти веб-інтерфейсів. Процес виглядає так:

  1. Агент отримує завдання, скріншот екрану та історію попередніх дій
  2. Аналізує інтерфейс і визначає, що треба зробити далі
  3. Повертає конкретну UI-дію: клік, введення тексту, скрол тощо
  4. Дія виконується на стороні клієнта
  5. Новий скріншот повертається моделі - і цикл повторюється

Google базувала модель на можливостях Gemini 2.5 Pro - візуальному розумінні та логічному аналізі. Результат: агент може відкривати випадаючі меню, переходити за URL-адресами, наводити курсор на елементи та виконувати інші типові дії користувача.

Що вміє модель

Зараз підтримується 13 типів дій. Google продемонструвала кілька прикладів роботи агента:

  • Сортування стікерів на цифровій дошці
  • Перенесення інформації про домашніх тварин з одного сайту до CRM-системи

Демо-відео прискорені для наочності, але показують реальний процес роботи. Модель найкраще працює з веб-браузерами. Для десктопних завдань на рівні операційної системи вона поки що не оптимізована, хоча на мобільних бенчмарках показала непогані результати.

Benchmarks: краще за конкурентів

Google стверджує, що Gemini 2.5 Computer Use випереджає альтернативні рішення на кількох тестах:

  • Online-Mind2Web
  • WebVoyager
  • AndroidWorld

При цьому модель працює з меншою затримкою порівняно з конкурентами. Це важливо для практичного застосування - ніхто не хоче чекати по кілька секунд на кожну дію агента.

Безпека: не все так просто

Google розуміє ризики автоматизованого управління інтерфейсами. Тому компанія впровадила кілька захисних механізмів:

  • Кожна дія перед виконанням перевіряється сервісом безпеки
  • Розробники можуть заборонити певні типи дій
  • Для ризикованих операцій (наприклад, фінансових транзакцій) можна налаштувати обов'язкове підтвердження користувачем

Це логічно. Уявіть агента, який випадково переведе гроші не туди або видалить важливі дані. Механізми контролю - не перестраховка, а необхідність.

Хто вже використовує

Кілька внутрішніх команд Google уже застосовують модель у продакшені. Вона підтримує UI-тестування та автоматизацію завдань на таких платформах, як Search та Firebase.

Зовнішні розробники з програми раннього доступу використовують Gemini 2.5 Computer Use для:

  • Автоматизації робочих процесів
  • Створення асистентів для рутинних завдань

Це логічний напрямок. Багато бізнес-процесів досі вимагають ручного копіювання даних між системами, заповнення форм або перевірки інтерфейсів. Агент може взяти це на себе.

Можливості очевидні:

  • Тестування: автоматична перевірка інтерфейсів без написання скриптів
  • Інтеграція систем: перенесення даних між платформами без API
  • Рутинні завдання: заповнення форм, обробка заявок, моніторинг сайтів

Наприклад, маркетологи можуть налаштувати агента для збору даних з конкурентів. HR-спеціалісти - для автоматичного заповнення профілів кандидатів. Можливостей багато.

Обмеження та перспективи

Модель поки що не ідеальна. Google чесно каже, що десктопні завдання на рівні ОС - не її сильна сторона. Також є питання точності: агент може помилятися у складних інтерфейсах або нестандартних сценаріях.

Але це публічний попередній перегляд. Google збиратиме фідбек від розробників і вдосконалюватиме модель. З урахуванням темпів розвитку ШІ, через півроку можемо побачити значно потужнішу версію.

Висновок

Gemini 2.5 Computer Use - це крок до майбутнього, де ШІ-агенти виконують рутинні завдання замість людей. Технологія ще сира, але напрямок правильний. Якщо Google зможе підвищити точність і розширити функціонал, ми побачимо справжню революцію в автоматизації роботи з веб-інтерфейсами.

Для розробників це можливість експериментувати вже зараз. Для бізнесу - шанс оптимізувати процеси. А для звичайних користувачів - надія, що колись ШІ-асистент нарешті зможе замовити їжу або записати до лікаря без участі людини.