Нейромережі стали причиною масового уповільнення сайтів по всьому інтернету

Нейромережі стали причиною масового уповільнення сайтів по всьому інтернету

Платформа Git-хостингу відкритих проектів SourceHut заявила, що робота її сервісів уповільнилася через веб-сканери, які запускають компанії - розробники систем штучного інтелекту. Подібні скарги все частіше надходять і від інших власників ресурсів.

Подробиці

Щоб обмежити трафік від ІІ-ботів, SourceHut довелося розгорнути Nepenthes - засіб захисту від недобросовісно працюючих веб-сканерів, що збирають дані для навчання моделей ІІ. Адміністрація платформи в односторонньому порядку повністю заблокувала діапазони адрес декількох хмарних провайдерів, у тому числі Google Cloud і Microsoft Azure, через надмірні обсяги трафіку від розгорнутих в їх мережах ботів. Власникам сервісів, що сумлінно працюють, на цих інфраструктурах рекомендували зв'язуватися з адміністрацією SourceHut в індивідуальному порядку, щоб додавати їх у винятки. У 2022 році SourceHut також постраждала через надто часті звернення до її ресурсів від служби Google Go Module Mirror. У 2023 році OpenAI запевнила, що її роботи будуть виконувати директиви з файлів robots.txt, що вказують правила обробки даних з сайтів веб-сканерами.

Аналогічні зобов'язання взяли він і інші розробники ШІ, але скарги на зловживання продовжують надходити. Влітку минулого року сайт iFixit, зокрема, зазнав нашестя з боку робота Anthropic Claudebot. У грудні хостер Vercel повідомив про значну присутність ШІ-сканерів у його інфраструктурі: OpenAI GPTbot відправив до його мережі 569 млн запитів, Anthropic Claude - 370 млн. У сукупності вони досягли близько 20% від 4,5 млрд запитів Googlebot, який використовується для індексації ресурсів у Google.

Тоді ж розробник розподіленої соцмережі Diaspora Денніс Шуберт поскаржився, що за попередні 60 днів на ШІ-ботів припало 70% трафіку на його сервер. Публікація набула вірусної популярності, і активність ШІ-сканерів різко скоротилася; проте мережеві хулігани влаштували на його ресурс масове нашестя запитів від клієнтів зі значенням рядка user-agent, що збігається з OpenAI GPTbot.

Ось тільки справжній ШІ-бот OpenAI надсилає запити з інфраструктури Microsoft Azure, а у випадку із сервером Diaspora вони виходили з адрес AWS і навіть від американських інтернет-провайдерів. Іноді ситуація ускладнюється тим, деякі боти мають кілька призначень. Так, Meta AI bot і AppleBot збирають дані виключно для навчання ШІ, тоді як GoogleBot служить і для зборі даних для ШІ, і для індексації у пошуку. Щоб уникнути плутанини, Google в 2023 додала окреме значення Google-Extended для інструментів навчання ШІ.