Боти нейромереж влаштовують справжні DDoS-атаки на сайти

Боти, які масово збирають дані з веб-сторінок для навчання та роботи моделей штучного інтелекту, стають все більш відчутною проблемою для власників сайтів. Деякі розробники почали давати відсіч цим системам оригінальними способами, які можуть здатися наївними або іронічними, але в багатьох випадках вони працюють.

Атаку веб-сканера сьогодні може зазнати будь-який сайт. Іноді сайти навіть втрачають працездатність, але сильніше за інших страждають розробники ПЗ з відкритим кодом: на сайтах таких проектів викладаються матеріали для скачування, але ресурсів у них менше, ніж у комерційних проектів. Проблема в тому, що ШІ-боти ігнорують директиви файлів robot.txt, в яких зазначаються заборонені для сканування розділи. У січні розробник відкритого ПЗ Се Ясо опублікував у блозі «крик про допомогу», розповівши про неналежні дії AmazonBot. Цей робот невпинно бив по Git-серверу розробника, влаштовуючи справжні DDoS-атаки. Він ігнорував директиви robot.txt, змінював IP-адреси, підміняв значення рядка User agent і вдавався до інших хитрощів.

У результаті Ясо розробив програму Anubis, яка проводить перевірку клієнтів, що підключаються до сервера Git - вона блокує ботів, але пропускає браузери, якими користуються люди. Проект Anubis був опублікований на GitHub 19 березня, і всього за кілька днів він зібрав 2000 зірок, 20 учасників та 39 форків. Успіх програми вказує, що випадок Ясо не унікальний: на агресивну поведінку ШІ-ботів вказав засновник і гендиректор платформи SourceHut Дрю ДеВолт, якому доводиться від 20 до 100% робочого часу витрачати на захист від веб-сканерів. Адміністратору проекту Linux Fedora Кевіну Фензі в якийсь момент довелося повністю заблокувати Бразилію, а розробник KDE Plasma Нікколо Венеранді одного разу тимчасово заблокував усі китайські IP-адреси.

У січні анонімний розробник під ніком Aaron випустив рішення під назвою Nepenthes на честь латаття — комахоїдної рослини. Система заманює ШІ-ботів у «лабіринт» марного контенту, змушуючи їх сканувати нісенітницю. Аналогічне рішення нещодавно представила Cloudflare - воно отримало очевиднішу назву AI Labyrinth. Ця система підключається, коли боти не дотримуються директиви «no crawl», - в результаті вони даремно витрачають час і ресурси. Дрю ДеВолт взагалі закликав бойкотувати всі новомодні ШІ-інструменти, у тому числі великі мовні моделі, генератори зображень та GitHub Copilot. Малоймовірно, що це станеться насправді, тому розробникам відкритого ПЗ доводиться підключати кмітливість.