ШІ-боти маскувалися під звичайних юзерів, щоб вкрасти контент з Вікіпедії

Фонд Вікімедіа виявив масштабну схему незаконного парсингу: боти генеративного ШІ під виглядом пересічних відвідувачів витягували контент з найбільшої онлайн-енциклопедії. Тепер розробників ШІ-систем просять перейти на офіційний платний API.

Wikimedia Foundation офіційно звернувся до компаній, що розробляють генеративний штучний інтелект, з проханням припинити пряме збирання даних з Вікіпедії. Натомість фонд пропонує використовувати легальний інструмент - Wikimedia Enterprise API, який, втім, є платним.

Цікаво, що проблема виявилася значно серйознішою, ніж здавалося спочатку. Після оновлення систем виявлення трафіку з'ясувалося: у період з травня по червень цього року левову частку запитів до Вікіпедії генерували саме ШІ-боти. Причому робили вони це хитро - маскувалися під звичайних користувачів, щоб уникнути блокування.

Чому це важливо?

Wikimedia Enterprise - це не просто спосіб монетизації. Сервіс дозволяє отримувати великі обсяги контенту без критичного навантаження на сервери Вікіпедії. Але головне - платна модель підтримує некомерційну місію фонду та гарантує коректне цитування авторів матеріалів у результатах роботи генеративного ШІ.

Ситуація для Вікіпедії загострюється ще й тим, що трафік енциклопедії впав на 8% - користувачі дедалі частіше звертаються безпосередньо до ШІ-чатботів замість пошуку інформації в традиційних джерелах. А це, у свою чергу, призводить до зменшення кількості волонтерів-редакторів та донорів, які підтримують проєкт фінансово.

Додамо, що засновник Вікіпедії Джиммі Вейлс раніше висловлював скептицизм щодо здатності штучного інтелекту писати повноцінні енциклопедичні статті. Схоже, нинішня ситуація з крадіжкою контенту лише підсилює його сумніви щодо етичності ШІ-індустрії.