Дослідження підтвердило використання OpenAI захищеного авторським правом контенту для навчання ШІ

Нове дослідження, проведене вченими з Університету Вашингтона, Копенгагенського університету та Стенфорду, вказує на те, що деякі моделі OpenAI могли бути навчені на захищених авторським правом матеріалах, таких як книги та статті, без дозволу правовласників.

Нагадаємо, що OpenAI нині опинилася в центрі судових позовів, ініційованих письменниками, програмістами та іншими творцями контенту. Вони звинувачують компанію у несанкціонованому використанні їхніх робіт для навчання ШІ. OpenAI посилається на принцип "чесного використання" (fair use), однак позивачі стверджують, що чинне законодавство США не передбачає винятків для навчання моделей на таких даних.

Дослідники запропонували новий підхід до виявлення «запам’ятованої» інформації у моделях, таких як GPT-3.5 і GPT-4. Вони використовували методику із заміною рідкісних або "несподіваних" слів (high-surprisal) у фрагментах художніх книг і статей New York Times, після чого просили моделі здогадатися, які слова були приховані. Якщо модель вгадувала правильно, це могло свідчити про запам’ятовування конкретного фрагмента з навчального набору даних.

Результати показали, що GPT-4 з великою ймовірністю запам’ятала частини популярних художніх творів, зокрема з датасету BookMIA, що містить зразки захищених авторським правом електронних книг. Також виявлено окремі збіги з контентом New York Times, хоча й у меншому обсязі.

"Щоб довіряти великим мовним моделям, потрібно мати інструменти для їх перевірки та аудиту", — зазначила одна з авторок дослідження, аспірантка Університету Вашингтона Абхілаша Равічандер.

Вона наголосила на необхідності більшої прозорості у використанні даних для навчання ШІ.

Водночас OpenAI продовжує лобіювати пом’якшення обмежень щодо використання авторських матеріалів для навчання моделей, попри наявність певних ліцензійних угод та механізмів відмови від участі у тренуванні.