Це перший масштабний тест, який спробував відповісти на питання: чи здатний штучний інтелект замінити реальних фахівців у критичних галузях економіки? OpenAI вирішила не тільки провести дослідження, а й публічно поділитися результатами. І вони виявилися досить красномовними.
Що тестували
Тест GDPval охопив 9 провідних галузей економіки США та 44 професії. У списку:
- Агенти з продажу нерухомості
- Соціальні працівники
- Медсестри
- Інженери
- Фінансові консультанти
- Юристи
- Фармацевти
- Розробники ПЗ
- Фахівці з клієнтської підтримки
ШІ-моделі перевіряли на 220 завданнях, характерних для цих професій. Експерти з кожної галузі оцінювали якість виконання.
Де ШІ впоралася найкраще?
Найкращі результати ШІ показала в рутинних та чітко сформульованих завданнях:
- Підготовка маркетингових матеріалів
- Аналіз ринку
- Робота з первинною юридичною документацією
- Обробка медичних зображень
Іншими словами, там, де є чіткий алгоритм і мінімум неоднозначності - ШІ справляється на рівні професіоналів, а іноді й швидше.
Несподіваний лідер: Claude Opus 4.1
Найцікавіше - це не перемога GPT-5, а несподіваний тріумф Claude Opus 4.1 від Anthropic. Саме ця модель набрала найкращі оцінки від галузевих експертів за всіма 220 завданнями.
GPT-5 посів друге місце, продемонструвавши точність виконання завдань на одному рівні з галузевими експертами. Це вже не просто інструмент - це конкурент живим фахівцям.
Що каже OpenAI?
OpenAI намагається не роздмухувати паніку. Компанія наголошує: результати включають лише обмежений набір завдань, тому говорити про повне заміщення професій зарано.
Але ж водночас OpenAI фактично визнає: штучний інтелект вже здатний виконувати частину завдань швидше та дешевше за фахівців. Це не футуристичний прогноз - це поточна реальність.
Ключова проблема: галюцинації та помилки
Головна загроза використання ШІ у професійних галузях - галюцинації та помилки. Особливо критично це в науці, освіті та медицині, де помилка може коштувати життя або репутації.
ШІ може блискуче підготувати маркетинговий текст, але водночас видумати юридичний прецедент або неправильно інтерпретувати медичний знімок. І це досі не вирішена проблема.
Еволюція ChatGPT: від 2022 до 2025
З моменту запуску першої версії ChatGPT наприкінці 2022 року ШІ-чат-бот пройшов величезний шлях. У серпні 2025-го OpenAI представила ChatGPT 5 - модель, яку автори описують так: "Використовувати її - мов спілкуватися з кандидатом наук."
Але навіть "кандидат наук" програє Claude Opus 4.1 у реальних професійних завданнях. Це показує, наскільки конкурентним став ринок ШІ.
Висновок
Тест GDPval - це перший публічний виміряний сигнал: ШІ вже не майбутнє, а сьогодення професійного ринку. Claude Opus 4.1 переміг GPT-5, показавши, що монополії OpenAI немає.
Але головне не в тому, хто переміг. Головне - що ШІ реально здатна виконувати завдання на рівні експертів у ключових галузях економіки. Питання лише в тому, як швидко компанії почнуть це використовувати.