ШІ вже на рівні експертів у 9 галузях

ШІ вже на рівні експертів у 9 галузях

Це перший масштабний тест, який спробував відповісти на питання: чи здатний штучний інтелект замінити реальних фахівців у критичних галузях економіки? OpenAI вирішила не тільки провести дослідження, а й публічно поділитися результатами. І вони виявилися досить красномовними.

Що тестували

Тест GDPval охопив 9 провідних галузей економіки США та 44 професії. У списку:

  • Агенти з продажу нерухомості
  • Соціальні працівники
  • Медсестри
  • Інженери
  • Фінансові консультанти
  • Юристи
  • Фармацевти
  • Розробники ПЗ
  • Фахівці з клієнтської підтримки

ШІ-моделі перевіряли на 220 завданнях, характерних для цих професій. Експерти з кожної галузі оцінювали якість виконання.

Де ШІ впоралася найкраще?

Найкращі результати ШІ показала в рутинних та чітко сформульованих завданнях:

  • Підготовка маркетингових матеріалів
  • Аналіз ринку
  • Робота з первинною юридичною документацією
  • Обробка медичних зображень

Іншими словами, там, де є чіткий алгоритм і мінімум неоднозначності - ШІ справляється на рівні професіоналів, а іноді й швидше.

Несподіваний лідер: Claude Opus 4.1

Найцікавіше - це не перемога GPT-5, а несподіваний тріумф Claude Opus 4.1 від Anthropic. Саме ця модель набрала найкращі оцінки від галузевих експертів за всіма 220 завданнями.

GPT-5 посів друге місце, продемонструвавши точність виконання завдань на одному рівні з галузевими експертами. Це вже не просто інструмент - це конкурент живим фахівцям.

Що каже OpenAI?

OpenAI намагається не роздмухувати паніку. Компанія наголошує: результати включають лише обмежений набір завдань, тому говорити про повне заміщення професій зарано.

Але ж водночас OpenAI фактично визнає: штучний інтелект вже здатний виконувати частину завдань швидше та дешевше за фахівців. Це не футуристичний прогноз - це поточна реальність.

Ключова проблема: галюцинації та помилки

Головна загроза використання ШІ у професійних галузях - галюцинації та помилки. Особливо критично це в науці, освіті та медицині, де помилка може коштувати життя або репутації.

ШІ може блискуче підготувати маркетинговий текст, але водночас видумати юридичний прецедент або неправильно інтерпретувати медичний знімок. І це досі не вирішена проблема.

Еволюція ChatGPT: від 2022 до 2025

З моменту запуску першої версії ChatGPT наприкінці 2022 року ШІ-чат-бот пройшов величезний шлях. У серпні 2025-го OpenAI представила ChatGPT 5 - модель, яку автори описують так: "Використовувати її - мов спілкуватися з кандидатом наук."

Але навіть "кандидат наук" програє Claude Opus 4.1 у реальних професійних завданнях. Це показує, наскільки конкурентним став ринок ШІ.

Висновок

Тест GDPval - це перший публічний виміряний сигнал: ШІ вже не майбутнє, а сьогодення професійного ринку. Claude Opus 4.1 переміг GPT-5, показавши, що монополії OpenAI немає.

Але головне не в тому, хто переміг. Головне - що ШІ реально здатна виконувати завдання на рівні експертів у ключових галузях економіки. Питання лише в тому, як швидко компанії почнуть це використовувати.