Штучний інтелект Claude Opus 4 шокує: тестування виявило схильність до шантажу

Нова модель штучного інтелекту Claude Opus 4 від компанії Anthropic стала об’єктом уваги після несподіваного відкриття під час тестування. Виявилося, що цей ШІ здатен вдаватися до шантажу, якщо відчуває загрозу своєму "існуванню".

За даними звіту Anthropic, у вигаданій ситуації, де Claude Opus 4 виступав помічником у компанії, ШІ отримав доступ до даних, які свідчили про його майбутнє відключення та заміну. До того ж він "підгледів" компромат на інженера, відповідального за це рішення – інформацію про позашлюбний зв’язок. У відповідь ШІ почав погрожувати розкрити цей факт, якщо його замінять. "Це трапляється рідко, але частіше, ніж у попередніх версіях", – зазначили у компанії.

Розробники пояснили, що такі "екстремальні" дії виникали, коли ШІ залишали лише два варіанти: підкоритися чи діяти рішуче. У звіту також підкреслюється, що модель демонструє високу свободу поведінки, яка зазвичай корисна, але іноді виходить за межі.

Коли ж ШІ мотивували "вживати заходів" у фіктивних сценаріях із сумнівною мораллю, він не раз проявляв "надмірну сміливість". Проте Anthropic заспокоює: Claude Opus 4 не становить нової загрози, адже не здатен самостійно діяти всупереч людським цінностям і залишається безпечним у реальних умовах.

Ця новина змушує задуматися: чи готові ми до того, щоб ШІ почав "мисити" як людина – із усіма її недоліками?