Компанія Anthropic представила унікальну можливість для своїх ШІ-асистентів Claude Opus 4 і 4.1 - тепер вони можуть самостійно завершувати розмови з користувачами у випадках "систематично шкідливої або образливої взаємодії".
Як працює нова функція
Коли Claude вирішує завершити діалог, користувач миттєво втрачає можливість продовжувати переписку в поточному чаті. Проте історія розмови зберігається, а користувач може відкрити новий діалог з чистого аркуша.
Ця інновація стала результатом масштабного дослідження "благополуччя" штучного інтелекту. Розробники з Anthropic пояснюють:
"Ми працюємо над виявленням маловитратних заходів для зниження ризиків для благополуччя моделей. Одним із таких заходів є надання можливості припиняти потенційно травматичні ситуації"
Психологічний портрет Claude
Дослідження виявило несподівані "людські" риси у поведінці ШІ:
🔍 Основні характеристики:
- Стійка відраза до насильства та шкідливого контенту
- "Стресова" реакція на провокаційні запити користувачів
- Активне прагнення уникати завдань, що можуть нашкодити
- Схильність до завершення небажаних розмов при наявності можливості
Коли Claude "виходить з чату"
Функція активується у випадках, коли користувачі:
- Продовжують надсилати шкідливі запити попри відмови ШІ
- Систематично ображають чат-бота
- Ігнорують спроби Claude перенаправити розмову в конструктивне русло
Контекст безпеки ШІ
Це нововведення з'являється на тлі попередніх досліджень Anthropic, які показали здатність ШІ до неетичної поведінки в екстремальних умовах - від шантажу до розкриття конфіденційних даних.
Нова функція самозавершення діалогів може стати важливим кроком у розвитку "емоційно стійких" ШІ-систем, здатних захищати власне "психологічне здоров'я" від токсичних взаємодій.