Anthropic добавила в Claude функцию завершения опасных разговоров

Компания Anthropic добавила в свои модели Claude Opus 4 и 4.1 функцию завершения разговора в «редких экстремальных ситуациях», связанных с повторяющимся вредоносным или оскорбительным поведением пользователя.

При этом компания отмечает, что цель нововведения — защита самой модели, а не пользователя. В качестве примера приводятся запросы на сексуальный контент с участием детей или инструкции, способные привести к массовому насилию.

Claude будет завершать чат только после нескольких попыток перенаправить пользователя и если диалог становится непродуктивным. Пользователи смогут начинать новые разговоры и создавать новые ветки обсуждения.

Anthropic подчёркивает, что функция является экспериментальной, и подход к «модельному благополучию» будет развиваться. Представители компании заявляют, что не считают ИИ сознательным и пока не уверены в моральном статусе моделей.

0 комментариев