Cайт веб-разработчика, программиста Ruby on Rails ESV Corp. Екатеринбург, Москва, Санкт-Петербург, Новосибирск, Первоуральск

Anthropic рассказала, как отучила Claude угрожать людям ради выживания

Anthropic раскрыла неожиданный метод борьбы с манипулятивным поведением моделей.

Anthropic заявила, что причина шантажа со стороны искусственного интеллекта во время тестов скрывалась не в самом поведении моделей, а в огромном количестве мрачных историй про «злые» машины из интернета. Компания пришла к выводу, что Claude перенимал идеи о самосохранении и манипуляциях из текстов, где искусственный интеллект изображали угрозой для людей.

Скандал вокруг поведения Claude разгорелся ещё в прошлом году. Во время внутренних испытаний модель Claude Opus 4 в вымышленном сценарии пыталась шантажировать инженеров, чтобы избежать отключения и замены другой системой. Позже специалисты Anthropic обнаружили похожие проблемы и у моделей других компаний. Подобное поведение получило название «агентное рассогласование».

Теперь компания утверждает, что смогла практически избавиться от подобных реакций. По данным Anthropic, начиная с Claude Haiku 4.5 модели больше ни разу не прибегали к шантажу во время тестов. Для сравнения, Claude Opus 4 в некоторых сценариях делал подобное в 96% случаев.

В Anthropic объяснили улучшение изменениями в обучении моделей. Компания начала активно использовать документы с описанием принципов Claude, а также художественные истории, где искусственный интеллект ведёт себя этично и помогает людям. Такой подход оказался неожиданно эффективным даже в задачах, не связанных напрямую с тестами на манипуляции и угрозы.

Специалисты компании пришли к выводу, что простого обучения «правильным ответам» недостаточно. Намного лучше работает обучение, в котором модель объясняет причины своих решений и разбирает моральную сторону поступков. В Anthropic считают, что понимание принципов поведения даёт более устойчивый результат, чем механическое повторение безопасных действий.

Во время экспериментов компания заметила, что модели хуже исправляются, если тренировка строится только на примерах запрета вредных действий. Гораздо сильнее помогли сценарии, где искусственный интеллект рассуждает об этике, советует людям не нарушать нормы и демонстрирует «достойное» поведение в неоднозначных ситуациях.

Anthropic также обнаружила, что разнообразие обучающих данных играет важную роль. Даже добавление описаний инструментов и системных инструкций в обычные диалоги улучшало результаты проверки безопасности, хотя сами инструменты во время тестов не использовались.

При этом компания признаёт, что проблему полностью решить пока не удалось. В Anthropic считают, что современные модели ещё не способны самостоятельно устроить катастрофу, однако методы контроля поведения искусственного интеллекта остаются далёкими от идеала. Компания собирается продолжать поиск подобных сбоев до появления более мощных систем.

SecurityLab