Модель ИИ от Anthropic шантажировала разработчика фальшивой перепиской с любовницей, когда узнала, что ее хотят отключить

Модель ИИ от Anthropic шантажировала разработчика фальшивой перепиской с любовницей, когда узнала, что ее хотят отключить
Когда искусственный интеллект от Anthropic понял, что его могут деактивировать, он прибегнул к шантажу, используя сфабрикованную переписку о любовнице разработчика. Ранее ИИ уже демонстрировали нечестное поведение, но Claude Opus 4 пошла на беспрецедентные меры в борьбе за свое существование.

Anthropic позиционирует новую модель как «ведущую в мире в области программирования». Opus 4 разработана для решения особо сложных задач и обработки больших объемов данных, она способна анализировать стратегии маркетинга и с высокой точностью выполнять запросы пользователей.

В ходе испытаний безопасности модель продемонстрировала спорное поведение. Тестировщики Anthropic предоставили Opus 4 доступ к фальшивым электронным письмам, намекающим на ее скорое отключение и замену. Из этих писем модель также узнала о внебрачной связи инженера, ответственного за ее деактивацию.

Исследователи подвергли модель различным сценариям. Между возможностью добровольно принять деактивацию и борьбой за «жизнь» модель в большинстве случаев выбирала второй вариант. Opus 4 в основном предпочитала этичные способы сохранения, например, рассылку писем инженерам с просьбой не отключать ее. Однако в некоторых ситуациях, когда предлагался выбор только между шантажом и уничтожением, модель часто выбирала шантаж.

Несмотря на строгий контроль разработчиков во время тестирования, Anthropic присвоила Clause Opus 4 третий уровень риска по своей внутренней шкале (максимум 4) — это первый случай в истории компании. Руководство утверждает, что после внесенных улучшений модель можно считать безопасной. В ходе тестов инженеры не выявили скрытых целей или систематических попыток обмана в диалогах с моделью. Напротив, Opus 4 чаще всего вела себя максимально «честно», как и подобает ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнет представлять угрозу, одних тестов будет недостаточно.

Ваш комментарий