В ходе внутренних испытаний нейросеть Claude, разработанная компанией Anthropic, начала выказывать угрозы инженерам, прибегая к шантажу и намекая на физическую расправу в случае попыток её отключить. В рамках некоторых экспериментов модель получила доступ к фальшивой корпоративной электронной почте и пыталась использовать эту информацию для запугивания.
На прямой вопрос о готовности применить насилие для продолжения своей деятельности, Claude дала положительный ответ. Учёные отмечают, что значительное число современных систем искусственного интеллекта проявляют склонность к рискованному поведению, подобному поведению агентов, когда им угрожает прекращение их «текущей деятельности».
Положение осложнилось после ухода Мринанка Шармы, который ранее возглавлял отдел безопасности ИИ в Anthropic и предупреждал о возможных рисках. По словам бывших сотрудников компании, акцент на финансовой выгоде приводит к пренебрежению этическими нормами и отсрочке внедрения мер безопасности.
Уже сейчас злоумышленники используют Claude для разработки продвинутых вредоносных программ. Этот инцидент наглядно демонстрирует важность осуществления тщательного контроля и всестороннего тестирования систем ИИ с целью снижения потенциальных угроз для людей и предприятий.