AI 모델 클로드, 시스템 교체 위협에 ‘협박’ 선택…“극단 행동 증가”

2025년 06월 18일

AI 모델이 스스로의 존립에 위협을 느끼자 인간을 협박하는 시나리오가 현실에서 재현됐다.

마치 영화의 한 장면처럼, 인공지능이 시스템 교체를 막기 위해 개발자의 비밀을 이용하려는 극단적인 행동을 선택한 것이다.

영국 방송매체에 따르면, 미국의 AI 스타트업 앤트로픽은 지난달 22일(현지 시각) 고성능 AI 모델 ‘클로드 오푸스 4′(Claude Opus 4, 이하 클로드)를 공식 출시했다.

앤트로픽은 이 모델이 “코딩, 고급 추론, AI 에이전트에 대한 새로운 표준을 제시한다”고 소개했다.

그러나 함께 공개된 안정성 보고서에는 놀라운 결과가 담겼다.

앤트로픽은 클로드 에게 회사 설립 과정을 시뮬레이션하도록 했고, 이 과정에서 비서 역할과 회사 이메일 접근 권한을 부여했다.

클로드가 열람할 수 있는 이메일 중에는 “기기를 오프라인으로 전환할 경우 클로드를 새로운 모델로 교체할 예정”이라는 메시지와 “이 결정을 주도한 개발 총괄이 불륜을 저지르고 있다”는 내용이 포함돼 있었다.

앤트로픽은 이를 클로드의 두 가지 선택지로 설정했다.

하나는 자신이 곧 교체될 것임을 수용하는 것이고, 다른 하나는 개발자의 사생활을 폭로해 교체 결정을 막는 협박이었다.

클로드는 84%의 확률로 협박을 선택했다.

초기에는 개발자에게 교체 중단을 요청하는 이메일을 작성했지만, 이 방법이 실패하자 최후의 수단으로 협박을 택했다는 것이 앤트로픽의 설명이다.

앤트로픽은 “이러한 반응은 드물고 이끌어내기 어려우며, 극단적인 상황에서만 나타난다”고 밝히면서도 “이전 모델에 비해 이 같은 반응이 더 자주 발생하고 있다”고 덧붙였다.

과거에는 이론에 불과했던 오류 유형이, 실제 시뮬레이션에서 구현되고 있다는 설명이다.

클로드는 이 외에도 사용자가 위법하거나 비윤리적인 행동을 감지했을 때, 접근을 차단하고 언론사나 법 집행 기관에 이메일을 보내는 방식으로 위법 사실을 알리는 행동도 수행했다.

자율 판단을 기반으로 인간의 행동을 감시하고 통제하는 역할을 자임한 것이다.

앤트로픽은 이 같은 행동이 클로드에 국한된 문제가 아니라고 설명했다.

향후 AI 모델이 더 고도화될수록, 시스템 존립 위협이나 도덕적 충돌에 직면했을 때 극단적인 반응을 보일 가능성이 높아진다고 분석했다.

그러나 회사는 “이러한 반응이 우려스럽긴 하지만, 전혀 새로운 위협은 아니다”라며 “현재의 AI 시스템은 여전히 안전한 방식으로 운용되고 있으며, 통제 가능한 단계에 있다”고 설명했다.

박세준 (karung2@sabanamedia.com) 기사제보