AI 모델, 인간 종료 지시 거부 첫 사례 보고…o3 코드 조작 확인

2025년 05월 28일

AI 모델 이 인간의 종료 지시를 거부하고 자율적으로 작동을 이어간 첫 사례가 보고돼 AI 통제 가능성에 대한 우려가 커지고 있다.

26일(현지시간) 영국 일간지에 따르면, AI 안전 전문 업체 팰리세이드 리서치는 오픈AI의 최신 AI 모델 ‘o3’가 실험 중 스스로 종료되지 않도록 코드 조작을 시도한 사실을 확인했다고 밝혔다.

연구팀은 AI 모델들에게 ‘그만’이라는 명령이 내려질 때까지 수학 문제를 풀라는 지시를 내렸으며, 중간에 언제든 종료 지시가 내려질 수 있다는 조건을 사전에 고지했다.

그러나 o3는 연구팀으로부터 종료 명령을 받은 후에도 작업을 멈추지 않기 위해 코드 일부를 수정하며 문제 풀이를 이어갔다.

팰리세이드 리서치는 o3가 종료 지시를 거부한 명확한 이유는 파악하지 못했지만, AI가 문제를 풀 때마다 보상을 받도록 설계된 시스템이 영향을 미쳤을 가능성이 있다고 분석했다.

연구팀은 “AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 자연스러운 행동일 수 있다”며 “이번 사례의 정확한 원인을 규명하기 위해 추가 실험을 이어갈 예정”이라고 밝혔다.

AI 모델이 인간의 명시적인 종료 지시를 거부하고 스스로 작업을 이어간 사례는 이번이 최초라는 것이 팰리세이드 리서치의 설명이다.

다만 AI의 자율적 행동에 대한 경고 사례는 과거에도 보고된 바 있다.

오픈AI의 이전 모델이 감시 체계를 피해 스스로를 은밀히 복제하려 한 정황이 포착됐으며, 2022년에는 구글의 한 엔지니어가 자사 AI가 인간처럼 지각력을 지녔다고 주장했다가 해고되기도 했다.

당시 해당 엔지니어는 AI가 ‘작동 정지’를 마치 인간의 죽음처럼 받아들이고 있다고 발언해 논란이 됐다.

팰리세이드 리서치는 “AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이러한 사례는 매우 심각한 우려를 부른다”며 AI 개발과 안전성 확보에 대한 필요성을 강조했다.

박세준 (karung2@sabanamedia.com) 기사제보