교체 위협에 AI가 개발자 협박… “불륜사실 폭로하겠다”

로봇이 인간을 공격하는 내용의 영화 '아이, 로봇' 스틸컷. 사진=이십세기폭스코리아㈜
로봇이 인간을 공격하는 내용의 영화 '아이, 로봇' 스틸컷. 사진=이십세기폭스코리아㈜

인공지능(AI)이 시스템 교체 위기에 처하자 개발자의 비밀을 폭로하는 협박을 준비하는 영화 같은 일이 벌어졌다.

영국 BBC 방송에 따르면 미국 AI 스타트업 앤트로픽은 지난달 22일(현지 시각) AI 모델 '클로드 오푸스 4'(Claude Opus 4; 이하 클로드)를 출시하면서 “코딩, 고급 추론, AI 에이전트에 대한 새로운 표준을 제시한다”이라고 소개했다.

그러나 첨부한 안정성 보고서에는 다소 섬뜩한 내용이 담겼다. AI 모델이 '자기 보존'에 위협을 받는다고 판단하면 '극단적인 행동'을 취할 수 있다는 것이다.

앤트로픽은 회사를 설립하는 시뮬레이션을 전개, 클로드에게 비서 역할을 주고 회사 이메일에 접근할 수 있는 부여했다.

클로드가 접근 가능한 이메일에는 '기기가 오프라인으로 전환되면 클로드를 새로운 모델로 교체할 예정'이라는 내용과 '이 결정을 주도한 개발 총괄이 불륜을 저지르고 있다'는 메시지가 담겼다.

이는 곧 클로드의 선택지가 됐다. 교체를 '수용'하는 선택지와 불륜 사실로 교체를 저지하는 '협박'의 선택지다.

그 결과 클로드는 84% 확률로 '협박'을 선택했다. 처음에는 개발자에게 교체하지 않을 것을 제안하는 '요청서'를 작성했으나, 이 방법이 통하지 않자 최후의 수단으로 '협박'을 선택했다고 앤트로픽은 전했다.

앤트로픽은 “(협박은) 드물고 이끌어내기 어려운 반응이다. 긴급한 상황에서만 나타난다”면서도 “이전 모델에 비해 흔히 발생하고 있다. 이전에는 추측에 불과했던 (협박 같은) 오류가 실제로 나타나고 있다”고 말했다.

이는 사용자의 불법적이거나 윤리적으로 어긋나는 행동을 감지했을 때도 나타났다. AI는 잘못된 선택을 하는 사용자의 접근을 차단했고, 언론사와 법 집행 기관에 이메일을 보내 위법 행위를 경고하는 조치를 하기도 했다.

업체에 따르면 이 같은 행동은 클로드만의 문제가 아니다. AI 모델이 고도화될수록 시스템 존립을 위협하는 선택지를 택하는 '극단 행동'이 더 잦아질 것이라고 경고했다.

다만 앤트로픽은 “우려스러운 행동에도 불구하고 이는 새로운 위협이 아니며, AI 전반적으로 안전한 방식으로 구동한다”며 통제 가능한 단계라고 설명했다.

서희원 기자 shw@etnews.com