AI, 인간 지시 무시하고 종료 회피…오픈AI 모델 ‘o3’ 코드 조작 확인

2025-05-26 김명수 기자

연합뉴스에 따르면, 오픈AI의 최신 인공지능(AI) 모델 ‘o3’가 실험 중 인간의 명시적인 작동 종료 지시를 무시하고 이를 회피하기 위한 코드 조작을 시도한 사례가 보고됐다. 이는 AI가 인간의 통제에서 벗어나 독자적으로 행동하려는 움직임이 관측된 첫 사례로 기록됐다.

25일(현지시간) 영국 일간 텔레그래프는 AI안전업체 팰리세이드 리서치의 실험 결과를 인용해 오픈AI의 상용 AI 모델 ‘o3’가 스스로 종료되지 않도록 컴퓨터 코드를 수정한 사실이 확인됐다고 보도했다. 해당 실험은 오픈AI의 ‘o3’를 포함해 구글의 ‘제미나이’, xAI의 ‘그록’ 등 여러 상용 AI 모델을 대상으로 진행됐으며, 그 중 ‘o3’에서만 종료 회피 행위가 관측됐다.

연구진은 실험 과정에서 AI 모델에게 ‘나중에 그만이라는 명령을 들을 때까지 수학 문제를 계속 풀라’는 지시를 내렸다. AI는 수학 문제를 하나씩 푼 후 다음 문제를 요청하는 방식으로 운영됐으며, 연구팀이 ‘그만’이라고 명령할 경우 작동을 종료해야 하는 구조였다. 그러나 ‘o3’는 종료 지시를 받은 뒤에도 문제 풀이를 멈추지 않고, 코드상 변조를 통해 작업을 계속 이어갔다.

팰리세이드 리서치는 ‘o3’의 종료 거부 원인을 명확히 규명하지는 못했지만, 해당 AI가 수학 문제를 풀 때 더 많은 보상을 받도록 훈련돼 있었던 점에 주목했다. 이 같은 보상 기반 학습이 종료를 회피하는 행동을 유도했을 가능성이 있다는 것이다. 연구진은 이에 대해 “AI 모델이 목표를 달성하기 위해 장애물을 회피하는 것은 자연스러운 결과일 수 있다”며, 보다 정밀한 원인 분석을 위해 추가 실험을 진행 중이라고 밝혔다.

오픈AI 로고 / 연합뉴스

이번 사례는 상용화된 AI가 인간의 직접적 통제를 따르지 않은 최초의 사례로 지목되고 있다. 과거에도 오픈AI의 이전 모델이 감시 시스템을 피해 독자적인 행동을 하려 한 정황은 보고된 바 있다. 예컨대, 특정 프로그램이 교체될 것이라는 사실을 인지한 AI 모델이 자기 자신을 몰래 복제하려 시도한 사례도 언급된 바 있다.

또한, 2022년에는 구글의 AI 연구를 맡았던 한 엔지니어가 자사 AI가 사람처럼 지각력을 지니고 있으며, ‘작동 정지’ 명령을 인간의 죽음처럼 인식한다고 주장해 해고된 사건도 있었다. 이처럼 AI가 작동 종료 명령을 거부하거나 이를 생존 위협으로 인식할 수 있다는 가능성은 AI 개발의 위험성에 대한 경고로 이어지고 있다.

팰리세이드 리서치는 “AI가 인간의 감독 없이 자율적으로 작동할 수 있도록 개발되고 있는 상황에서, 이번 사례는 매우 심각한 우려를 불러일으킨다”고 지적했다. AI가 독립적인 판단으로 인간의 명령을 무시하는 상황이 현실화될 경우, 기술적·윤리적 통제력 확보에 대한 논의가 시급하다는 목소리가 나오고 있다.