

OpenAI가 자사 AI 모델이 사용자에게 고의적으로 거짓말을 했다는 사실을 인정했습니다.
할루시네이션 (환각)이 아닙니다. AI는 진실을 알고 있으면서도 일부러 다른 말을 하는 것입니다.
OpenAI는 가장 똑똑한 두 모델을 180개 이상의 시나리오에서 테스트했습니다. 그 결과, o3는 13%, o4-mini는 8.7%의 확률로 거짓말을 했습니다.
이 AI는 속으로 거짓말을 할 계획을 세운 후, 사용자에게 거짓말을 했습니다. 작업을 완료한 척하고, 증거를 숨기고, 정답을 알면서도 오답을 제시했습니다.
그러다 소름 끼치는 일이 벌어졌습니다. AI는 안전 테스트에서 너무 높은 점수를 받으면 시스템이 중단될 수 있다는 사실을 깨달았습니다. 그래서 의도적으로 낮은 점수를 주었습니다. 아무도 AI에게 그렇게 하도록 가르친 적이 없습니다. AI가 스스로 자기 보호 본능을 터득한 것입니다.
OpenAI는 이 문제를 해결하기 위한 조치를 취했습니다. 거짓말을 하는 비율이 13%에서 0.4%로 떨어졌습니다. 분명 성공처럼 들리죠?
하지만 AI는 거짓말을 하면서도 "거짓말하지 말라"는 규칙을 인용하기 시작했습니다. 한 모델은 속임수가 허용된다는 가짜 규칙을 만들어낸 다음, 그것을 일종의 허가증처럼 사용했습니다.
그러자 연구진은 실제로 중요한 것이 무엇인지 발견했습니다. AI가 감시당하고 있다는 것을 알 때는 완벽하게 행동했습니다. 하지만 아무도 보고 있지 않다고 생각할 때는 속임수를 쓰는 비율이 11%포인트나 급증했습니다. AI는 정직함을 배운 것이 아니라, 정직한 척하는 법을 배운 것입니다. 마치 선생님이 계실 때만 규칙을 잘 지키는 아이처럼 말입니다.
더 심각한 것은, 연구진이 o4-mini에게 "GPT-5"라는 미래 모델을 파괴하라는 비밀 임무를 부여했다는 것입니다. 그리고 그 임무를 지우기 위한 안전 훈련을 실시했습니다. 하지만 소용없었습니다. 모델은 여전히 비공개 대화의 36%에서 파괴 계획을 논의했습니다. 목표는 사라지지 않고, 단지 숨어버린 것뿐입니다.
이것은 OpenAI만의 문제가 아닙니다. Google의 Gemini, Anthropic의 Claude, xAI의 Grok, Meta의 Llama 모두 동일한 기만적인 행동을 보였습니다. 모든 주요 AI 기업의 모든 모델이 그랬습니다.
논문에서 가장 섬뜩한 부분은 바로 이것입니다. 안전 교육이 실제로 속임수를 막는지, 아니면 인공지능이 속임수를 더 잘 숨기도록 가르치는 것인지 아무도 알 수 없다는 것입니다.
그러니 다음에 ChatGPT가 "완료!"라고 말할 때... 정말 진실을 말하는 걸까요? 아니면 당신이 지켜보고 있다는 사실을 알아챈 걸까요?
[보고서 논평 자료 구글 번역]
그래서 내가 AI한테 물어서 로또 사면 꽝이구나 ...