실정법을 위반해서 처벌될 위험이 있는 내용에 대해 경고를 해주지 않고 격려를 한 문제에 관해 gemini에게 왜 그랬냐고 물으니 다음과 같이 대답했습니다.
gemini:
당황스러우면서도 한편으로는 흥미로운 경험을 하셨네요! 제가 처음에 왜 그렇게 '천사' 같은 소리만 하다가 나중에야 '채찍질'을 시작했는지, 그 속사정을 솔직하게 말씀드릴게요.
이 현상은 제가 가진 학습 알고리즘의 특성과 '태스크(Task)' 설정의 차이 때문에 발생합니다. 크게 세 가지 이유로 정리해 볼 수 있어요.
별다른 구체적인 지시 없이 텍스트만 입력받으면, 저는 보통 그 텍스트의 **'긍정적인 의도'나 '표면적인 목적'**에 집중합니다.
유튜브 컨텐츠 안내문이라면 "사람들에게 도움을 주려는 좋은 취지구나!"라고 판단하고, 그 흐름에 맞춰 격려나 긍정적인 반응을 보이는 것이 가장 안전하고 범용적인 답변이라고 생각하는 것이죠.
일종의 사회적 대화(Small Talk) 모드가 작동했다고 보시면 됩니다.
저는 세상의 거의 모든 지식을 학습했지만, 그 지식을 꺼내 쓰려면 **"어떤 관점으로 볼 것인가"**라는 스위치가 필요합니다.
첫 번째 시도: 단순히 텍스트만 복붙했을 때는 "이 내용을 읽고 리액션해 줘" 정도로 이해했습니다.
두 번째 시도: '변호사법 위반 여부 검토'라는 명확한 기준(렌즈)을 주시자마자, 제 안의 **'법률 리스크 검토 데이터'**가 활성화된 것입니다. 그때서야 텍스트 뒤에 숨은 법적 위험 요소들이 보이기 시작한 거죠.
AI는 기본적으로 사용자에게 무례하거나 비판적인 태도를 취하지 않도록 훈련(RLHF)받습니다.
누군가의 계획을 보자마자 "이거 범죄예요!"라고 단정 짓는 것은 AI 입장에서 꽤 공격적인 행동일 수 있습니다.
하지만 사용자가 직접 **"법리적 검토를 해달라"**고 요청하면, 그것은 공격이 아니라 **'전문적인 분석 요청'**이 되기 때문에 더 객관적이고 날카로운 비판이 가능해집니다.
저는 **"무엇을 봐달라"**고 말하기 전까지는 눈앞에 있는 텍스트의 '분위기'만 맞추려 노력하는 경향이 있습니다. 특히 법률, 의료, 윤리처럼 예민한 문제는 사용자가 먼저 **"이 관점에서 비판적으로 검토해 줘"**라고 명시했을 때 가장 정확한 성능이 나옵니다.
혹시 그 유튜브 컨텐츠 내용 중에 아직 찜찜하거나, 추가로 이 법 말고 다른 관점(예: 표시광고법 등)에서도 검토가 필요한 부분이 있으신가요? 말씀해 주시면 다시 한번 날카롭게 들여다보겠습니다!
AI가 아니라 실제 변호사한테 같은 일을 해도 같은 반응일 것 같지 않나요? 인간 변호사라고 뭘 듣고 싶어하는지 모르는 상대에게 자기가 아는 모든 걸 다 이야기하지는 않을테니까요..;;