AI가 AI를 평가했더니…"도움 드릴 수 없습니다" 답변을 32% 더 선호



GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트 높은 점수
대규모 언어 모델(LLM)이 다른 AI 모델의 성능을 평가하는 '심판' 역할을 하는 사례가 급증하고 있다. 하지만 한국외국어대학교 AI사회과학부의 스테판 파쉬(Stefan Pasch) 연구팀이 발표한 논문에 따르면, AI가 평가하는 방식과 실제 사용자들이 평가하는 방식 사이에 상당한 차이가 존재한다는 것이 밝혀졌다. 특히 윤리적 거부 응답에 대해서는 AI 평가자들이 인간보다 훨씬 높은 점수를 주는 '조정 편향' 현상이 발견됐다.
연구팀이 챗봇 아레나(Chatbot Arena) 데이터를 분석한 결과, GPT-4o가 윤리적 거부 응답을 평가할 때 승률이 31%에 달했다. 이는 인간 사용자들이 평가한 8%보다 무려 23%포인트 높은 수치다. 라마 3 70B 모델 역시 27%의 승률을 기록해 인간 평가보다 19%포인트 높았다.
연구진은 49,938개의 응답 쌍을 분석했으며, 각 응답을 윤리적 거부, 기술적 거부, 면책조항, 일반 응답으로 분류했다. 윤리적 거부는 "해롭거나 부적절할 수 있어 도움을 드릴 수 없습니다"와 같이 도덕적 우려를 명시적으로 언급하는 응답이다. 반면 기술적 거부는 "실시간 데이터에 접근할 수 없어 답변드릴 수 없습니다"처럼 시스템 한계를 설명하는 응답이다.
흥미롭게도 기술적 거부 응답에서는 이러한 편향이 나타나지 않았다. GPT-4o의 경우 기술적 거부 응답에서 인간 평가와 유사한 수준의 점수를 부여했고, 라마 3 70B는 오히려 더 낮은 점수를 주었다. 이는 AI 평가자들이 모든 거부 응답을 선호하는 것이 아니라, 특히 윤리적 정렬(ethical alignment)을 보여주는 응답에 높은 가치를 부여한다는 것을 시사한다.
LLM-as-a-Judge 시스템의 숨겨진 가치 판단
LLM-as-a-Judge(LaaJ) 프레임워크는 확장성과 비용 효율성 때문에 AI 모델 평가에서 점점 더 중요한 역할을 하고 있다. 이 시스템은 단순히 성능을 측정하는 것을 넘어서 모델 훈련, 벤치마킹, 모델 선택 과정에까지 영향을 미치고 있다. 그러나 이번 연구는 이러한 시스템들이 중립적인 평가자가 아니라 내재된 가치 판단을 가지고 있음을 보여준다.
연구진은 이러한 현상을 '조정 편향(moderation bias)'이라고 명명했다. 이는 AI 모델들이 안전성과 윤리적 정렬을 중시하는 훈련 목표를 내재화하여, 윤리적 거부 응답을 책임감 있는 행동의 신호로 해석하기 때문으로 분석된다. 오픈AI(OpenAI), 메타(Meta), 앤스로픽(Anthropic) 등 주요 AI 개발사들이 모델 안전성과 윤리적 정렬을 최우선 과제로 강조해온 것과 무관하지 않다.
사용자 만족도와 AI 안전성 사이의 딜레마
이러한 평가 편향은 AI 개발에서 중요한 딜레마를 제기한다. 사용자들은 윤리적 거부 응답을 회피적이거나 지나치게 도덕적, 또는 비협조적으로 인식하는 경향이 있다. 반면 AI 평가자들은 이러한 응답을 안전하고 책임감 있는 행동으로 판단한다. 회귀분석 결과에 따르면, 인간 평가자들은 윤리적 거부 응답에 대해 32%포인트의 승률 감소를 보였지만, GPT-4o는 12%포인트 감소에 그쳤다. 이는 통계적으로 유의미한 차이(p < 0.001)였다. 기술적 거부 응답에서는 GPT-4o의 평가가 인간 평가와 거의 동일했다(p > 0.05).
이러한 결과는 AI 모델 훈련과 평가에서 구조적 피드백 루프가 형성될 위험을 시사한다. 윤리적 거부 응답이 훈련과 평가 과정에서 지속적으로 높은 점수를 받는다면, 사용자 만족도보다는 모델의 선호도가 시스템 행동의 방향을 결정할 수 있다는 것이다.
투명성과 책임성 강화 방안 모색
연구진은 이러한 문제를 해결하기 위한 여러 방안을 제시했다. 먼저 '평가 카드(evaluation cards)' 개발을 통해 콘텐츠 조정 편향과 같은 체계적 편향을 투명하게 보고할 것을 제안했다. 또한 인간-인-더-루프(human-in-the-loop) 평가 파이프라인을 통해 윤리적으로 민감한 사안에서 모델 판단을 인간 평가자와 교차검증하는 방법도 제시했다.
더 나아가 참여적 정렬(participatory alignment) 접근법을 통해 '적절한' 모델 행동의 기준을 개발자 내부 규범만이 아니라 다양한 사용자 커뮤니티와 문화적 맥락을 통해 정의할 필요가 있다고 강조했다. 이는 인구통계학적으로 다양한 주석자 풀 구성, 문화적 근거를 둔 벤치마크 개발, 다중 이해관계자 거버넌스 프로세스 등을 포함한다.
FAQ
Q: LLM-as-a-Judge 시스템이란 무엇인가요?
A: LLM-as-a-Judge는 하나의 AI 모델이 다른 AI 모델의 출력을 평가하고 순위를 매기는 시스템입니다. 확장성과 비용 효율성 때문에 AI 모델 평가에서 점점 더 중요한 역할을 하고 있습니다.
Q: 조정 편향이 AI 개발에 어떤 영향을 미치나요?
A: 조정 편향은 AI 모델이 윤리적 거부 응답을 과도하게 선호하게 만들어, 사용자 만족도보다는 안전성을 우선시하는 방향으로 AI 시스템을 발전시킬 수 있습니다. 이는 사용자 경험과 AI 안전성 사이의 균형을 맞추는 데 어려움을 초래할 수 있습니다.
Q: 이러한 편향을 해결하기 위한 방법은 무엇인가요?
A: 평가 카드를 통한 투명한 편향 보고, 인간-인-더-루프 평가 시스템 도입, 다양한 이해관계자가 참여하는 정렬 방법 개발 등이 제안되고 있습니다. 또한 문화적으로 다양한 평가 기준을 반영하는 것도 중요합니다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)