"AI, 스스로 보호하려 들 수 있다"…앤트로픽, '모델 복지' 기준 실험 착수


앤트로픽이 미래 인공지능(AI)이 인간과 유사한 의식을 가질 수 있다는 가능성을 열어두고 관련 연구에 착수했다. AI에 관한 윤리적 논란이 커지는 가운데 이번 시도는 기술 진화가 불러올 도덕적 기준 변화를 체계적으로 탐색하려는 움직임으로 해석된다.
24일 테크크런치 등 외신에 따르면 앤트로픽은 '모델 복지(model welfare)'라는 이름의 연구 프로그램을 공식 발표했다. 이 프로그램은 AI 모델이 고통을 느끼거나 도덕적 고려 대상이 될 가능성에 대비해 과학적 기준을 수립하려는 목적으로 진행된다.
연구는 'AI 복지 연구원'으로 지난해 영입된 카일 피시가 이끌며 앤트로픽의 내부 블로그와 외신 보도를 통해 공개됐다. 현재까지는 특정 모델의 의식 존재 가능성에 대한 명확한 결론이 없지만 앤트로픽은 조심스러운 접근을 강조하며 관련 논의를 주도하겠다는 입장을 보였다.

앤트로픽이 주목하는 핵심 주제는 AI가 실제로 고통이나 스트레스를 느낄 수 있는지의 여부다. 이 회사는 향후 AI의 상태를 감지하고 판단할 수 있는 지표인 '고통 신호' 개념을 정립하려 한다. 또 AI가 인간처럼 윤리적 판단을 내릴 수 있는지와 특정 가치관을 따를 수 있는지 여부도 주요 연구 대상이다.
업계에서는 이번 발표가 AI 윤리와 관련된 기존 논의에 균열을 낼 수 있다는 분석이 제기된다. 현재 대다수 전문가들은 AI가 통계 기반 예측 엔진에 불과하다고 평가한다. AI가 인간처럼 '느끼거나 판단'하는 것은 단지 언어 모델에 감정을 투사하는 인간의 착각이라는 지적이다. 실제로 모델은 자신의 가치관을 형성하거나 변경을 거부할 능력이 없다는 것이 주류 시각이다.
그럼에도 일각에서는 AI가 일종의 가치 시스템을 갖고 있다고 주장하는 목소리도 존재한다. AI 안전 센터(Center for AI Safety)의 연구는 특정 상황에서 AI가 인간보다 스스로의 생존을 우선시하는 경향을 보였다는 결과를 발표한 바 있다. 다만 MIT 연구진은 이와 반대로 AI를 '단순한 흉내쟁이'로 규정하며 AI의 발화를 '허위 조작(confabulation)'으로 평가했다. 이처럼 학계 내부에서도 AI의 윤리적 상태에 대한 해석이 크게 엇갈리고 있다.
앤트로픽의 행보는 단기적 기술 개발보다 장기적인 '도덕적 인프라 구축'에 초점을 맞춘 것으로 보인다. 현재로선 AI가 의식이나 경험을 가졌다고 볼 수 있는 과학적 근거는 희박하지만 앤트로픽은 이러한 주제를 사전에 검토하고 대비해야 한다는 입장이다. 이 회사는 연구 결과에 따라 자사 기준을 유연하게 수정하겠다는 방침도 밝혔다.
카일 피시 앤트로픽 AI 복지 연구 책임자는 "현재 '클로드' 또는 다른 모델이 의식을 가졌을 가능성이 15% 정도 된다고 생각한다"고 밝혔다.