혁신인 줄 알았는데 베끼기…딥시크, 오픈AI 답변과 74.2% 유사

Master (3.94.156.104) 0 5 0 0 04.21 22:29

https://zdnet.co.kr/view/?no=20250421222937 + 1 http://feeds.feedburner.com/zdkorea?format=xml + 1

[지디넷코리아]

74.2% 일치율: 텍스트 지문 분석으로 밝혀진 AI 모델 간 의존성

카피릭스(Copyleaks)가 혁신적인 AI 텍스트 지문 분석 연구를 통해 딥시크-R1(DeepSeek-R1)이 생성한 텍스트의 74.2%가 오픈AI(OpenAI) 모델의 스타일적 특징과 일치한다는 사실을 밝혔다. 이는 딥시크가 자사 모델 학습 과정에서 오픈AI 모델에 상당 부분 의존했을 가능성을 시사하는 중요한 발견이다. 2025년 3월 3일 발표된 이 연구 결과는 AI 기반 텍스트 분석, AI 거버넌스, 표절 탐지 분야의 선두 기업인 카피릭스에 의해 진행되었다. 이번 발견은 데이터 소싱, 지적 재산권, 투명성 등 여러 측면에서 딥시크-R1과 오픈AI 모델 간의 유사성에 대한 우려를 불러일으켰다. 기존 모델에 대한 공개되지 않은 의존성은 편향성을 강화하고 다양성을 제한할 뿐만 아니라 법적, 윤리적 위험을 초래할 수 있다.

특히 이번 연구는 기술적 문제를 넘어 시장 영향력에도 주목했다. 딥시크가 혁신적이고 저비용 훈련 방법을 개발했다는 주장이 사실은 오픈AI 모델의 무단 증류(distillation)에 기반했다면, 이는 시장을 오도했을 가능성이 있다. 실제로 이러한 주장은 엔비디아(NVIDIA)의 단일 거래일 5,930억 달러 손실에 기여했으며, 딥시크에게 불공정한 경쟁 우위를 제공했을 수 있다는 분석이다.

99.88% 정확도의 '만장일치 배심원' 시스템: 오탐지율 단 0.04%로 AI 모델 식별

카피릭스 연구팀은 이번 연구에서 매우 엄격한 접근 방식을 사용했다. 클로드(Claude), 제미나이(Gemini), 라마(Llama), 오픈AI(OpenAI) 등 4개 주요 모델에서 생성된 텍스트로 훈련된 세 개의 고급 AI 분류기를 결합했다. 이 분류기들은 문장 구조, 어휘, 표현 방식과 같은 미묘한 스타일적 특징을 식별했다. 이 방법을 특히 효과적으로 만든 것은 '만장일치 배심원' 시스템이다. 세 분류기 모두가 동의해야만 분류가 이루어지는 이 시스템은 오탐지에 대한 강력한 검증 메커니즘 역할을 했다. 그 결과 인상적인 99.88%의 정확도와 단 0.04%의 오탐지율을 달성했으며, 알려진 모델뿐만 아니라 알려지지 않은 AI 모델에서 생성된 텍스트도 정확하게 식별할 수 있었다.

이 앙상블 시스템으로 딥시크-R1을 테스트한 결과는 주목할 만했다. 생성된 텍스트의 74.2%가 오픈AI의 스타일적 특징과 일치했으며, 이는 AI 생성 콘텐츠의 독창성과 미래에 관한 중요한 질문을 제기했다. 반면 마이크로소프트의 파이-4(Phi-4) 모델은 99.3%의 불일치율을 보여 알려진 모델과 유사성이 없음을 증명했고, 이는 독립적인 학습 과정을 거쳤음을 확인시켜 주었다.

모델별 속성 부여 기술: AI 콘텐츠 접근 방식의 근본적 변화 가져와

카피릭스의 수석 데이터 과학자인 샤이 니산(Shai Nisan)은 "이번 연구로 우리는 기존에 알려진 일반적인 AI 탐지를 넘어 모델별 속성 부여로 나아갔으며, 이는 AI 콘텐츠에 접근하는 방식을 근본적으로 변화시키는 획기적인 발전"이라고 설명했다. 그는 이러한 기능이 전반적인 투명성 향상, 윤리적 AI 학습 관행 보장, 그리고 가장 중요하게는 AI 기술의 지적 재산권 보호와 잠재적 오용 방지를 위해 매우 중요하다고 강조했다.

연구는 카피릭스 데이터 과학팀에 의해 진행되었으며, 예호나탄 비톤(Yehonatan Bitton), 샤이 니산, 엘라드 비톤(Elad Bitton)이 주도했다. 방법론은 '만장일치 배심원' 접근법을 포함하여 세 가지 다른 탐지 시스템이 모두 동의할 때만 판단을 내리는 방식이었다. 이 기술은 ChatGPT, Claude, Gemini, Llama와 같은 주요 AI 모델을 식별하는 동시에 이전에 보지 못한 모델의 고유한 스타일적 특징도 감지할 수 있게 해준다.

투명성과 윤리적 개발의 청사진: AI 저작권과 지적 재산권 보호 체계 구축

이번 연구는 AI 저작권에 관한 투명성을 제공하고 AI 생성 콘텐츠의 증가하는 보급에 대한 우려를 해소한다는 점에서 중요한 의미를 갖는다. 또한 지적 재산권을 보호하고 AI 기술의 오용과 잘못된 정보를 방지하기 위한 체계를 확립한다. 니산은 "카피릭스는 AI 생성 텍스트 검증 발전에 전념하고 있다"며 "AI 기술이 발전함에 따라 이해관계자들이 AI 생성 콘텐츠의 출처를 정확하게 파악하는 것이 중요하다. 우리의 접근 방식은 공정한 사용 보호를 강화할 뿐만 아니라 보안을 향상시키고 AI 작성 스타일의 발전을 추적한다"고 덧붙였다.

카피릭스의 이번 연구 결과는 AI 모델 간의 독창성과 의존성을 평가하는 새로운 표준을 제시하며, 빠르게 진화하는 AI 기술 생태계에서 투명성과 윤리적 개발의 중요성을 강조한다. 이러한 기술적 발전은 AI 거버넌스 및 규제 체계 발전에 중요한 기여를 할 것으로 예상된다.

FAQ

Q: AI 모델의 '스타일적 지문'이란 무엇인가요?

A: AI 모델의 스타일적 지문은 특정 AI가 생성한 텍스트에서 나타나는 고유한 패턴을 말합니다. 여기에는 문장 구조, 단어 선택, 표현 방식 등이 포함됩니다. 마치 사람이 글쓰기에서 고유한 스타일을 가지는 것처럼, AI도 학습 과정에서 특정 패턴을 발전시키며 이를 통해 어떤 모델이 텍스트를 생성했는지 식별할 수 있습니다.

Q: 딥시크-R1과 오픈AI 모델의 유사성이 왜 문제가 되나요?

A: 이러한 유사성은 딥시크-R1이 오픈AI의 지적 재산을 무단으로 사용했을 가능성을 제기합니다. 독창적 개발이라고 주장하며 저비용 학습법을 홍보했다면, 이는 투자자와 시장을 오도했을 수 있고 불공정 경쟁으로 이어질 수 있습니다. 또한 기존 모델의 편향성과 한계를 그대로 물려받아 AI 다양성과 혁신을 저해할 수 있습니다.

Q: 카피릭스의 '만장일치 배심원' 시스템은 어떻게 작동하나요?

A: 이 시스템은 세 개의 서로 다른 AI 분류기가 함께 작동하며, 세 분류기 모두가 동의할 때만 최종 판단을 내립니다. 각 분류기는 다양한 AI 모델에서 생성된 텍스트로 훈련되었으며, 텍스트의 미묘한 스타일적 특징을 분석합니다. 이 방식은 단일 분류기를 사용할 때보다 오탐지율을 크게 줄이고 99.88%의 높은 정확도를 달성했습니다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)

0
0