오픈AI·메타도 쓰는 'AI 엔진' 합성데이터…"안전성 검증 필요"

News

오픈AI·메타도 쓰는 'AI 엔진' 합성데이터…"안전성 검증 필요"

[지디넷코리아]

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주]

생성형 인공지능(AI) 모델 개발에 필요한 데이터가 고갈된다는 전망이 이어진 가운데 '합성데이터'가 대안으로 떠오르고 있다. 개인 식별정보나 민감정보 노출 없이 이용할 수 있다는 이점이 있지만 완전히 안심할 수 없다는 목소리가 높아지고 있다. 합성데이터에도 개인정보나 원본 데이터가 포함됐다는 이유에서다.

최근 AI 모델 복잡성이 늘면서 훈련에 필요한 데이터양도 증가한 추세다. 그러나 업계는 개인정보보호법 등 규제 이슈로 인해 모든 데이터를 자유롭게 수집·이용할 수 없다. 데이터 생성 속도도 한정적이다. 합성데이터가 주목받는 이유다. 이미 오픈AI를 비롯한 구글, 메타 등 빅테크는 모델 훈련에 합성데이터를 활용하고 있다.

생성형 인공지능(AI) 모델 개발에 필요한 데이터가 고갈된다는 전망이 이어진 가운데

합성데이터는 원본 데이터 형식과 구조·분포 특성을 학습해 생성된 가상데이터다. 가상 데이터기 때문에 원본 데이터에 있는 개인 식별정보나 민감정보를 노출하지 않고 데이터를 자유롭게 공유, 활용할 수 있다는 이점이 있다. 문자 등으로 이뤄진 정형데이터뿐 아니라 이미지, 동영상 형태인 비정형데이터가 합성데이터로 제작될 수 있다. 기업은 AI와 소프트웨어(SW) 개발에 필요한 의료·금융 데이터 등 민감·특수 데이터를 합성데이터로 대체할 수 있다.

합성데이터를 만들어 고객사에 납품하는 개발사도 늘고 있다. 해당 개발사들은 고객사에 부족한 데이터 종류를 AI로 제작해 채운다. 이를 통해 고객사는 데이터 제작 시간과 비용을 기존보다 줄일 수 있다.

김현수 슈퍼브에이아이 대표는 "실제 데이터를 수집하기 어렵거나 극단적인 케이스가 포함된 데이터를 AI 합성으로 얻을 수 있다"며 "데이터 수집·라벨링 과정이 생략돼 데이터 취득비용을 줄이고 신속히 학습할 수 있다"고 강조했다.

김 대표는 합성데이터가 다양한 산업에서 작동하는 모델 기능을 올릴 것으로 예측했다. 그는 "특히 합성데이터는 국내외 제조 분야나 국방, 물리보안용 AI 모델에 유용할 수 있다"며 "취득하기 어려운 제조 결함이나 중대재해 사고, 화재, 드문 보안 이슈 데이터를 합성데이터로 채움으로써 모델 성능을 올리고 실제 위험에 대처할 수 있다"고 덧붙였다.

업스테이지는 향후 합성데이터 생산 노하우가 개발 전략으로 자리 잡을 것이라고 봤다. 업스테이지 관계자는 "합성데이터를 고품질 정형 데이터로 적절히 융합해야 한다"며 "기업들이 자신에 맞는 융합 방식을 찾으면 그만큼 비용효율적인 대체제가 없을 것"이라고 강조했다. 이어 "각 기업이 같은 합성데이터를 이용해도 회사 기술력에 따라 모델 성능은 다를 것"이라고 설명했다.

정부도 최근 합성데이터 생성과 활용에 필요한 가이드라인을 제시했다. (사진=이미지투데이)

정부도 최근 합성데이터 생성과 활용에 필요한 가이드라인을 제시했다. 개인정보보호위원회는 지난달 '합성데이터 생성·활용 안내서'를 내놨다. 기업, 기관이 개인정보보호법을 준수하면서 합성데이터를 생성하고 활용하는 방법과 절차를 제공하기 위해서다.

발간된 보고서에 따르면 국내 합성데이터 생성 절차는 사전 준비부터 합성 데이터 생성, 안전성·유용성 검증, 심의윈회 평가, 활용·안전한 관리로 총 5단계로 이뤄졌다.

다만 전문가들은 합성데이터를 이용한다고 해서 모든 개인정보보호 이슈를 피할 수 있는 건 아니라고 주장했다. 합성데이터에도 개인정보가 포함될 수 있으며, 정보 편향성을 일으킬 수 있다는 이유에서다. 이에 합성데이터를 검증할 수 있는 시스템 구축도 중요해질 것이라고 입을 모았다.

업계 관계자는 "합성데이터 자체가 허위 정보나 편향된 정보를 생성할 수 있다"며 "합성데이터 내 개인정보가 재식별될 가능성도 배제할 수 없다"고 설명했다. 또 "합성데이터 품질이 낮은 상태에서 AI 학습에 활용되면 모델 성능 자체가 떨어질 수밖에 없다"며 "합성데이터 생성뿐 아니라 이를 검증할 수 있는 시스템 강화도 필요할 것"이라고 덧붙였다.

합성데이터에 개인정보가 포함될 수 있다는 주장도 나왔다. 개인정보위 안내서에 따르면 특히 부분 합성데이터에는 합성데이터 기록과 원본데이터 기록 간 연결 가능성이 높다. 활용 과정에서 개인정보보호 침해 등 안전 가능성이 낮아질 수 있다는 지적이다. 이에 수집 목적과 익명 정보 여부 등 합성데이터 성격에 따라 동의 필요성 등 적법요건 확인이 필요하다는 분위기다.

이 외에도 개인정보위는 비정형 합성데이터에 대한 연구가 추가로 필요하다고 지적했다. 이미지가 아닌 영상, 음성 및 멀티모달 데이터 등 다양한 비정형 합성데이터에 대한 안내도 추후 과제로 남아있다고 설명했다.

0 Comments
제목
Category
접속자 통계
  • 현재 접속자 20 명
  • 오늘 방문자 926 명
  • 어제 방문자 811 명
  • 전체 방문자 194,092 명
  • 전체 게시물 5,120 개
  • 전체 댓글수 673 개
  • 전체 회원수 55 명
Facebook Twitter GooglePlus KakaoStory KakaoTalk NaverBand