"韓 기업 첫 쾌거"…LG AI연구원, 세계 최고 권위 AI 학회서 '최고논문상' 수상

Master (3.93.253.174) 0 0 0 0 4시간전

https://zdnet.co.kr/view/?no=20250430144208 + 0 http://feeds.feedburner.com/zdkorea?format=xml + 0

[지디넷코리아]

LG AI연구원이 생성형 인공지능(AI) 모델 평가 분야의 세계 최고 권위 학회로부터 최고논문상을 받았다. AI 기술 신뢰성과 평가 체계 정립에 중요한 이정표를 세우며 글로벌 연구 생태계 내 존재감을 강화할 수 있게 됐다.

LG AI연구원은 이번 수상이 다음달 4일까지 미국 뉴멕시코 앨버커키에서 열리는 '북미 전산언어 학회(NAACL) 2025'에서 발표된 것이라고 30일 밝혔다. NAACL은 자연어 처리 분야 세계 3대 학회 중 하나로, 매년 채택된 1천400여 편 논문 가운데 단 한 편만 선정해 최고논문상을 수여한다.

연구원은 생성형 AI 모델 평가 벤치마크 '빅젠 벤치(BIGGEN BENCH)' 논문으로 상을 받았다. 이 벤치마크는 생성형 AI 모델이 갖춰야 할 핵심 능력을 아홉 개 범주로 나누고 세부적으로는 77개 역할을 통해 총 765개 항목을 평가하는 벤치마크다. 실제 사용자 경험을 반영한 정교한 기준을 제시해 기존 평가지표의 한계를 극복했다는 평가를 받는다.

빅젠(BIGGEN) 벤치마크는 생성형 AI 모델이 갖추어야 할 9가지 핵심 역량을 기준으로 77개의 세부 역할 수행 능력을 객관적이고 종합적으로 평가하도록 설계됐다. (사진=LG)

이번 논문은 LG AI연구원 초지능랩 인턴으로 참여한 김승원 카네기멜론대 박사과정 연구생을 제1저자로, 이문태 초지능랩장, 이경재 데이터 스쿼드 리더, 서민준 카이스트 교수팀이 공동으로 연구를 주도했다. 여기에 연세대, 코넬대, 일리노이대, 매사추세츠 공대(MIT), 워싱턴대 등 국내외 유수 연구진도 참여했다.

'빅젠 벤치'는 생성형 AI 모델을 평가할 때 인간이 실제 사용하는 맥락을 모사해 사람 중심의 평가 방식을 자동화하는 데 초점을 맞췄다. LG AI연구원은 이를 활용해 103개의 생성형 AI 모델을 평가했고 전문가 집단과의 교차 검증에서도 높은 신뢰도와 타당도를 확보했다.

서민준 카이스트 교수는 "빅젠 벤치는 생성형 AI 모델을 평가할 때 사람들이 실제로 사용할 때 느끼는 실용성을 지표화 할 수 있다는 점이 가장 큰 장점"이라며 "빅젠 벤치에서 좋은 결과를 얻는다는 것은 실제로 사용할 때 만족스러운 성능을 보이는 생성형 AI 모델이라는 의미"라고 강조했다.

프로젝트에서는 평가자 역할을 하는 AI 모델도 개발됐다. LG AI연구원은 평가자 모델인 '프로메테우스-2(Prometheus-2)'를 오픈소스로 공개했으며 이는 상용 최상위 모델인 'GPT-4'와 유사한 수준의 평가 신뢰도를 보여줬다. 현재는 빅젠 벤치를 기반으로 세부 항목별 자동 평가 시스템 구축도 병행 중이다.

이번 성과는 구글의 트랜스포머 기반 모델인 'BERT'가 지난 2019년 NAACL 최고논문상을 수상하며 미세조정 기반 대형언어모델 시대를 연 사례와 지난 2022년 구글리서치의 '에프넷(Fnet)'이 경량화 흐름을 이끈 전례와 비교되는 기술적 전환점이 될 수 있다는 평가가 나온다.

업계 관계자는 "최고논문상은 금메달과 같은 의미이며 글로벌 최상위 AI 학회에서 국내 기업이 수상한 건 사실상 처음"이라며 "지난 2023년 카이스트의 국제 표현 학습 학술대회(ICLR) 수상 외에는 유례가 없고 산업계에서는 전례 없는 사례"라고 강조했다.

0
0