구글·엔비디아, 멀티모달 뛰어넘다…"다음 세대는 '물리 AI'"
밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주]
구글과 엔비디아가 인공지능(AI)을 한 단계 끌어올린 기술을 공개하면서 새 AI 시대를 예고했다.
8일 업계에 따르면 구글은 월드 모델 개발팀을 꾸려 멀티모달을 뛰어넘은 AI 생태계 청사진을 공유했다. 엔비디아는 물리 AI 구현을 돕는 '엔비디아 코스모스' 도구를 공개했다.
구글은 현실을 가상 세계에서 실시간 시뮬레이션·예측할 수 있는 월드 모델 개발팀을 꾸렸다고 발표했다. 해당 팀은 딥마인드 소속으로 운영되며 팀 브룩스 연구원이 해당 업무를 담당한다. 그는 지난해 10월 오픈AI에서 비디오 생성기 '소라' 개발에 참여한 바 있다.
월드 모델은 외부 환경을 학습해 이를 가상세계에서 구현·예측할 수 있다. 가상에서 특정 시나리오를 테스트하거나 별도 전략을 학습하는 원리다. 이에 모델이 실제 환경에서 데이터를 직접 쌓지 않아도 기존보다 더 나은 의사 결정을 내는 식이다. 월드 모델은 비전 모델과 메모리 모델, 예측 모델을 결합해 작동한다. 단순히 문자와 이미지를 인식·생성하는 멀티모달보다 한 단계 더 성숙한 모델로 평가받고 있다.
구글 개발팀은 자사 '제미나이'와 '비오' '지니' 개발 연구 경험을 바탕으로 월드 모델을 구축할 방침이다. 제미나이는 구글의 대표 멀티모달 모델이며 비오는 비디오 생성 모델이다. 지니는 게임·3D 환경을 실시간 시뮬레이션할 수 있는 모델로 현실을 3D 세계에 구현할 수 있는 기능을 갖췄다. 구글은 이 모델들을 통합해 기존보다 한 단계 업그레이드한 월드 모델을 구축할 목표다.
엔비디아는 이번 CES에서 물리 AI 구현을 돕는 도구 엔비디아 코스모스를 발표했다.
엔비디아 코스모스는 월드 모델과 토크나이저, 영상 프로세싱 파이프라인으로 작동한다. 사용자는 코스모스를 통해 현실에 구축할 빌딩 설계 도면을 제작하거나 자동차 제작 등 물리 AI 시스템을 구축 작업을 할 수 있다.
물리 AI는 현실 속 물리적 법칙을 이해할 수 있는 AI다. 물리적 법칙을 알 수 있기 때문에 실제 환경에 맞는 자동차나 건물 설계를 시뮬레이션을 통해 진행할 수 있다.
이에 업계에서는 물리 AI가 멀티모달 기술을 뛰어넘은 시스템으로 평가하고 있다. 보통 멀티모달은 이미지나 문자, 영상 등을 생성할 수는 있다. 다만 실제 환경을 고려한 물체나 설계 작업을 수행할 수는 없다. 멀티모달이 특정 환경에 대한 물리적 상태를 이해할 수 없기 때문이다.
젠슨 황 엔비디아 CEO도 "앞으로 AI의 차세대 개척지는 물리 AI"일 것이라고 CES 기조연설을 통해 밝힌 바 있다.
이날 황 CEO는 코스모스가 텍스트나 이미지, 비디오 프롬프트를 수집해 가상 세계를 동영상 형태로 만들 수 있다고 도구 원리를 설명했다. 사용자는 코스모스를 통해 현실에 구축할 빌딩 설계 도면이나 자동차 제작, 특정 훈련 시나리오 검색, 모델 작동 테스트 등을 수행할 수 있다.
그는 "코스모스 목표는 AI 모델에 예측과 멀티모달 시뮬레이션 기능을 지원하는 것"이라며 "발생 가능한 모든 미래를 시뮬레이션하고 최적 행위를 선택할 수 있게 돕는 것"이라고 강조했다. 이어 "거대언어모델이 생성형 AI를 혁신한 것과 같은 수준의 영향력을 보일 것"이라고 내다봤다.