AI, 물리법칙도 깨쳤다...엔비디아 '코스모스 플랫폼' 분석
물리세계 이해하는 AI의 두뇌, 월드 파운데이션 모델 심층 분석
엔비디아(NVIDIA)가 물리적 세계와 상호작용하는 AI 개발을 가속화할 수 있는 월드 파운데이션 모델(World Foundation Model, WFM) 플랫폼 '코스모스(Cosmos)'를 공개했다. 엔비디아 기술 블로그에 따르면, 코스모스의 핵심인 월드 파운데이션 모델은 9,000조 개의 토큰 데이터로 학습됐다. 여기에는 자율주행, 로보틱스, 합성 환경 등에서 수집한 2,000만 시간 분량의 데이터가 포함됐다.
이 모델은 자동회귀와 디퓨전 두 가지 아키텍처를 채택했다. 자동회귀 모델은 3D 회전 위치 임베딩(RoPE)으로 공간과 시간 차원을 분리해 처리하며, 교차 어텐션 레이어로 텍스트 입력을 제어한다. 디퓨전 모델은 3D 패치화 기술로 비디오를 작은 조각으로 나누고, 하이브리드 위치 임베딩으로 다양한 해상도와 프레임 속도를 지원한다. 특히 적응형 레이어 정규화와 로라(LoRA) 기술을 통해 모델 크기를 36% 줄이면서도 높은 성능을 유지하는 데 성공했다.
3D 일관성과 물리법칙 준수 능력 입증
엔비디아는 코스모스의 성능을 검증하기 위해 500개의 정적 장면 데이터셋으로 3D 일관성을 평가했다. 기존 비디오 생성 모델인 비디오LDM과 비교한 결과, 코스모스의 디퓨전 텍스트투월드(Text2World) 7B 모델은 샘슨 오차(Sampson Error)에서 0.355를 기록해 기존 모델의 0.841보다 크게 향상된 성능을 보였다. 또한 카메라 포즈 추정 성공률도 62.6%로, 기존 모델의 4.4%를 크게 뛰어넘었다. 물리법칙 준수 능력 평가에서는 엔비디아 피직스(PhysX)와 아이작 심(Isaac Sim)을 활용해 중력, 충돌, 토크, 관성 등 8가지 시나리오를 테스트했다. 9개 프레임의 입력 데이터를 사용했을 때 PSNR 21.06, SSIM 0.69의 우수한 성능을 달성했다.
89배 빠른 데이터 처리와 고품질 압축 기술의 결합
코스모스는 엔비디아의 네모 큐레이터(NeMo Curator)를 통해 기존 CPU 파이프라인 대비 89배 빠른 데이터 처리 속도를 제공한다. 100페타바이트 이상의 대용량 데이터도 원활하게 처리할 수 있으며, 호퍼(Hopper) GPU로는 40일, 블랙웰(Blackwell) GPU로는 14일 만에 2,000만 시간의 비디오를 처리할 수 있다. 코스모스 토크나이저는 자동회귀 모델의 경우 시간은 8배, 공간은 16x16배로 압축하며 최대 49개 프레임을, 디퓨전 모델은 시간 8배, 공간 8x8배 압축으로 최대 121개 프레임을 처리한다.
AI 안전성 확보를 위한 이중 가드레일 시스템 구축
엔비디아는 코스모스의 안전한 활용을 위해 사전 가드와 사후 가드로 구성된 이중 가드레일 시스템을 도입했다. 사전 가드는 키워드 차단과 엔비디아의 AI 콘텐츠 안전 모델 '에이지스(Aegis)'를 통해 부적절한 프롬프트를 필터링한다. 사후 가드는 생성된 비디오의 모든 프레임을 검사해 안전하지 않은 콘텐츠를 차단하고, 레티나페이스(RetinaFace) 모델로 인물의 얼굴을 자동으로 블러 처리한다. 엔비디아는 1만 개 이상의 프롬프트-비디오 쌍을 활용해 시스템을 지속적으로 개선하고 있다.
옴니버스 연계로 확장되는 물리 AI의 활용
코스모스는 엔비디아의 3D 설계 플랫폼 옴니버스(Omniverse)와 연동해 다양한 물리 AI 애플리케이션을 지원한다. 개발자들은 3D 시나리오를 생성하고 이를 사실적인 비디오로 변환할 수 있으며, 정책 모델 개발과 평가, 행동 예측, 다중 시뮬레이션 등을 수행할 수 있다. 모델은 실시간 추론에 최적화된 나노(Nano), 기본 성능의 수퍼(Super), 최고 품질의 울트라(Ultra) 세 가지 크기로 제공된다. 특히 옴니버스와의 연계를 통해 비디오 검색 및 이해, 제어 가능한 3D-실사 합성 데이터 생성, 예측적 유지보수, 자율 의사결정 등 다양한 응용이 가능하다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT-4o를 활용해 작성되었습니다.