"2030년까지 인간 상위 1% AI 등장 가능"…딥마인드, AGI 위협 경고


구글 딥마인드가 향후 10년 안에 인류에게 실존적 위협을 가할 수 있는 범용인공지능(AGI)의 등장 가능성을 경고했다. AGI가 인류 상위 1% 수준의 인지 역량을 확보할 수 있다는 전망 아래 이에 대응할 기술적 안전 전략을 제시하며 위험 최소화에 나선 것이다.
6일 업계에 따르면 딥마인드의 '기술적 AGI 안전과 보안을 위한 접근법(An Approach to Technical AGI Safety and Security)' 보고서는 지난 3일 공개된 직후 업계 안팎에서 큰 주목을 받고 있다. 회사는 145페이지 분량의 이 보고서를 통해 오는 2030년까지 딥러닝 기반의 점진적인 기술 발전을 통해 예외적 능력을 지닌 AGI가 등장할 수 있다고 전망했다.
딥마인드는 AGI를 두고 메타인지 능력을 갖추고 인간보다 뛰어난 문제 해결과 개념 학습 역량을 기반으로 광범위한 비물리적 작업을 수행할 수 있는 AI로 정의했다. 회사는 이를 '숙련된 성인 상위 1% 수준의 능력'으로 규정하고 현 추세대로라면 오는 2030년 전후로 현실화될 수 있다고 내다봤다.

딥마인드는 AGI가 야기할 위험을 네 가지로 분류했다. ▲악의적 사용자의 고의적 오용(Misuse) ▲AI의 자율적 비정렬 행동(Misalignment) ▲비고의적 판단 오류(Mistakes) ▲사회·경제적 구조 변화에 따른 시스템 리스크(Structural Risks) 등이다.
보고서는 이 중에서도 특히 '오용'과 '자율적 비정렬 행동'을 중심 위험 요소로 강조했다. AI가 해킹·바이오테러 등 실질적 해악 수단으로 쓰이거나 스스로 목표를 설정하고 인간의 통제를 벗어날 경우를 우려한 것이다.
우선 딥마인드는 '오용' 방지를 위해 AGI가 '위험 역량'을 보유하고 있는지를 정량적으로 평가해야 한다고 밝혔다. 공격, 해킹, 무기 설계 등 실제 피해를 유발할 수 있는 능력을 사전에 점검하고 일정 기준을 넘을 경우 즉시 보안 및 접근 통제를 포함한 완화 조치를 시행하는 구조다.
AI 모델 자체의 내부 작동 원리와 학습 구조에 직접 개입하는 '모델 단계'에서는 위험하거나 불법적인 요청을 거부하도록 학습하는 '사후 훈련(post-training)'이 적용된다. 단순히 보상을 기반으로 한 학습을 넘어 우회 공격(jailbreak)까지 방어할 수 있는 내성을 갖추도록 설계하는 것이 핵심이다.
이와 함께 '기능 억제(capability suppression)' 전략도 병행된다. 모델이 이미 학습한 위험 기술을 제거하거나 무력화하는 방식으로, 다만 이는 정확도 저하 등 기술적 난제를 동반할 수 있다는 한계도 언급됐다.

AI 모델을 포함하고 있는 전체 시스템 구조인 '시스템 단계'에서는 보다 포괄적인 방어 전략이 제시된다. 입력과 출력을 실시간으로 감시하는 모니터링 체계를 통해 AI가 위험 징후를 보일 경우 즉각 경고하거나 출력을 차단하는 식이다.
AI 내부의 활성화 패턴까지 들여다보는 방식으로 위협 탐지를 고도화하는 것도 제안됐다. 민감한 모델의 경우 인증된 사용자만 접근할 수 있도록 제한하고 가중치 유출이나 탈취를 막기 위한 하드웨어·소프트웨어 보안도 함께 구축해야 한다는 것이다.
보고서는 이러한 전략들을 단순한 예방 차원이 아니라 실질적인 공격에 대비한 검증 프로세스로 확장한다. 내부와 외부 전문가로 구성된 팀이 실제로 모델을 공격해보는 '레드 팀 테스팅(Red Teaming)'을 실시해 방어 체계의 허점을 실험적으로 점검하고 이를 개선하는 방식이다.
딥마인드는 이를 통해 해당 모델이 위험 역량을 보유하지 않았거나 보유했더라도 실질적인 해를 끼치기 어렵다는 점을 정량·정성적으로 입증할 수 있어야 한다고 명시했다. 회사는 이 과정을 '세이프티 케이스(Safety Case)'라고 정의했다.
딥마인드는 AGI의 '자율적 비정렬 행동(Misalignment)'에 있어 두 가지 방어선을 설정했다. 1차 방어선은 AI 자체를 '정렬된 상태'로 학습시키는 것이다. 이를 위해서는 '증폭된 감독(Amplified Oversight)' 개념이 제시된다. 사람보다 우월한 판단을 내릴 수 있는 AI에 대해 동일 수준의 AI가 상호 비판적 피드백을 제공하며 문제점을 지적하도록 설계한 구조다. 감시자인 인간의 한계를 AI가 스스로 보완하는 방식이다.
이에 더해 AI가 새로운 상황이나 입력에서도 일관되게 안전하게 행동하도록 '견고한 학습(Robust Training)'이 적용된다. 일부러 AI의 약점을 찌르는 방식으로 학습시키는 '적대적 학습', 모델이 스스로 헷갈리는 데이터를 골라 학습을 요청하는 '액티브 러닝', 배포 이후 '실시간 학습' 등 다양한 방식으로 위험 상황에 대한 내성을 강화하는 구조다.
2차 방어선은 AGI가 정렬되지 않았더라도 시스템 차원에서 해를 억제하는 방식이다. 딥마인드는 AI를 '내부 위협자'로 간주하고 보안 체계 전반을 사람 대신 AI에 맞춰 재설계해야 한다고 봤다. 샌드박싱, 접근권 분리, 로그 기록, 이상 행동 탐지 등을 기반으로 위협 행동 발생 시 신속 대응이 가능하도록 했다.
특히 '계층형 모니터링' 구조는 주목할 만하다. 비용이 적게 드는 기본 감시 시스템이 먼저 이상 행동을 선별하고 더 위험하거나 판단이 어려운 경우 고도화된 감시 시스템이나 인간 판단으로 이관하는 식이다.

이러한 기술을 뒷받침할 보조 연구도 병행된다. '해석가능성(Interpretability)'은 AGI의 내부 추론 과정을 가시화하고 그 판단의 근거를 명확히 분석할 수 있도록 해준다. 이는 AI가 거짓말을 하거나 위험 판단을 은폐하는 상황을 막는 핵심 도구다.
또 '안전 설계 패턴(Safer Design Patterns)'을 도입해 AI가 행동 전 사용자의 재확인을 요청하거나 예외 상황에서 보수적으로 작동하도록 만드는 등 구조적 안전 장치를 설계하는 것도 중요한 과제로 꼽힌다.
딥마인드는 이를 단지 설계 차원이 아닌, 실제로 작동 가능한 신뢰 모델로 검증해야 한다고 보고 있다. '정렬 신뢰도 검증(Alignment Assurance)'을 통해 시스템이 정말 인간 의도대로만 동작하는지를 반복 실험하고 실패 가능성을 최소화하는 과학적 기반을 마련하겠다는 방침이다. 여기에는 ▲AI가 감독 시스템을 우회할 수 있는지 확인하는 '스트레스 테스트' ▲해를 끼치도록 유도된 AI가 어느 수준까지 행동을 실행하는지 점검하는 '컨트롤 평가' 등이 포함된다.
딥마인드는 보고서를 통해 "AGI 개발은 빠르게 진행되고 있으며 위험이 현실화된 뒤에는 늦을 수 있다"며 "단순 훈련이나 필터링을 넘는 시스템 수준 설계와 과학적 검증과 보안 대응을 포함한 포괄적 안전 전략이 필요하다"고 강조했다.