AI가 처음 보는 물리 현상에도 적응하려면? – NovPhy의 등장
세상은 원래 낯설다
자율주행차, 가정용 로봇, 드론. 모두 현실 세계와 직접 상호작용하는 인공지능들이다. 그런데 이들 시스템은 한 가지 결정적 약점이 있다.
바로 "한 번도 본 적 없는 상황"에 너무 약하다는 점이다.
예를 들어, 비가 오는 날 미끄러운 도로, 처음 설치된 장애물, 혹은 예기치 못한 돌발 상황처럼 새롭고 예상하지 못한 상황(노벨티, novelty)이 등장하면 대부분의 AI는 제대로 대처하지 못한다.
이런 문제를 정면으로 다룬 연구가 등장했다. 호주국립대와 플린더스대 연구팀은 AI가 처음 보는 물리적 상황에서도 적응할 수 있도록 설계된 벤치마크, 즉 테스트 세트인 NovPhy를 개발했다.
물리 지능을 테스트하려면 현실처럼 만들어야 한다
기존 AI 벤치마크들은 영상이나 이미지 기반이 많았다. 예컨대:
- 공 튀기기, 구르기, 미끄러짐 같은 기초 물리 상황을 다루는 Physion
- 인간의 인지 발달을 본뜬 IntPhys
- 도구 조작 능력을 테스트하는 Virtual Tools 등
하지만 이들 모두 낯선 상황에 처한 AI의 적응력을 측정하진 못했다.
NovPhy는 이 빈틈을 채운다. 단순한 물리 시뮬레이션을 넘어, 처음 마주한 ‘이상한 상황’에서도 얼마나 빠르게 적응하는지를 평가하는 테스트다.
벤치마크의 핵심 구조
NovPhy는 5가지 기본 물리 시나리오와 8가지 노벨티(이상 상황)를 조합해 만들어진다.
✔ 5가지 물리 시나리오:
1. 한 번의 힘으로 물체 맞추기
2. 여러 번의 힘으로 맞추기
3. 굴리기 (rolling)
4. 떨어뜨리기 (falling)
5. 미끄러뜨리기 (sliding)
✔ 8가지 노벨티:
SAIL-ON 프로젝트의 ‘노벨티 계층 구조’를 따라 다음과 같은 이상 상황이 주어진다.
물체 변화: 전혀 본 적 없는 색깔, 모양의 블록 등장
외부 요인: 바람을 부는 팬 등장
물리 법칙 변화: 중력이 거꾸로 작용
목표 변경: 공격 대상이 바뀜
사건 발생: 첫 번째 시도 실패 시 폭풍 등장 등
이 모든 조합으로 총 40개의 노벨티 시나리오가 만들어진다.
---
어떤 기준으로 ‘적응’을 평가할까?
NovPhy는 단순히 정답을 맞췄는지가 아니라, “얼마나 빨리 낯선 상황을 감지하고 적응했는가”를 평가한다.
평가 지표는 다음과 같다:
CDT (정확 탐지율): 이상이 생긴 걸 제대로 감지했는가?
DD (탐지 지연): 얼마나 빨리 눈치챘는가?
AP (적응 성능): 적응이 끝난 후 평균 성공률
AUS (전체 적응 속도): 초반부터 끝까지의 적응 과정 추적
추가로, 단순히 ‘우연히 잘 맞췄을 가능성’을 배제하기 위해 비-노벨티 테스트와 통계 검정(KS, Mann-Whitney)도 병행한다.
실험은 어떻게 진행됐나?
연구팀은 총 11개의 AI 에이전트와 47명의 인간 참가자를 대상으로 실험을 진행했다.
👤 인간 실험
낯선 물리 상황에서 사람은 거의 모든 경우(96%)에서 이상 상황을 감지했고
1~2회 시도 만에 적응했다.
시각적 단서가 부족한 경우(예: 공기 흐름 변화)는 다소 느렸지만, 대부분 놀라울 정도로 빠르게 반응했다.
AI 에이전트 실험
DQN, Relational, Naive Adapt 등 다양한 강화학습 모델이 포함됐고
일부는 탐지 없이 적응만 평가(Informed setting), 일부는 둘 다 평가(Uninformed setting)
결과는?
인간에 비해 탐지율은 낮고, 적응 속도는 느렸다.
하지만 일부 ‘적응형 학습 모델(DQN Adapt, Relational Adapt)’은 꽤 안정적인 결과를 보였다.
왜 이 연구가 중요한가?
1. 현실 같은 환경을 가정했다
단순히 벽돌깨기 게임을 뛰어넘어, ‘진짜 물리 세계’에서 AI가 마주할 수 있는 복잡하고 예측 불가능한 상황을 구현했다.
2. AI의 적응력 자체를 수치화할 수 있다
“AI가 똑똑하다”는 막연한 표현이 아니라, 정량적 지표로 얼마나 잘 적응하는지 평가할 수 있다.
3. 사람이 훨씬 낫다는 걸 증명했다
인간은 처음 보는 상황에서도 빠르게 유연하게 반응할 수 있다.
이건 단순히 데이터의 문제가 아니라, ‘물리적 직관’의 문제다.
다음 단계는?
연구진은 NovPhy가 다음과 같은 연구에 활용될 수 있기를 기대한다:
로봇 제어 시스템의 안전성 테스트
자율주행 AI의 긴급 대응 훈련
게임 AI의 적응 학습 시스템 개발
SAIL-ON 같은 군사용 AI 평가 벤치마크와 연동
즉, 이 논문은 단순한 테스트 셋이 아니라,
"AI가 진짜 세상을 살 수 있을까?"라는 질문에 답하는 현실 시뮬레이터의 시작점이 될 수 있다.
---
키워드:
#노벨티 #물리추론 #지속학습 #AI적응력 #AngryBirdsAI
출처 논문:
Pinto, V., Gamage, C., Xue, C., Zhang, P., Nikonova, E., Stephenson, M., & Renz, J. NovPhy: A physical reasoning benchmark for open-world AI systems. Artificial Intelligence, 336, 104198.