머리에 카메라 하나, 사람의 3D 동작을 실시간으로 추적하다
머리에 장착한 이벤트 카메라로 전신의 3D 동작을 추적하는 차세대 모션 캡처 기술 – EventEgo3D++ |
사람의 움직임을 3D로 정확히 포착하는 기술은 영화나 게임, 메타버스뿐 아니라 자율주행, 재활 치료, 스포츠 분석 등 다양한 분야에서 매우 중요하다. 그런데 이런 기술이 ‘머리에 작은 카메라 하나만 달고’ 가능해진다면? 게다가 어두운 밤이나 빠르게 움직일 때도 정확하게 동작을 잡아낼 수 있다면? 이런 흥미로운 가능성을 현실로 만든 연구가 등장했다.
‘EventEgo3D++’라는 이름의 이 기술은 독일과 일본의 연구진이 개발한 것으로, 기존의 카메라 방식과는 전혀 다른 접근을 택했다. 이들은 일반 카메라 대신 ‘이벤트 카메라(event camera)’를 사용해, 머리에 쓴 장치 하나로 사람의 3D 동작을 실시간으로 추적하는 데 성공했다.
왜 이벤트 카메라인가?
기존의 동작 캡처 기술은 대부분 RGB 카메라, 즉 일반적인 영상 촬영용 카메라에 의존한다. 하지만 이 방식에는 명확한 한계가 있다. 어두운 곳에서는 영상이 잘 안 보이고, 사람이 빠르게 움직이면 화면이 흐릿해지거나 순간을 놓치기 쉽다. 또 RGB 카메라는 많은 전력을 소모해 웨어러블 장치에는 적합하지 않다.
이에 비해 이벤트 카메라는 완전히 다른 방식으로 작동한다. 이 카메라는 “화면 전체를 주기적으로 찍는” 대신, “화면의 밝기가 변한 부분만 즉시 감지해 기록”한다. 마치 눈이 아니라 신경세포처럼 작동하는 셈이다. 이 덕분에 초고속으로 반응하고 어두운 곳에서도 잘 작동하며, 전력 소모도 훨씬 적다.
머리에 달린 카메라 하나로 전신을 추적한다?
이번 연구팀은 이벤트 카메라를 사람의 이마 부근에 장착한 상태로 실험을 진행했다. 카메라는 생선 눈처럼 시야가 넓은 ‘어안 렌즈’를 사용해, 사용자의 전신을 위에서 아래로 한눈에 바라볼 수 있도록 설계됐다.
여기서 중요한 점은, 이 한 대의 카메라만으로 머리, 팔, 다리, 손, 발까지 포함된 전신의 3D 위치를 매우 정확하게 추정한다는 것이다. 심지어 이 추적은 초당 140회 갱신될 정도로 빠르며, 실제 현실과 거의 실시간으로 동작이 반영된다.
어떤 방식으로 동작할까?
기술의 핵심은 두 가지다. 첫째는 이벤트 데이터를 컴퓨터가 이해할 수 있는 ‘프레임’으로 바꾸는 방식(LNES), 둘째는 이 데이터를 바탕으로 사람의 자세를 추정하는 AI 모델이다.
또한 배경에서 발생하는 ‘노이즈 이벤트’는 신뢰도 점수(confidence score)를 통해 걸러낸다. 이렇게 하면 카메라가 흔들려도 배경의 영향은 최소화되고, 오직 사람의 동작에만 집중할 수 있다.
데이터를 직접 만들었다
AI 모델을 학습시키려면 많은 데이터가 필요하다. 연구팀은 자체적으로 데이터를 생성해 다음과 같은 세 가지 데이터셋을 구축했다:
- EE3D-S: 수백만 개의 자세가 포함된 가상 인간의 동작 데이터
- EE3D-R: 스튜디오에서 실제 사람을 촬영한 데이터
- EE3D-W: 야외 환경에서 촬영한 실제 데이터
실제로 얼마나 잘 되나?
기존 RGB 기반 기술 대비 EventEgo3D++는 어두운 환경, 빠른 움직임, 배경 노이즈가 많은 조건에서도 월등한 성능을 보여줬다. 기존 기술보다 최대 30~70% 오류를 줄였고, 다양한 동작에서도 일관성 높은 결과를 냈다.
앞으로의 의미
이 기술이 상용화된다면 다음과 같은 미래가 가능해진다:
- VR/AR 환경에서 전신 추적 가능
- 재활 치료 중 환자의 움직임 자동 기록
- 야외 스포츠 훈련에서 자세 분석
Millerdurai, C.; Akada, H.; Wang, J.; Luvizon, D.; Pagani, A.; Stricker, D.; Theobalt, C.; Golyanik, V. EventEgo3D++: 3D Human Motion Capture from A Head-Mounted Event Camera. International Journal of Computer Vision 2025.