영상 속 인간 행동을 이해하는 똑똑한 인공지능의 비밀

사람이 하는 행동을 영상 속에서 자동으로 인식하는 기술, 이른바 행동 인식(Action Recognition)은 자율주행차, CCTV, 스포츠 분석, 교육, 재활 등 다양한 분야에서 중요한 역할을 한다. 하지만 카메라에 담긴 장면만으로 “저 사람이 지금 뭘 하고 있는지” 정확히 파악하는 건 여전히 쉽지 않은 과제다.

예를 들어, 누군가 주방에서 손을 움직이고 있다. 그는 설거지를 하는 걸까, 혹은 요리를 시작하는 걸까? 단순히 RGB 영상만으로는 이처럼 미묘한 행동을 판별하기 어렵다. 행동을 더 정확히 파악하려면 사람의 자세나 움직임 정보, 주변 사물, 소리 등 다양한 단서를 함께 고려해야 한다.

그렇다면 모든 단서를 모아 쓰면 될까? 아쉽게도 실제 영상 데이터는 그렇지 않다. 어떤 데이터는 skeleton(뼈대) 정보가 없고, 어떤 건 소리가 빠져 있다. 필요한 정보가 빠졌을 때도 똑똑하게 행동을 인식할 수 있는 AI는 없을까?

그 질문에 답한 연구가 최근 국제 저널 International Journal of Computer Vision에 실렸다. 제목은 〈특징 환각을 활용한 자기지도형 행동 인식 (Feature Hallucination for Self-supervised Action Recognition)〉, 연구팀은 호주 Griffith 대학과 ANU, CSIRO에서 참여했다.

행동 인식의 삼대 난제

연구는 현재의 행동 인식 기술이 세 가지 큰 문제를 안고 있다고 지적한다.

멀티모달 데이터의 결핍
RGB 영상, skeleton, optical flow(움직임 벡터), 오디오 등 여러 정보가 조합되면 정확도가 높아진다. 하지만 실제 데이터셋은 대부분 RGB만 있고 나머지는 없거나 불균형하다.
비효율적인 특징 결합 방식
여러 정보를 합치는 방식이 단순하거나, 모달리티 간 상호작용을 잘 반영하지 못한다. 특히 시공간 정보를 다루는 구조가 약하다.
구조적인 움직임 표현 부족
딥러닝 기반 모델은 데이터를 통해 패턴을 ‘암묵적으로’ 학습한다. 반면 전통적인 수작업 방식은 움직임 경계나 궤적 등 구체적인 표현을 명시적으로 쓴다. 딥러닝 모델이 이런 ‘움직임 지식’을 잃는다는 점은 치명적이다.

"없는 건 만들어낸다" – Feature Hallucination의 아이디어

연구팀은 ‘자기지도학습(self-supervised learning)’ 기반으로, 부족한 정보를 채워주는 새로운 방식인 Feature Hallucination(특징 환각)을 제안했다.

말 그대로 존재하지 않는 특징을 상상해서 만들어내는 것이다. 예컨대 skeleton 정보가 없는 경우, RGB 영상만 보고 skeleton의 특징을 예측하는 방식이다. 이렇게 만들어진 가상의 정보는 테스트 시점에서 실제처럼 사용되어 행동 인식 정확도를 높인다.

중요한 점은, 이 hallucination(환각) 과정이 영상 전체를 이해한 후 이뤄진다는 것이다. 즉, 단순히 평균을 채워 넣는 게 아니라, 맥락 속에서 ‘가장 그럴듯한’ 정보를 유추해낸다.

객체와 주목도, 행동을 더 똑똑하게 본다

이 기술이 더 눈에 띄는 이유는 두 가지 새로운 '도메인 특화' 기술이 함께 도입됐기 때문이다.

ODF (Object Detection Feature)
다양한 객체 탐지기를 사용해 영상 속 사물이나 인간의 행동 단서를 포착한다. 예를 들어, 오븐, 시계, 세면대 같은 배경 정보는 사용자의 행동을 유추하는 데 도움이 된다.
SDF (Saliency Detection Feature)
어디가 중요한지를 강조하는 '주목 영역(saliency)'을 찾아낸다. 이 영역은 움직임이 크거나 명암 차가 두드러지는 부분이다. 덕분에 모델은 행동과 관계없는 영역에 주의를 낭비하지 않는다.

ODF와 SDF는 모델이 어디를 집중해야 할지를 가르쳐 주는 ‘시멘틱 지도(semantic prior)’처럼 작용한다. 기존 RGB + Optical Flow 조합만 쓰던 딥러닝 모델에 구조화된 의미 정보가 더해진 것이다.

불확실성까지 계산하는 똑똑한 학습

그러나 '환각'도 위험하다. 만들어낸 정보가 신뢰할 만하지 않다면, 오히려 판단을 흐릴 수도 있다. 이를 해결하기 위해 연구팀은 Aleatoric Uncertainty Modeling이라는 불확실성 측정 기법을 도입했다.

간단히 말해, 만들어낸 정보가 ‘얼마나 믿을 수 있는지’를 모델이 스스로 판단하도록 한 것이다. 불확실성이 높은 정보는 가중치를 줄이고, 신뢰할 만한 정보는 더 많이 반영한다. 이로써 모델의 안정성과 성능이 모두 향상된다.

또한, 학습 시점에서는 실제 Optical Flow나 skeleton 정보를 사용해서 hallucination을 학습하지만, 테스트 시점에는 RGB 영상만으로 모든 걸 예측할 수 있게 되어 실용성도 확보했다.

그 결과는? 기존을 넘어선 성능

이 새로운 프레임워크는 Kinetics-400, Kinetics-600, Something-Something V2와 같은 유명 행동 인식 데이터셋에서 최첨단 성능(State-of-the-Art)을 기록했다.

특히 ODF와 SDF를 포함했을 때 모델이 훨씬 더 정밀하고 구체적인 행동을 인식하는 데 유리하다는 것이 증명됐다. 기존의 수작업 특징 기반 방법과 최신 딥러닝 모델 사이의 간극을 메운 셈이다.

게다가 hallucination 구조 덕분에, 실시간 인식이나 경량화가 필요한 모바일 환경에서도 효율적으로 동작할 수 있다. 데이터가 불완전한 현실 세계에서 이만큼 유연하게 동작하는 행동 인식 모델은 흔치 않다.

마무리 – “보이지 않아도 본다”는 AI의 진화

이 논문은 행동 인식 분야의 여러 기술적 난제를 단순한 성능 향상을 넘어서 실제 사용 환경을 고려한 실용적 솔루션으로 풀어냈다는 점에서 주목할 만하다.

카메라에 담긴 영상만으로도 사람의 복잡한 행동을 읽어내려면, 단순히 눈앞에 보이는 정보만으론 부족하다. 보이지 않는 정보를 유추하고, 불확실함을 스스로 조정하며, 중요한 부분을 강조해주는 이런 똑똑한 AI 기술이야말로, 진정한 영상 이해로 가는 길일 것이다.

출처:
Wang, L., & Koniusz, P. (2025). Feature hallucination for self-supervised action recognition. International Journal of Computer Vision. https://doi.org/10.1007/s11263-025-02513-4