서로 묻고 답하는 질문들, AI가 더 똑똑해지는 이유

우리는 영화를 보거나 음악을 들을 때, 무심코 질문을 던진다. "저 배우는 누구지?", "지금 들리는 소리는 어떤 악기지?" 이런 질문에 즉시 답해주는 인공지능이 있다면 얼마나 편할까?

최근 국제 저널 International Journal of Computer Vision에 실린 논문이 바로 이런 질문에 답한다. 이름부터 낯설지만, ‘오디오-비주얼 질문응답(AVQA)’이라는 분야다. 영상과 소리를 동시에 분석해 질문에 답하는 이 기술은 자율주행, 스마트 비서, 로봇 등 다양한 지능형 시스템의 핵심으로 떠오르고 있다.

질문을 한 번에 모아두면, AI는 더 영리해진다

이번 연구의 핵심은 ‘Collective Question Reasoning(집단 질문 추론)’이라는 개념이다. 간단히 말해, 비슷한 주제의 질문을 한꺼번에 모아두면 서로 실마리를 주고받아 더 정확한 답을 낸다는 원리다.

예를 들어 보자. 어떤 영상에서 "왼쪽에 있는 악기는 뭐야?"라는 질문과 "이 바이올린은 플루트보다 리듬감 있나?"라는 질문이 같이 주어진다면, 두 질문은 서로의 실마리가 된다. 이렇게 연결된 정보는 AI가 복잡한 영상을 분석할 때 강력한 단서가 된다.

사람처럼 배우고, 사람보다 빠르다

기존의 AVQA는 영상과 소리를 그냥 합친 뒤 질문을 끼워넣는 방식이 많았다. 문제는 이렇게 하면 정작 질문과 상관없는 정보까지 뒤섞여 오답이 많아진다는 점이다.

CoQo는 여기서 한발 더 나아갔다. 여러 질문을 모아두고, 질문끼리 서로 힌트를 주고받게 했다. 그리고 영상과 소리를 시간과 공간으로 나눠서 분석했다. 쉽게 말하면, 눈은 ‘어디’를 볼지, 귀는 ‘언제’를 들을지 질문이 알려주는 셈이다.

시험 결과는 어땠을까?

실험은 MUSIC-AVQA, MUSIC-AVQA2.0, AVQA 같은 데이터셋에서 진행됐다. CoQo는 기존의 유명한 모델보다 평균 2~4% 더 높은 정확도를 보였다. 특히 영상 속에서 ‘어디서’, ‘언제’ 일어났는가 같은 복잡한 질문에서 강점을 드러냈다.

또한 CoQo는 훈련 속도도 빨랐다. 기존 모델이 1초에 65개 질문을 처리할 때, CoQo는 같은 조건에서 85개를 처리했다. AI가 더 똑똑해지고, 학습 속도까지 빨라진 셈이다.

질문 하나로는 부족하다

이번 연구는 단순히 기술을 넘어, AI가 사람처럼 생각하는 법을 어떻게 배울지에 대한 힌트를 준다. 우리가 영상을 보며 여러 질문을 동시에 떠올리는 것처럼, AI도 질문을 모아두면 서로 연결된 힌트를 찾아낸다.

연구팀은 CoQo를 비디오 질문응답을 넘어, 일상 속 지능형 비서나 로봇에도 접목할 수 있을 것으로 본다. 특히 집 안 CCTV나 자율주행차 같은 복잡한 환경에서, 서로 다른 질문을 묶어 맥락을 파악하면 더 안전하고 정확한 답을 내놓을 수 있기 때문이다.

기술은 발전한다, 질문도 발전한다

AI는 답을 하는 기계지만, 사실 더 중요한 건 질문이다. 질문을 잘해야 답도 정확하다. 이번 논문은 그 질문을 ‘함께 묶으면 더 좋다’는 간단한 아이디어를 증명했다.

앞으로 AI는 사람처럼 묻고, 답하며, 때로는 스스로 질문을 만들어낼지도 모른다. 그 시작이 바로 이번 CoQo 모델이다.

출처 논문
Baoqi Pei, Yifei Huang, Guo Chen et al. Guiding Audio-Visual Question Answering with Collective Question Reasoning. International Journal of Computer Vision. https://doi.org/10.1007/s11263-025-02510-7