감정도 연기하는 AI 아바타, 얼마나 자연스러울까?

“가상 세계에서 사람처럼 감정을 표현하는 캐릭터, 진짜 사람처럼 느껴질 수 있을까?”

이런 질문에서 출발한 흥미로운 연구가 최근 발표됐다. 스웨덴 KTH 왕립공과대학의 연구팀은 가상현실(VR) 환경 속에서 감정 애니메이션을 생성하는 AI 모델들을 실제 사람들과 비교해가며 평가했다. 단순히 손만 흔드는 캐릭터가 아니라, 말하면서 얼굴 표정과 몸짓으로 ‘기쁨’이나 ‘무덤덤함’ 같은 감정을 표현하는 캐릭터가 얼마나 사람처럼 느껴지는지, 사용자들은 얼마나 그 감정을 정확히 읽어내는지 꼼꼼하게 분석한 것이다.

---

“AI야, 기뻐해 봐!” – 실험은 이렇게 진행됐다

연구팀은 최신 AI 모델 세 가지를 선정해, 각각이 음성에 맞춰 감정을 담은 3D 애니메이션을 얼마나 잘 생성하는지를 비교했다. 각 모델은 동일한 음성 대사(예: “AI 헬스케어 시스템을 개발해 병원 진단이 빨라졌어요!”)에 맞춰, 말하는 사람의 얼굴 표정과 몸짓을 함께 만들어낸다. 연구팀은 이를 감정이 ‘높은 상태(기쁨)’와 ‘중간 상태(무표정 혹은 중립)’로 나눠 실험을 설계했다.

참가자 48명은 VR 헤드셋을 착용하고, 이 AI가 생성한 아바타와 1:1로 대화하는 상황에 들어갔다. 마치 실제 사람과 대화하듯, 가까운 거리에서 말을 듣고 표정을 관찰한 뒤 설문을 통해 "진짜처럼 느껴졌는가?", "자연스러웠는가?", "감정이 느껴졌는가?" 등을 평가했다.

흥미롭게도, 연구팀은 단순히 AI끼리 비교한 것이 아니라 실제 사람의 표정과 몸짓을 3D로 캡처한 ‘진짜 사람 애니메이션’도 함께 실험에 포함시켜 AI와 인간의 격차를 가늠했다.

---

웃는 얼굴은 통한다, 하지만 무표정은 어렵다

연구 결과는 예상과 다르게 흥미로운 지점을 드러냈다.

* 기쁨 같은 강한 감정 표현은 꽤 괜찮았다.
참가자들은 대부분 AI 캐릭터가 웃고 있을 때 이를 잘 인식했고, ‘진짜처럼 보인다’는 평가도 기쁨 상태에서 더 높았다. AMUSE라는 모델은 특히 웃는 표정을 잘 구현해 70%가 넘는 정답률을 보였다.

* 반면, 무표정이나 중간 감정 표현은 쉽지 않았다.
대부분 모델이 중립적인 감정을 자연스럽게 표현하는 데 어려움을 겪었고, 사용자들도 이를 ‘무표정인지, 살짝 슬픈 건지’ 헷갈려했다. 이는 훈련 데이터가 대부분 ‘극적인 감정’에 치우쳐 있고, 일상적인 잔잔한 표현은 상대적으로 부족했기 때문일 수 있다.

* 얼굴 표현은 아직 인간과 큰 격차가 있다.
실제 사람을 3D로 복제한 ‘PIXIE+DECA’ 방식이 얼굴 표정의 자연스러움에서는 압도적으로 높은 평가를 받았다. 반면 AI 기반 모델들은 눈, 입술, 뺨 근육 등 미세한 변화에서는 여전히 부족함이 있었다.
---

"이야기하는 듯한 제스처는?" – 몸짓의 자연스러움

몸짓 애니메이션의 경우, 일부 모델은 꽤나 인상적인 결과를 냈다. 특히 AMUSE 모델은 음성의 리듬과 감정 강도를 반영해 몸을 흔들거나 손을 내미는 동작을 자연스럽게 생성해냈다. 사용자들은 이를 “다양하고 생동감 있다”고 평가했고, 다른 모델에 비해 몸짓에서 ‘다양성’을 잘 구현했다고 느꼈다.

그러나 아쉬운 점도 있었다. 전반적인 상호작용 만족도는 낮았다.
대부분의 캐릭터가 “마치 TV 속 인형처럼” 느껴졌고, 진짜 사람과 대화하는 듯한 ‘몰입감’은 아직 부족했다는 것이 참가자들의 공통적인 반응이었다. 특히 대화 중 눈을 맞추거나, 말의 맥락에 맞춰 몸을 기울이는 세밀한 반응은 거의 없었다.

기술은 충분한가? 아니다, 아직 멀었다

이번 연구는 AI 기반 감정 애니메이션 기술의 한계와 가능성을 동시에 보여줬다.
표현이 크고 명확한 감정(기쁨 등)은 어느 정도 사용자에게 전달이 가능했다. 특히 음성에 맞춘 박자감 있는 몸짓, 고개 끄덕임, 손짓 등은 실제 사람과 가까운 수준이었다.

그러나 아직은 “이 사람, 진짜 감정이 있는 거 맞아?” 하는 느낌이 들 정도로 어색한 부분도 많았다. 특히 감정 표현이 복합적일 때(예: 웃지만 어딘가 쓸쓸한 느낌), 모델은 단조로운 제스처만 반복하거나 전혀 다른 감정을 표현하는 경우도 있었다. 실제 사람처럼 ‘모순되거나 복잡한 감정’을 구현하는 데는 여전히 갈 길이 멀다.

또한 현재의 대부분 모델은 ‘하나의 감정’만 생성하는 데 집중되어 있다. 그러나 인간은 대화 중에도 여러 감정을 오간다. 향후 모델은 ‘다층 감정 표현’, ‘문맥에 따른 감정 전환’, ‘음성과 제스처의 미묘한 불일치 처리’ 등을 더 잘 학습할 필요가 있다.
---

이 연구가 던지는 메시지: 감정은 숫자로 환산되지 않는다

기존의 AI 애니메이션 연구는 종종 ‘정확도’나 ‘제스처의 다양성’ 같은 수치적 기준에 의존했다. 그러나 이 연구는 그 한계를 넘어서 ‘사람이 느끼는 감정의 진짜 질감’에 주목했다.

단지 AI가 웃었다고 해서 ‘기쁘다’고 느껴지지는 않는다. 감정이란 복잡하고, 맥락에 따라 달라지며, 표현 방식도 문화나 상황에 따라 다르기 때문이다.

연구팀은 앞으로 “사람 중심의 평가(User-Centric Evaluation)”를 AI 애니메이션 모델 개발의 핵심 지표로 삼아야 한다고 강조한다. AI가 감정을 표현하는 것뿐만 아니라, 사람이 그 감정을 어떻게 느끼는지를 함께 고려해야 비로소 진짜 감정 표현이라고 할 수 있다는 것이다.

---
**출처**
Chhatre, K., Guarese, R., Matviienko, A., & Peters, C. (2025). *Evaluation of generative models for emotional 3D animation generation in VR*. Frontiers in Computer Science, 7, 1598099.