"총소리, 음악, 웃음소리도 자막으로!" 비언어 정보 자막의 도전과 기회
서론: 왜 자막은 말만 담는가?
우리는 넷플릭스에서 스릴러 영화를 볼 때, "[총성]"이나 "[불길한 음악이 흐른다]"와 같은 자막을 종종 본다. 하지만 이처럼 ‘비언어 정보(Non-Speech Information, NSI)’가 포함된 자막은 전체 영상 자막의 극히 일부에 불과하다. 심지어 유튜브 동영상 중 단 4%만이 이런 비언어 자막을 제공하고 있다는 연구 결과도 있다.
NSI란 대화 외의 소리—예를 들어 환경음, 효과음, 음악, 화자의 감정 표현(“[웃으며]”, “[속삭이며]”) 등을 포함하며, 이는 특히 청각장애인이나 난청인을 위한 정보 접근성 측면에서 필수적이다.
본론 1: NSI 자막, 왜 이렇게 부족한가?
자동 음성 인식(ASR)의 그늘
ASR 기술은 자막 제작을 빠르게 해주지만, 이는 주로 대화 자막에 집중된다. 이로 인해 NSI 자막은 점점 더 줄어드는 추세다.
무엇을 넣고, 무엇을 뺄 것인가?
청각장애인들의 의견은 다양했다. 일부는 "모든 소리를 알고 싶다"고 했고, 다른 일부는 "줄거리와 관련된 소리만 자막으로 보고 싶다"고 말했다. 흥미로운 점은 자막의 과도한 정보가 영상 몰입을 방해할 수 있다는 점이다.
본론 2: NSI 자막, 어떻게 표현할 것인가?
팩트냐 해석이냐, 그 딜레마
음악을 자막으로 표현할 때 “[느린 바이올린 음악]”처럼 사실 중심으로 쓸 것인가, “[슬픈 멜로디]”처럼 감정을 해석해서 전달할 것인가? 이처럼 표현 방식은 개인 취향, 문화적 맥락, 정보 접근성에 따라 달라진다.
자막 스타일의 진화
최근에는 이모지, 색상, 애니메이션 등 시각적 표현 방식도 다양화되고 있다. 하지만 이는 시청자의 몰입을 방해할 수 있어 적절한 균형이 필요하다.
본론 3: ‘좋은 자막’이란 무엇인가?
자막은 '읽는 것'이 아니라 '스캔하는 것'
“좋은 자막은 스캔한다. 나쁜 자막은 읽게 만든다.”라는 말처럼, 자막은 몰입을 방해하지 않으면서 정보를 정확히 전달해야 한다.
장르에 따라 달라지는 자막의 역할
공포 영화에서는 분위기 조성이 중요하고, 뉴스에서는 정보의 정확성이 중요하다. 자막은 콘텐츠 장르에 따라 맞춤형으로 구성되어야 한다.
결론: 자막, ‘선택할 수 있는’ 꿈이 현실 되려면
이 연구는 자막의 미래가 단순 정보 전달을 넘어, 시청자 맞춤형 커뮤니케이션 도구가 되어야 함을 시사한다. 기술이 발전함에 따라 우리는 곧 자막의 '스타일'도 선택할 수 있는 시대를 맞이할지도 모른다.
개인적인 통찰
자막은 단순히 청각 보조 수단이 아니라, 영상 콘텐츠의 의미와 감정을 해석하고 전달하는 창작 행위다. 향후 자막 기술은 더 정교해지고 사용자 선택권도 확대될 것이다.
출처
May L, Clemens M, Dang K, Ohshiro K, Sridhar S, Wee P, Fuentes M, Lee S and Cartwright M (2025) “Choices? That’s the dream”: challenges and opportunities in non-speech information closed-captioning. Front. Comput. Sci. 7:1575176. doi: 10.3389/fcomp.2025.1575176