기계가 전하는 말, 마음까지 통할 수 있을까?



번역 기술의 진화와 도전


“컴퓨터가 말을 번역해준다!”

이 말이 더 이상 미래의 일이 아닌 시대다. 하지만 모든 언어가 똑같이 혜택을 받는 건 아니다. 그중 아프리카의 공용어 중 하나인 ‘아마하라어(Amharic)’는 기계 번역 기술이 여전히 어려움을 겪고 있는 대표적인 언어다.

에티오피아 공용어이자 3천만 명 이상의 사람들이 모국어로 사용하는 아마하라어. 이 언어를 영어로 자동 번역하는 기술의 발전 과정과 그 현재, 그리고 미래는 어떨까?


 사라지는 말, 잊히는 문화… 기술이 붙잡을 수 있을까?


아마하라어는 아프리카에서 가장 많이 쓰이는 셈어(Semitic) 언어 중 하나다. 독특한 게으즈(Ge’ez) 문자로 쓰이고, 형태 변화가 풍부해서 하나의 단어에 성별, 시제, 존댓말 등이 모두 녹아 있다. 이 독특한 언어 구조는 인간에게는 매력적이지만, 기계에게는 골칫거리다.


여기에 더해 아마하라어는 영어와 어순이 정반대다. 영어가 “주어-동사-목적어”라면, 아마하라어는 “주어-목적어-동사”. 기계 번역 시스템이 문장의 의미를 제대로 이해하고 전달하기엔 꽤나 복잡한 구조다.


그렇다고 손 놓고 있을 수는 없다. 이 언어로 쓰인 문학, 구전설화, 정부 문서들이 다른 세계로 번역되지 않는다면, 아마하라어 문화는 고립될 수밖에 없다.


 기계 번역의 역사, 규칙에서 인공지능까지


2012년, 아마하라어-영어 기계 번역 연구는 규칙 기반 시스템(rule-based) 으로 시작됐다. 이 방식은 언어학자가 만든 문법 규칙을 바탕으로 번역하는 방식이었지만, 수많은 예외와 복잡한 구조 앞에 무너졌다.


이후 통계적 기계 번역(SMT) 으로 전환되며, 대량의 문장 쌍(예: 아마하라어 성경과 영어 성경)을 비교해 패턴을 찾아내는 방식이 도입됐다. 이 때 등장한 툴킷이 바로 GIZA++와 Moses였다.


그리고 결정적인 전환점은 신경망 기반 기계 번역(NMT) 이다. 구글 브레인이 개발한 ‘seq2seq’ 모델과 이후의 Transformer 구조는 단어 하나하나가 아니라 문장 전체의 맥락을 파악할 수 있게 해주었다. 특히 Transformer는 아마하라어처럼 긴 단어와 문장 구조가 복잡한 언어에 적합했다.


하지만 여기서도 난관은 여전하다. 데이터가 부족한 탓이다.


 "데이터만 충분하다면, 번역의 질은 기하급수적으로 올라간다"


기계 번역 기술에서 가장 중요한 건 ‘평행 말뭉치(parallel corpus)’다. 같은 문장이 아마하라어와 영어로 번역돼 있어야 기계가 이를 학습할 수 있다. 하지만 이런 자료는 거의 없다시피 하다.


그래서 최근 연구자들은 ‘역번역(back-translation)’, ‘토큰 분해(token-level augmentation)’, ‘형태소 기반 모델’ 같은 기법을 통해 부족한 데이터를 보완하고 있다. 특히 ‘Lesan’이라는 오픈소스 시스템은 구글 번역보다 나은 성능을 보여주며 주목을 받았다.


또한, 최근 몇몇 연구팀은 Amharic-English 전용 대규모 말뭉치를 새로 만들고 공개하는 데 힘쓰고 있다. 덕분에 BLEU 점수(번역 정확도를 나타내는 지표)가 30점을 넘는 논문도 등장했다. 이는 기계 번역 연구에서 꽤 고무적인 성과다.


 기계가 문화를 번역할 수 있을까?


언어는 단순히 단어의 나열이 아니다. 속담, 관용 표현, 존댓말, 이런 것들은 문화의 산물이다. 아마하라어에는 영어로 직역할 수 없는 표현들이 많다. 이를 번역하다 보면 의미가 달라지거나, 심지어는 오역이 되기 쉽다.


예를 들어, 아마하라어의 어떤 문장은 ‘존댓말’로 표현되어 있는데, 영어로 번역하면 그 뉘앙스가 사라지는 일이 발생한다. 이런 경우를 해결하기 위해선 단순히 단어를 바꾸는 수준을 넘어, 문화적 맥락까지 이해하는 인공지능이 필요하다.


 다음 목표는? 데이터 확보 + 형태소 처리 + 문화 맥락 반영


이번 리뷰 논문은 다음 세 가지를 앞으로의 핵심 과제로 꼽고 있다.


1. 대규모 말뭉치 구축

   정부 문서, 뉴스 기사, 구전 설화 등을 번역 쌍으로 정리하여 기계 학습에 활용할 수 있도록 해야 한다.


2. 형태소 기반 토큰화

   아마하라어처럼 단어 안에 다양한 정보가 들어있는 언어는, 단순한 ‘띄어쓰기’ 단위가 아니라 ‘형태소’ 단위로 분석해야 정확한 번역이 가능하다.


3. 문화와 문체 반영

   기계 번역의 최종 목표는 ‘의미 전달’이다. 이를 위해서는 단순한 언어 지식뿐만 아니라 문화적 맥락까지 반영할 수 있는 지능이 필요하다.


---


기계 번역이 완벽한 시대는 아직 멀었다. 하지만 아마하라어처럼 ‘데이터가 부족한 언어’에 주목하고, 거기서 기술을 발전시킨다면 그 혜택은 전 세계 수많은 언어 사용자에게 돌아갈 것이다.


기술은 단지 편리함을 위한 것이 아니다. 잊혀져가는 언어와 문화를 미래로 옮기는 다리가 될 수도 있다. 아마하라어-영어 번역 연구는 그 희망의 작은 불씨다.



출처 논문

Asebel MH, Assefa SG and Haile MA (2025) Exploring the evolution and future prospects of Amharic to English machine translation: a systematic review. Front. Artif. Intell. 8:1456245.