오픈소스 AI만으로 300만 건 문학 번역 데이터셋을 만든 방법, 영어-루마니아어 번역 연구가 보여준 가능성
상용 AI에 수만 달러를 쓰지 않고도 고품질 문학 번역 모델을 만들 수 있다는 연구 결과가 나왔다 영어 문학 작품을 다른 언어로 번역하는 일은 AI에게도 쉽지 않은 과제다. 단순히 단어를 바꾸는 것이 아니라 이야기의 흐름, 문체, 등장인물의 말투, 문화적 맥락까지 함께 옮겨야 하기 때문이다. 특히 영어-루마니아어처럼 학습 데이터가 부족한 언어쌍에서는 문제가 더욱 크다. 지금까지 공개된 대부분의 영어-루마니아어 번역 데이터는 뉴스 기사나 정부 문서 중심이었고, 문학 작품 번역에 활용할 수 있는 대규모 데이터셋은 거의 없었다. 2026년 발표된 연구는 이런 문제를 해결하기 위해 TF2(TinyFabulist Translation Framework) 라는 새로운 시스템을 개발했다. 연구진은 오픈소스 AI 모델만을 활용해 약 300만 개 규모의 영어-루마니아어 문학 번역 데이터셋을 구축했고, 상용 AI에 근접하는 성능의 번역 모델까지 공개했다. 이 연구가 주목받는 이유는 단순히 데이터 규모 때문이 아니다. 적은 비용으로도 저자원 언어를 위한 고품질 번역 시스템을 구축할 수 있다는 가능성을 보여줬기 때문이다. 영어-루마니아어 문학 번역이 어려운 이유 일반적인 기계 번역은 뉴스 기사나 정보성 문서를 중심으로 발전해 왔다. 하지만 문학 작품은 다르다. 예를 들어 우화 속 문장인 “Slow and steady wins the race”를 번역할 때는 단순 직역보다 독자가 자연스럽게 이해할 수 있는 표현을 선택해야 한다. 문학 번역에서는 원문의 의미, 문장의 자연스러움, 이야기의 흐름, 작가의 문체, 문화적 맥락이 동시에 유지되어야 한다. 기존 번역 평가 방식인 BLEU 점수는 단어 일치율에 집중하기 때문에 이런 특성을 제대로 평가하기 어렵다. 연구진은 이러한 문제를 해결하기 위해 문학 번역에 특화된 평가 체계를 구축했다. 연구진은 먼저 가장 뛰어난 번역 AI를 찾아냈다 TF2 프로젝트는 4단계 과정으로 진...