오픈소스 AI만으로 300만 건 문학 번역 데이터셋을 만든 방법, 영어-루마니아어 번역 연구가 보여준 가능성

상용 AI에 수만 달러를 쓰지 않고도 고품질 문학 번역 모델을 만들 수 있다는 연구 결과가 나왔다

영어 문학 작품을 다른 언어로 번역하는 일은 AI에게도 쉽지 않은 과제다. 단순히 단어를 바꾸는 것이 아니라 이야기의 흐름, 문체, 등장인물의 말투, 문화적 맥락까지 함께 옮겨야 하기 때문이다.

특히 영어-루마니아어처럼 학습 데이터가 부족한 언어쌍에서는 문제가 더욱 크다. 지금까지 공개된 대부분의 영어-루마니아어 번역 데이터는 뉴스 기사나 정부 문서 중심이었고, 문학 작품 번역에 활용할 수 있는 대규모 데이터셋은 거의 없었다.

2026년 발표된 연구는 이런 문제를 해결하기 위해 TF2(TinyFabulist Translation Framework)라는 새로운 시스템을 개발했다. 연구진은 오픈소스 AI 모델만을 활용해 약 300만 개 규모의 영어-루마니아어 문학 번역 데이터셋을 구축했고, 상용 AI에 근접하는 성능의 번역 모델까지 공개했다.

이 연구가 주목받는 이유는 단순히 데이터 규모 때문이 아니다. 적은 비용으로도 저자원 언어를 위한 고품질 번역 시스템을 구축할 수 있다는 가능성을 보여줬기 때문이다.

영어-루마니아어 문학 번역이 어려운 이유

일반적인 기계 번역은 뉴스 기사나 정보성 문서를 중심으로 발전해 왔다. 하지만 문학 작품은 다르다.

예를 들어 우화 속 문장인 “Slow and steady wins the race”를 번역할 때는 단순 직역보다 독자가 자연스럽게 이해할 수 있는 표현을 선택해야 한다.

문학 번역에서는 원문의 의미, 문장의 자연스러움, 이야기의 흐름, 작가의 문체, 문화적 맥락이 동시에 유지되어야 한다.

기존 번역 평가 방식인 BLEU 점수는 단어 일치율에 집중하기 때문에 이런 특성을 제대로 평가하기 어렵다. 연구진은 이러한 문제를 해결하기 위해 문학 번역에 특화된 평가 체계를 구축했다.

연구진은 먼저 가장 뛰어난 번역 AI를 찾아냈다

TF2 프로젝트는 4단계 과정으로 진행됐다. 첫 번째 단계에서는 어떤 AI가 가장 좋은 번역을 만드는지 평가했다.

비교 대상은 GPT-4.1, GPT-o3, Gemini 2.5 Flash, Gemini 2.0 Flash, DeepL, EuroLLM, Gemma 3, Grok 3 등 총 13개 시스템이었다.

연구진은 단순 정확도 대신 번역 정확성, 문장 유창성, 이야기 일관성, 문체 유지, 문화적 적응성이라는 5개 항목을 평가했다. 각 항목은 5점 만점으로 채점됐다.

GPT-o3가 가장 높은 번역 품질을 기록했다

평가 결과 GPT-o3가 전체 평균 4.92점을 기록하며 가장 높은 성능을 보였다.

모델	평균 점수
GPT-o3	4.92
GPT-4.1	4.89
Gemini 2.5 Flash	4.84
GPT-o3-mini	4.83
Grok-3-mini	4.79
DeepL	4.59
Gemma-3-12B	4.43
Gemma-3-4B	3.81
Gemma-3-1B	2.02

연구진은 가장 좋은 성능을 보인 GPT-o3를 기준 번역기로 선택했다.

1만5000개의 우화를 번역해 학습 데이터를 만들었다

연구진은 기존에 구축해 둔 300만 개 영어 우화 데이터셋에서 1만5000개를 선별했다. 그리고 GPT-o3를 이용해 루마니아어로 번역했다.

이렇게 만들어진 데이터셋이 DS-TF2-EN-RO-15K이다. 데이터는 학습용 12,000개, 검증용 1,500개, 테스트용 1,500개로 나뉘었다.

이 데이터셋은 영어 원문과 루마니아어 번역문을 포함하는 병렬 데이터셋 형태로 공개됐다.

적은 계산 자원으로 학습하기 위해 LoRA를 사용했다

대형 언어모델 전체를 다시 학습시키는 것은 매우 비싸다. 그래서 연구진은 LoRA(Low-Rank Adaptation) 방식을 사용했다.

LoRA는 모델 전체를 수정하지 않고 일부 가중치만 학습하는 기술이다. 쉽게 말하면 거대한 AI의 뇌 전체를 다시 훈련시키는 대신 특정 기능만 추가 학습하는 방식이다.

연구진은 TF2-1B, TF2-4B, TF2-12B 세 가지 모델을 학습했다. 숫자는 파라미터 규모를 의미한다.

가장 큰 TF2-12B 모델이 상용 AI에 가까운 성능을 보였다

학습 결과 기존 Gemma-3-12B 모델은 평균 4.43점을 기록했지만, 학습 후 TF2-12B는 4.83점까지 향상됐다.

평가 항목	Gemma-3-12B	TF2-12B
정확성	3.98	4.72
유창성	4.56	4.88
일관성	4.65	4.84
문체	4.52	4.87
문화 적응성	4.43	4.85
평균	4.43	4.83

특히 문체와 문화적 적응성에서 큰 향상이 나타났다. 이는 문학 번역에 필요한 특성을 효과적으로 학습했다는 의미다.

번역 품질보다 더 중요한 결과는 비용 차이였다

연구에서 중요한 결과 중 하나는 비용 분석이다. 연구진은 300만 개 우화를 모두 번역할 경우 필요한 비용을 계산했다.

모델	예상 비용
GPT-o3	약 24,300달러
GPT-4.1	약 13,500달러
GPT-4.1-mini	약 2,700달러
DeepL	약 270,000달러
TF2	약 350달러

TF2는 GPT-o3 대비 약 98% 이상 저렴했다. 동일한 규모의 문학 번역 프로젝트를 수행할 때 수만 달러 대신 수백 달러 수준으로 비용을 줄일 수 있다는 뜻이다.

작은 오픈소스 모델도 특정 분야에서는 충분히 경쟁력을 가질 수 있었다

이번 연구는 규모가 작은 모델도 특정 분야에 집중적으로 학습하면 상당한 성능을 낼 수 있다는 점을 보여준다.

특히 4B 규모 모델인 TF2-4B 역시 평균 4.74점을 기록했다. 이는 많은 상용 번역 시스템과 경쟁 가능한 수준이다.

연구진은 또 8비트 양자화 모델에서도 성능 저하가 거의 없음을 확인했다. 이는 일반 GPU나 비교적 저렴한 서버에서도 충분히 운영 가능하다는 의미다.

저자원 언어의 문학 번역 장벽을 크게 낮출 수 있음을 보여줬다

현재 전 세계에는 영어처럼 데이터가 풍부한 언어보다 데이터가 부족한 언어가 훨씬 많다. 문학 작품 번역 데이터가 부족한 언어는 더욱 많다.

이번 연구는 대규모 사람이 직접 번역한 데이터가 없어도 고성능 AI를 활용해 학습 데이터를 만들고, 다시 이를 이용해 저렴한 오픈소스 번역 모델을 구축할 수 있다는 사실을 보여줬다.

특히 영어-루마니아어 사례는 앞으로 한국어를 포함한 다른 저자원 언어의 문학 번역 시스템 구축에도 적용될 가능성이 크다.

AI가 단순한 문장 번역을 넘어 이야기의 분위기와 문화적 맥락까지 전달하는 방향으로 발전하고 있다는 점에서 의미 있는 연구라고 볼 수 있다.

출처

Nadas, M., Dioșan, L., Tomescu, A., & Pișcoran, A. (2026). Building large-scale English–Romanian literary translation resources with open models. Frontiers in Artificial Intelligence, 9, 1807431. https://doi.org/10.3389/frai.2026.1807431