프랑스어 복잡한 글, AI가 ‘쉽게’ 바꿔준다
— 문장 단순화 위한 인공지능 데이터 공장, 어떻게 돌아가나?
아이도 읽을 수 있는 글, 지식은 그대로인데 말은 더 쉬운 글. 이런 문장을 만드는 건 생각보다 어렵다. 특히 프랑스어 같은 언어에서는 더 그렇다. 왜냐고? 영어처럼 잘 정리된 데이터가 별로 없기 때문이다.
이런 문제에 한 연구자가 도전장을 내밀었다. 스위스 제네바대학교의 니코스 추라키스(Nikos Tsourakis) 박사는 최근 논문을 통해 프랑스어 문장 단순화를 위한 인공지능 기반 데이터 생성 시스템을 공개했다. 마치 잘 짜인 ‘데이터 공장’처럼 돌아가는 이 시스템은 복잡한 문장을 쉽게 만들면서도, 그 뜻은 정확히 유지하게 한다. 심지어 사람이 쓴 것처럼 자연스럽다!
어떻게 이런 게 가능할까? 이 기사는 그 ‘비밀의 공장’이 어떻게 움직이는지 들여다본다.
왜 '프랑스어 단순화'가 중요한가?
읽기 쉬운 글은 단순히 ‘편리’한 게 아니다. 어린이, 외국인, 독서에 어려움이 있는 사람들에겐 정보 접근 자체가 달려 있다. 문장을 단순화하는 건 결국 정보의 장벽을 낮추는 일이다.
문제는, 이런 ‘단순화’를 가르칠 만한 데이터가 없다는 것. 예를 들어 영어는 뉴스 기사나 위키피디아의 ‘단순 버전’이 있어 문장 단순화 연구가 활발하다. 반면 프랑스어는? 데이터도 부족하고, 그마저도 특정 분야에 치우친 경우가 많다. 좋은 데이터를 만들려면 많은 사람이 문장을 다시 써줘야 하는데, 이건 시간도 돈도 많이 든다.
그래서 등장한 대안이 **AI를 활용한 ‘합성 데이터 생성’**이다. 쉽게 말해, 인공지능에게 "이 문장을 쉽게 바꿔줘"라고 시키고, 그 결과를 데이터로 쓰는 것이다. 문제는 AI가 ‘엉뚱한 말’을 할 수도 있다는 점이다. 예를 들어 사실을 잘못 바꾸거나, 중요한 내용을 빼버리는 식이다. 그렇다면 어떻게 해야 할까?
AI를 잘 ‘조련’하는 법: 배경지식과 피드백
추라키스 박사는 이 문제를 해결하기 위해 꽤 정교한 시스템을 설계했다. 핵심은 두 가지다.
-
AI에게 더 많은 맥락을 주자.
-
AI가 뭘 잘못했는지 알려주자.
우선, 그는 기존 프랑스어 위키피디아(Wikipedia)와 어린이용 위키피디아인 비키디아(Vikidia)의 문장을 짝지은 데이터셋(WiViCo)을 활용했다. 여기에 해당 문장이 등장했던 문단, 전체 문서 내용, 요약본, 주요 개념들까지 끌어와 AI에게 함께 보여줬다.
예를 들면 이런 식이다.
"이 문장은 '파리에서 열린 AI 회의에 대해' 다루고 있어. 관련 문단은 이렇고, 문서 요약은 이거야. 주요 키워드는 '윤리', '사회 영향', '기계 학습'이야. 이걸 바탕으로 문장을 쉽게 바꿔줘."
이렇게 하면 AI가 중요한 정보를 놓치지 않고, '엉뚱한 이야기'를 덜 한다.
하지만 여기서 끝이 아니다. AI가 처음 낸 결과를 다른 AI가 다시 검사한다.
"어이, 이 문장에서 ‘어디서 열렸는지’ 빠졌잖아!"
이런 식으로 문제점을 짚고, 다시 수정하게 한다. 이를 ‘LLM 평가자 루프’라고 부른다. 이 과정을 여러 번 반복하며, 점점 더 나은 결과가 나오는 식이다.
문장도 AI, 평가도 AI, 그러나 꼼꼼하다
이 시스템의 또 다른 재미는 **지식 그래프(knowledge graph)**를 쓴다는 점이다. 이는 문장을 '개념과 관계'로 바꾼 구조다. 예를 들어, "2025년 샌프란시스코에서 열린 AI 회의"라는 문장은 다음과 같이 정리된다:
-
행사 이름: Future of AI
-
주최: Tech Innovators
-
장소: 샌프란시스코
-
시기: 2025년
-
주제: AI 윤리, 사회 영향, 기계 학습
이런 구조를 바탕으로 AI가 내용을 얼마나 잘 보존했는지를 체크하는 것이다. 만약 'Tech Innovators'라는 주최자가 빠졌다면? 바로 다시 수정에 들어간다.
게다가 이 그래프는 간단하지만 꽤 영리하다. 단순화 결과가 사실을 왜곡하거나, 중요 개념을 빼먹지 않도록 돕는다. 그리고 이런 판단도 다시 AI가 한다! 평가하는 AI는 단순화된 문장이 얼마나 쉬운지, 원래 의미는 유지됐는지 등을 체크한 뒤, 부족하면 다시 쓰라고 지시한다.
점점 더 똑똑해지는 문장들
연구 결과는 인상적이다.
처음 단순화된 문장들은 대다수가 중요한 정보를 빼먹었다. 하지만 피드백과 반복을 거칠수록 점점 나아졌다. 3번쯤 반복하면, 의미도 잘 살리고, 문장도 훨씬 쉬워졌다.
예를 들어 AI가 생성한 문장이 처음에는 이랬다:
"AI 회의가 열렸다."
하지만 마지막에는 이렇게 바뀌었다:
"2025년, 샌프란시스코에서 열린 AI 회의에서는 AI 윤리와 사회 영향에 대한 논의가 있었다."
단순하면서도 내용은 그대로 살아 있다. 연구팀은 이를 ‘단순성’과 ‘의미 보존’ 사이의 균형이라고 표현했다.
게다가 재미있는 통계도 있다. AI는 ‘사실’, ‘원인’, ‘사용 목적’ 같은 관계는 잘 유지했지만, ‘다른 이름’, ‘함께 일한 사람’ 같은 부차적 정보는 자주 빼먹었다. 이건 사람도 글을 쉽게 쓰려다 보면 자주 생기는 일이다.
다음 목표는? 더 많은 언어, 더 많은 데이터
이 시스템은 현재 프랑스어에만 적용됐다. 하지만 구조 자체는 다른 언어에도 충분히 쓸 수 있다. 단, 해당 언어에 대한 AI의 사전 학습 정도에 따라 결과는 다를 수 있다.
연구자는 앞으로 더 복잡한 관계, 예를 들어 ‘누가 누구에게 무엇을 왜 했는가’ 같은 정보까지 그래프에 넣는 것을 고려하고 있다. 또한 현재는 일부 데이터만 실험에 사용됐지만, 전체 1만 개 문장으로 확장할 계획도 있다. 인간 평가자 피드백이나 외부 지식까지 연동하는 것도 다음 단계다.
쉽게 쓴다고, 얕게 쓰는 건 아니다
읽기 쉬운 글이 꼭 내용이 단순하란 뜻은 아니다. 이 연구는 AI가 쉽고도 정확하게 글을 바꾸는 법을 배워가고 있다는 걸 보여준다. 특히 프랑스어처럼 ‘데이터 가뭄’인 언어에서, 이런 시스템은 단순히 연구를 넘어서 사회적 의미도 크다.
AI가 만든 쉬운 문장 하나가, 어떤 이에게는 세상을 이해하는 창이 될 수 있다. 이제 그 창을 더 많이, 더 넓게 열어줄 시간이다.
출처:
Tsourakis, N. (2025). Towards Robust Synthetic Data Generation for Simplification of Text in French. Machine Learning and Knowledge Extraction, 7(3), 68. https://doi.org/10.3390/make7030068