병원 기록도 똑똑하게! 아랍어로 말하는 작고 강한 AI, ‘AraSum’



의료 현장은 매일같이 기록 전쟁이다. 의사들은 진료 후 환자 상태를 요약하고 정리하느라 많은 시간을 소모하고, 이 과정에서 작은 실수 하나가 환자의 생명을 좌우할 수 있다. 그런데 만약 환자와 의료진의 언어가 다르다면? 예를 들어, 복잡하고 다층적인 언어인 아랍어를 사용하는 환경이라면? 이야기는 훨씬 더 복잡해진다.

이런 문제를 해결하고자 등장한 것이 바로 ‘AraSum’이라는 이름의 인공지능 요약 도우미다. 최근 《Scientific Reports》에 실린 연구에 따르면, AraSum은 거대 인공지능 없이도 빠르고 정확하게 아랍어 의료 대화를 요약하는 작고 강력한 모델이다. 게다가 환경까지 생각한다니, 이쯤 되면 의료계의 새로운 비서가 될 만하다.


아랍어 의료 요약, 왜 이렇게 어렵나?

우선 아랍어 자체가 녹록지 않다. 단어가 형태에 따라 확 바뀌는 ‘형태소 풍부’ 언어고, 공식 문어체와 일상 구어체가 완전히 다른 ‘디글로시아(diglossia)’ 구조를 가지고 있다. 이는 환자와 의사가 말하는 방식 자체가 다르다는 뜻이다. 여기에 의학 용어까지 얹으면… 당연히 기존의 대형 언어 모델(LLM, Large Language Model)은 애를 먹을 수밖에 없다.

실제로 지금까지 등장한 아랍어 전용 언어 모델들(예: AraBERT, JAIS 등)도 일반적인 텍스트에는 꽤 능했지만, 의료 요약처럼 전문성과 정밀성이 동시에 필요한 작업에서는 한계를 보였다.



그래서 나온 해결책: 작지만 똑똑한 ‘AraSum’

연구팀은 대형 모델의 성능은 유지하면서, 크기는 줄이고 효율은 높이는 ‘지식 증류(Knowledge Distillation)’ 기법을 사용했다. 쉽게 말해, 똑똑한 선생님 두 명에게 배운 내용을 한 명의 똘똘한 학생에게 압축 전수하는 방식이다. 여기서 그 ‘학생’이 바로 AraSum이다.

AraSum은 아랍어 의료 대화 요약만을 위한 소형 언어 모델(SLM)로, 약 4,000개의 가상 환자-의사 대화를 학습했다. 놀라운 점은 이 데이터가 전부 GPT-4o로 생성된 ‘합성 데이터’라는 것! 현실을 잘 반영하도록 설계된 이 대화들은 실제처럼 다양한 상황과 질병, 문화 요소들을 담고 있어 AraSum이 현장감 있게 학습할 수 있었다.


AraSum vs. JAIS: 누가 더 잘하나?

연구팀은 AraSum과 기존의 대표적인 아랍어 모델 ‘JAIS-30B’를 여러 기준으로 비교했다. 예를 들어 문장 구조, 단어 선택, 실제 요약 성능 등을 평가하는 BLEU와 ROUGE 점수에서는 AraSum이 모두 앞섰다.

  • BLEU 점수: AraSum 0.338 vs. JAIS 0.156
  • ROUGE-1 점수: AraSum 0.624 vs. JAIS 0.379

그뿐만 아니라, 실제 아랍어 의료 전문가 8명이 참여한 ‘문서 품질 평가’에서도 AraSum의 손을 들어줬다. 요약이 더 정확하고, 조직적이고, 쉽게 이해되며, 무엇보다 실제 임상에서 쓸모가 있다고 평가했다.

가장 흥미로운 건 ‘편향 없는 정보 생성’에서도 AraSum이 더 높은 점수를 받았다는 사실이다.



작고 효율적인 AI가 미래를 바꾼다

AraSum이 특히 주목받는 이유는 단순히 성능이 좋아서가 아니다. 가격환경 측면에서도 차원이 다르다. 예를 들어 GPT-4 같은 초대형 모델은 수백만 달러의 비용과 막대한 전력을 소모하며 만들어진다. 반면 AraSum은 수일 간의 GPU 훈련만으로 완성됐고, 탄소 배출량도 자동차 한 대가 며칠 달리는 수준에 불과하다.

즉, 돈 없고 인프라 부족한 의료 환경에서도 사용할 수 있다는 얘기다.


기술의 민주화, 의료의 평등화

AraSum의 등장은 단순히 ‘기술적으로 더 낫다’는 차원을 넘어선다. 이 모델은 아랍어처럼 덜 다뤄진 언어권에서도 정확하고 문화적으로 적합한 의료 문서를 생성할 수 있다는 가능성을 보여준다. 이 말은 곧, 언어 때문에 제대로 된 진료를 받지 못하는 일이 줄어든다는 뜻이다.

물론 이 연구의 한계도 있다. 예를 들어, 아직은 진짜 환자-의사 대화가 아닌 ‘합성 데이터’를 기반으로 한다는 점. 그러나 이 또한 시작일 뿐이다.



정리하자면…

AraSum은 ‘작지만 강한’ 인공지능의 미래를 보여주는 살아있는 예시다. 아랍어라는 도전적인 언어, 의료 요약이라는 민감한 작업, 그리고 비용과 환경을 고려한 설계까지. 이 모든 퍼즐 조각을 절묘하게 맞춘 AraSum은 앞으로 더 많은 언어, 더 다양한 의료 환경으로 확산될 가능성이 높다.

기술이 평등을 만든다. AraSum은 그 가능성에 날개를 달아주고 있다.



출처

Lee, C., Kumar, S., Vogt, K. A., Munshi, M., Tallapudi, P., Vogt, A., Awad, H., & Khan, W. (2025). Democratizing cost-effective, agentic artificial intelligence to multilingual medical summarization through knowledge distillation. Scientific Reports, 15(27619). https://doi.org/10.1038/s41598-025-10451-x