임상시험 보고서, 이젠 ‘AI가 초안을 뚝딱’…

대만 의료진이 시험한 RAG-LLM의 속도전과 정확성의 균형

임상시험이 끝난 뒤 진짜 마라톤은 그때부터였다. 수많은 표와 그래프(TLF)를 문장으로 풀어 쓰고, 의사·통계전문가·규제팀이 줄줄이 확인하는 데 석 달이 훌쩍 가곤 했다. 그런데 한 대만 의료 시스템이 실전 데이터로 시험한 새 도구는 이 시간을 ‘몇 분’대로 끊어냈다.

핵심은 두 축—외부 근거를 찾아 꽂아 주는 검색증강(RAG)과, 그 근거를 바탕으로 보고서를 써내려가는 대규모언어모델(LLM)의 결합이다.

연구진은 전자의무기록(EHR), 건강보험 청구코드, 영상 리포트까지 한데 묶어 검색하고, LoRA/QLoRA 같은 경량 미세조정과 강화학습으로 모델을 다듬었다고 밝혔다.

결과는? 정확도, 일관성, 속도 모두 유의하게 개선됐다. 종합품질지수(CQI)는 78.3점으로 기존 강력한 의료 LLM들을 앞섰고, 초안 작성 시간은 75% 넘게 줄었다.

왜 지금 RAG-LLM인가

임상시험 보고서는 한 글자 한 글자가 규제의 언어다. 훈련 데이터에 없는 최신 환자 정보, 코드 체계, 영상 소견을 반영해야 한다. LLM만으론 현실 근거가 빈약해 헛말(환각)이 끼어들 위험이 있는데, RAG는 필요한 증거를 외부에서 ‘즉시’ 끌어와 창 안에 넣어준다.

이 연구는 병원 다기관 환경에서 EHR·보험 청구(NHI)·영상 임프레션을 벡터로 색인하고, 질문이 들어오면 단계적으로 좁혀 가는 ‘계층형 검색’을 돌린다. 그 다음, 검색된 텍스트·이미지 근거를 가중합으로 정리해 LLM에 넘기고, 모델은 출처 인용이 박힌 서술을 뽑아낸다.

어떻게 만들었고, 무엇이 달라졌나

연구팀은 우선 데이터 표준화를 손봤다. 서로 다른 병원 전자의무기록과 청구·검사·약물 필드를 ICD-10, LOINC, ATC로 매핑하고, 개인정보는 k-익명성과 차등프라이버시(ε≈1)로 처리했다. 텍스트는 256토큰 단위로 잘라 768차원 임베딩을 만들고, 영상은 방대한 픽셀 대신 판독문 ‘Findings/Impression’만 추려 색인했다. 색인은 FAISS 기반(Flat+IVF)으로 수십만 벡터에서 ~50ms 응답을 목표로 구성했다. 이처럼 ‘가볍고 유연한’ 색인층 위에 RAG가 선다.

검색 단계는 넓게 훑고 정밀하게 좁히는 2단 구성이다. 먼저 의미 기반으로 폭넓게 후보를 끌어온 뒤, 의학 개체와 질의 의도를 반영해 재정렬한다. 그다음엔 증거 융합: 서로 다른 출처에서 온 문장과 영상 소견을 순위화하고, 중복·모순을 정리해 LLM 맥락창에 넣는다.

마지막으로 LLM이 구조화된 결과(요약, 위험도, 권고)를 작성한다. 이 과정에서 LoRA/QLoRA 어댑터로 파라미터의 1–2%만 미세조정하고, ‘정확도 보상(correctness reward)’을 주는 강화학습으로 인용 일치, 용어 적합, 문단 구조를 학습시켰다.

그렇다면 성적표는? 연구는 네 가지 축—ROUGE-L, BERTScore, 의학개념 F1(Med-F1), 사실일관성(FactCC-Med)—을 가중합한 CQI로 품질을 평가했다. CQI의 공식까지 투명하게 공개됐고, 통계 검정은 부트스트랩과 윌콕슨 검정을 썼다. 이 지표에서 제안 시스템은 78.3점을 받아 Med-PaLM 2(72.6), PMC-LLaMA(74.3)를 앞섰다.

더 중요한 건 업무 효율: 초안 작성 시간이 75% 이상 단축됐고(유의수준 p<0.01), 실제 파일럿에서 의사들이 손본 문장은 9%±2%에 그쳤다(기존 수기 35%±4%). “빠른데 정확하다니, 정말?” 싶은 수치다.

연구는 또한 ‘무엇이 특히 기여했는가’를 분석했다. RAG를 꺼버리면 CQI가 큰 폭으로 하락했고, LoRA 어댑터를 제거하면 사실 오류가 다시 늘었다. 반대로 강화학습 보상(가독성·임상정확성·형식 일관)을 넣으면 인용 일치와 용어 정합성이 개선됐다. 결국 “검색으로 근거를 끌어오고, 적은 비용으로 모델을 임상 도메인에 맞춰 다듬는다”는 조합이 성능의 핵심이라는 결론이 나온다.

현장 적용을 염두에 둔 설계도 눈에 띈다. 보고서 생성은 HL7 FHIR 리소스를 자동 추출·색인한 뒤, 문단마다 근거 링크를 ‘인라인’으로 박아 검토자가 원문을 한 번에 확인하도록 했다. 프론트엔드는 편집 내역을 FHIR Provenance로 남겨 규제감사를 대비했다.

다기관 확장성도 고려해 ICD-10/LOINC/ATC 같은 국제 용어 체계를 매핑했고, 국가·벤더가 달라 생기는 의미·구문 차이는 동의어 임베딩으로 보완했다. 영상은 원시 DICOM 대신 판독 텍스트를 임베딩해 상호운용성을 높였다.

‘사람을 대체’가 아니라 ‘근거를 채우는 동료’

이 시스템이 보여준 것은 LLM의 문장력과 RAG의 근거력을 엮으면 임상보고의 병목이 뚫린다는 사실이다. 다만 자동 생성물이 곧바로 규제 제출본이 되는 건 아니다. 연구진도 최종 검토는 통계전문가·주연구자가 맡아 TRIPOD-AI/CONSORT-AI의 재현성 요구를 충족해야 한다고 못 박았다. 그래도 메시지는 분명하다. 모델을 전면 갈아엎는 대신 LoRA로 ‘작게 튜닝’하고, 병원 내부 지식과 외부 표준을 연결하는 검색층을 세우면, 중형 병원도 현실적인 비용으로 ‘빠르고 추적 가능한’ 보고서를 만들 수 있다.

환자·약물·검사 정보가 시시각각 바뀌는 임상 세계에서, 증거를 즉시 창에 꽂아 넣는 RAG-LLM은 ‘새로운 기본기’가 될 가능성이 크다.

출처:
Kuo, S.-M., Tai, S.-K., Lin, H.-Y., & Chen, R.-C. (2025). Automated clinical trial data analysis and report generation by integrating retrieval-augmented generation (RAG) and large language model (LLM) technologies. AI, 6(8), 188. https://doi.org/10.3390/ai6080188