AI가 67주 걸리는 의학 리뷰를 단축하다

의학 연구에서 ‘임상 근거’는 생명줄 같은 존재다. 새로운 약을 개발하거나 치료 방침을 세울 때, 의사와 연구자들은 기존 연구를 샅샅이 뒤져 결론을 낸다. 이 과정을 ‘체계적 문헌고찰(Systematic Review)’이라고 부르는데, 문제는 시간이 너무 오래 걸린다는 것. 평균 5명의 전문가가 67주를 투자해야 하고, 그 사이에 새로운 논문이 쏟아져 기존 리뷰는 금세 구식이 된다.

미국 일리노이대와 국립의학도서관 연구팀이 내놓은 TrialMind는 이 난제를 풀기 위해 등장했다. 최신 생성형 AI(대규모 언어모델, LLM)를 활용해 연구 검색·선별·데이터 추출·근거 종합까지 통합 처리하는 파이프라인이다. 연구팀은 100개의 체계적 리뷰와 2,220편의 임상 연구 데이터를 모아 ‘TrialReviewBench’라는 벤치마크를 구축하고, AI의 성능을 체계적으로 시험했다.

‘TrialMind’는 어떻게 다를까?

TrialMind의 특징은 PRISMA라는 국제 표준 체계를 그대로 따르면서도, 각 단계에서 전문가가 개입해 수정·검증할 수 있다는 점이다.

연구 검색: AI가 PICO(환자군, 중재, 비교군, 결과) 요소를 분석해 관련 논문을 찾는 검색식을 만든다. 단순 생성이 아니라, 한번 검색 후 결과를 바탕으로 검색식을 개선하는 ‘재귀적 보강(RAG)’과 ‘단계별 사고(CoT)’ 기법을 적용했다.
연구 선별: 포함·제외 기준을 자동 생성하고, 후보 논문을 하나씩 판별한 뒤 점수화해 순위를 매긴다.
데이터 추출: 연구 설계, 참가자 특성, 임상 결과 등을 PDF/XML 원문에서 직접 뽑아내며, 결과 값은 출처와 함께 제공된다.
근거 종합: 추출 데이터를 표준화해 메타분석용 포맷으로 변환하고, 포리스트 플롯 등 시각화까지 완성한다.

성능은 어땠나?

연구 검색에서 TrialMind의 재현율(Recall)은 평균 0.782로, GPT-4(0.073)나 사람 전문가(0.187)를 크게 앞질렀다. 예를 들어 면역치료 분야에서는 관련 논문 2만 2천여 편을 찾아내며 GPT-4보다 230배 가까이 많은 성과를 냈다.

연구 선별에서도 경쟁력이 뚜렷했다. 상위 20편 논문에서 목표 논문을 찾아내는 Recall@20 지표에서 기존 방법보다 최대 2.6배 높았다.

데이터 추출 정확도는 평균 72~83%로, GPT-4보다 16~32%p 높았다. 특히 연구 설계 정보 추출에서는 95% 정확도를 보였다.

인간과 AI가 손잡으면?

연구팀은 실제 사용자 시험도 진행했다. AI 보조 없이 사람이 직접 작업하는 방식과, TrialMind+전문가 협업 방식을 비교했더니,

연구 선별 Recall이 71.4% 높아졌고
작업 시간은 44.2% 줄었다.
데이터 추출에서도 정확도는 23.5% 높아지고, 시간은 63.4% 단축됐다.

의료 전문가 8명에게 시각화된 메타분석 결과를 평가하게 했더니, 62.5~100% 사례에서 GPT-4 방식보다 TrialMind 결과를 더 선호했다.

의미와 한계

TrialMind는 ‘AI가 의학 문헌고찰을 대체한다’기보다 ‘전문가의 시간을 절약하고 품질을 높인다’는 데 무게를 둔다. 각 단계에서 AI가 만든 초안을 전문가가 확인·수정하도록 설계돼, 잘못된 정보가 그대로 넘어가는 위험을 줄였다.

다만, 연구 데이터가 주로 종양학 분야에 치중돼 있고, PubMed Central에 공개된 자료만 사용했다는 한계가 있다. 예방의학, 진단, 비암 분야 확장과 비정형 데이터 처리 능력 보완이 필요하다.

앞으로의 전망

AI가 체계적 문헌고찰을 가속화하면, 가이드라인 업데이트 주기가 단축되고 최신 근거가 임상 현장에 더 빨리 반영될 수 있다. TrialMind 같은 도구는 앞으로 의료 AI의 실질적 활용과 인간-AI 협업 모델의 가능성을 크게 넓혀줄 것으로 보인다.

AI-World-Story