전문의 vs 인공지능, 누가 더 똑똑할까

헬리코박터 파일로리, 그리고 갑자기 등장한 인공지능 선생님들

위 속에 몰래 숨어 사는 세균 하나가 있다. 이름은 헬리코박터 파일로리. 전 세계 사람의 절반 정도가 이 세균을 품고 산다고 한다. 그냥 같이 지내면 좋겠지만, 이 세균은 위염, 위궤양, 위 림프종, 그리고 위암까지 일으킬 수 있는 꽤 위험한 손님이다.

그래서 병원에서는 이 세균을 최대한 빨리 찾고, 약으로 없애자고 계속 캠페인을 벌여 왔다. 그런데 한 가지 문제가 있다. 정작 세균을 없애야 할 사람들, 그러니까 환자들이 헬리코박터에 대해 잘 모른다는 것. 어떻게 감염되는지, 왜 치료해야 하는지, 약은 왜 꼭 끝까지 먹어야 하는지 충분히 이해하지 못하는 경우가 많다.

이때 등장한 것이 바로 요즘 핫한 인공지능 챗봇, 그중에서도 거대 언어 모델이라고 불리는 챗GPT, 제미나이, 딥시크 같은 친구들이다. 연구자들이 이런 생각을 한 거다.

“헬리코박터에 대해 설명하는 쉬운 안내문을, 의사 대신 인공지능이 써 주면 어떨까?”

듣기만 해도 편해 보인다. 24시간 언제든지 질문할 수 있고, 원하는 언어로 친절하게 설명해 줄 것 같다. 그런데 정말로 안전하고, 정확하고, 환자에게 도움이 될까?

이번에 소개하는 논문은 바로 이 질문에 답하려고 했다. 최근 2년 사이에 발표된 7편의 연구를 모아, 인공지능이 만든 헬리코박터 교육 자료와 실제 위장병 전문의들이 만든 자료를 정면 비교했다.

이 리뷰 논문은 챗GPT 여러 버전(GPT-3.5, GPT-4, GPT-4o), 빙 코파일럿, 제미나이, 클로드, ERNIE Bot, 딥시크 같은 인공지능을 싹 모아서 총 7편의 연구 결과를 비교했다. 평가 기준은 정확도, 완전성, 가독성, 이해도, 안전성, 만족도 여섯 가지였다.

인공지능의 정답률, 생각보다 높았다

연구에서 인공지능에게 던진 질문은 헬리코박터가 일으키는 병, 검사법, 약 복용 기간, 치료 후 확인 방법 같은 것들이었다. 놀랍게도 최신 인공지능 모델들은 상당히 높은 정답률을 기록했다. 어떤 연구에서는 챗GPT가 약 92%를 맞혀, 전국 소화기내과 의사의 평균(약 80%)을 넘어서는 경우도 있었다.

물론 완벽하진 않았다. 특히 최신 가이드라인이 필요한 항목에서는 오래된 치료 조합을 추천하거나 추적 검사 설명을 조금 잘못하는 일이 있었다. 그럼에도 기본 지식 영역에서는 인공지능이 전문가 수준에 거의 근접했다.

맞는 말은 하는데, 뭔가 빠져 있다

하지만 두 번째 기준, 즉 완전성에서는 이야기가 달라졌다. 전문의들은 “틀린 말은 아니지만 중요한 설명이 빠져 있다”는 평가를 많이 했다.

예를 들어 항생제 내성, 가족 검사 필요성, 약을 끊었을 때의 위험 같은 핵심 정보가 생략된 경우가 많았다. 정확도는 높지만, “교과서의 반만 쓴 느낌”이라는 평가도 있었다. 특히 흥미로운 점은 환자들은 그 정도 설명에도 꽤 만족했다는 것. 전문의 눈에는 빈 칸이 보이지만 일반인은 그 빈 칸을 인지하지 못한다.

읽기 쉬울까? 실제로는 ‘은근히 어려운’ 문장들

환자 교육 자료는 초등학교 6학년 수준의 난이도를 권장한다. 하지만 연구에서 인공지능에게 “6학년 수준으로 써 달라”고 요청해도 실제로는 대부분 고등학생 이상 난이도로 평가되었다. 이는 의사도, 인공지능도 진짜 쉬운 글을 쓰는 데는 생각보다 큰 어려움을 겪는다는 사실을 보여준다.

환자들은 정말 이해했을까?

환자들에게 안내문을 보여주고 난이도와 이해도를 평가하게 했을 때, 대부분은 “이해할 만하다”고 답했다. 하지만 전문가와 비전문가 사이에는 큰 간격이 있었다. 특히 림프종이나 내성 같은 전문 개념이 포함될수록 그 차이는 더 벌어졌다.

위험한 답은 없었을까?

다행히도 환자에게 즉각적으로 큰 해를 줄 만한 위험한 조언은 거의 없었다. 하지만 오래된 치료법을 아직 유효한 것처럼 추천하거나, 알레르기 상황을 고려하지 않은 답변 등 ‘조용한 위험’에 해당하는 문제는 일부 존재했다.

의사들은 만족, 환자들은 ‘애매하게’ 만족

전문의들은 GPT-4가 만든 답변에 높은 만족도를 보였고, 의대생들도 참고 자료로 유용하다고 평가했다. 반면 환자들은 “틀린 말은 아닌데 뭔가 부족하다”고 느끼는 경우가 많았다. 지식적으로는 훌륭하지만, 환자 친화적인 설명까지는 아직 부족하다는 의미다.

그렇다면 인공지능은 헬리코박터 교육에서 어떤 역할을 맡아야 할까

이 논문의 결론은 단순하다. “AI는 유능한 조력자이지만 아직 단독 주인공은 아니다.” AI가 초안을 쓰고, 전문의가 이를 검토하고 보완하는 협업 방식이 가장 현실적인 활용법으로 제시되었다.

환자 입장에서 이 연구를 활용하는 방법

기본 개념을 이해하기 위해 인공지능에게 질문하는 것은 충분히 도움이 된다. 다만 약 복용 기간, 치료 전략 같은 실제 행동이 바뀌는 부분은 반드시 의료진과 상담해야 한다.

앞으로 남은 숙제들

아직까지 AI 교육 자료가 실제 환자의 치료 성공률이나 재발률을 낮추는지에 대한 연구는 부족하다. 이제부터가 본게임이라는 것이 연구자들의 결론이다.

출처
Ortu, G., Merola, E., Pes, G. M., & Dore, M. P. (2025). Educational materials for Helicobacter pylori infection: A comparative evaluation of large language models versus human experts. AI, 6(12), 311. https://doi.org/10.3390/ai6120311