카와사키병 진료를 돕는 AI 챗봇, 누가 더 똑똑할까?

카와사키 병 진료에 가장 도움이 되는 AI 챗봇은 Claude 3.5 Sonnet이었다.

원문 제목: Assessing large language models as assistive tools in medical consultations for Kawasaki disease

저자: Chunyi Yan (Department of Pediatric Cardiology, West China Second University Hospital, Sichuan University)외

출판일자: 2025년 3월 31일

저널: Frontiers in Artificial Intelligence

----------------------------

카와사키병(Kawasaki disease)은 5세 이하 어린이에게 주로 발생하는 급성 열성 질환으로, 심장 관상동맥에 영향을 줄 수 있어 조기 진단과 치료가 매우 중요하다. 하지만 이 병은 증상이 다양하고 애매해 부모나 비전문가 입장에서 이해하고 대처하기 어렵다. 요즘 부모들은 병원보다 먼저 인터넷 검색창을 두드린다. 여기서 궁금해진다. 의료용 인공지능(AI) 챗봇은 과연 믿을 만한 정보를 제공해줄 수 있을까?

이 궁금증을 해결하기 위해, 중국 쓰촨대학의 연구진은 최신 대형언어모델(LLM, Large Language Model) 3종—ChatGPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro—을 대상으로 카와사키병 관련 질문 25개에 어떻게 답하는지를 비교 분석했다. 그리고 질문 방식도 세 가지로 달리했다: 아무 지시 없이 질문하기(NO), 부모가 이해하기 쉬운 방식으로 설명해달라는 요청(PF), 의사 수준의 전문적인 설명을 요청(DL).

---

AI 챗봇 성능, 누가 더 뛰어났을까?

결론부터 말하면, Claude 3.5 Sonnet이 가장 정확한 답변을 많이 했고, Gemini 1.5 Pro는 가장 이해하기 쉬운 답변을 제공했다. GPT-4o는 두 모델의 중간 정도였다. 구체적으로 살펴보자.

- 정확도: Claude 3.5는 완전히 정확한 답변 비율이 51.1%로 가장 높았다. GPT-4o는 18.2%, Gemini는 11.1%에 그쳤다.

- 이해 용이성(FRE 점수): Gemini가 평균 31.5점으로 가장 높아 상대적으로 쉽게 읽히는 답변을 제공했다. GPT-4o는 16점, Claude는 19.5점으로 읽기 어렵다는 평가를 받았다.

- 참고 문헌: Gemini는 모든 답변에 출처를 제시했으나, Claude와 GPT는 단 한 건의 인용도 없었다.

- 주의 권고 문구 포함: Gemini는 “의사와 상담하세요” 같은 경고문을 55.6%의 답변에 포함시켜 가장 책임 있는 태도를 보였다.

----

질문 방식도 중요했다

흥미롭게도, 질문을 어떻게 하느냐도 결과에 큰 영향을 미쳤다. PF 방식(부모 친화적 요청)은 Claude와 GPT-4o에서 가장 높은 ‘수용 가능한 답변’ 비율을 끌어냈다. 반면 DL 방식(전문가 수준 요청)은 정보량은 풍부하지만 이해하기 어렵고, 심지어 오류(confabulation) 가능성도 높았다. 예를 들어, Claude는 DL 요청 시 confabulation 발생률이 12%에 달했다.

이런 결과는 일반인보다 의료전문가에게 DL 방식이 적합하고, 일반 부모에게는 PF 방식이 가장 적절하다는 것을 의미한다.

---

각 챗봇의 개성, 어떻게 활용할까?

- Claude 3.5 Sonnet: 정확도와 교육적 품질이 최고. PF 방식으로 질문하면 거의 100% 수준의 수용 가능한 답변을 얻을 수 있다. 부모가 카와사키병에 대해 깊이 있고도 정확한 정보를 얻고 싶다면 최적의 선택이다.

- Gemini 1.5 Pro: 이해하기 쉬운 문장, 책임 있는 문구, 명확한 출처 제시로 초보자에게 적합. 부모 입장에서 병에 대한 전반적 감을 잡고 싶다면 좋은 파트너다.

- GPT-4o: 응답은 짧고 간결하지만, 정보가 생략될 수 있다. 그러나 Claude와 Gemini의 중간 지점에서 안정적인 성능을 보여준다.

---

결국, 챗봇은 보조도구일 뿐

이번 연구는 의료 챗봇이 보조 수단으로 유용할 수 있음을 보여주지만, 여전히 일정 비율의 오류와 허위 정보(confabulation)가 존재함을 경고하고 있다. 특히 중요한 의사결정은 반드시 실제 의료 전문가와 상담해야 한다. LLM은 무조건적인 믿음의 대상이 아닌, 비판적 사고를 거쳐 활용해야 할 지식 도구다.

앞으로는 의료특화 LLM이 등장할 수도 있다. 예를 들어 카와사키병 진단 보조나 심장초음파 분석까지 가능한 모델들이 등장한다면, 의사의 진료를 더 정밀하게 보완할 수 있을 것이다. 단, 기술의 진보만큼 윤리적 검증과 정보 검수도 병행되어야 할 것이다.

---

#카와사키병 #인공지능챗봇 #의료AI #LLM성능비교 #부모교육도구