AI 챗봇 3종, 만성 비세균성 골염에 대해 얼마나 똑똑할까?

서론: 인공지능은 의료 정보의 '신뢰할 수 있는 조언자'가 될 수 있을까?

최근 들어 의학 정보를 인공지능(AI)을 통해 찾는 이들이 급증하고 있다. 환자들은 진단명 하나만 받으면 곧바로 AI 챗봇에게 증상, 치료법, 예후 등을 묻는다. 하지만 과연 이 AI 챗봇들의 답변은 정확하고 신뢰할 만한가? 더욱이 병명 자체가 생소한 '만성 비세균성 골염(Chronic Non-Bacterial Osteitis, CNO)'과 같은 질환에 대해서도 말이다.

2025년 9월, 국제 학술지 Frontiers in Artificial Intelligence에 발표된 흥미로운 연구는 이러한 질문에 명확한 답을 시도한다. 중국에서 가장 인기 있는 AI 챗봇 3종, 즉 Deepseek V3, Doubao, Kimi1.5가 CNO에 대한 16개의 전문 지식 질문에 얼마나 정확하고 일관되게 답하는지를 비교 평가한 것이다. 본 글에서는 해당 논문을 바탕으로 연구 내용을 일반 독자의 눈높이에 맞춰 설명하고, AI 의료 응용에 대한 확장적 시사점까지 짚어본다.

CNO란 무엇인가? - 질병 배경 요약

CNO는 주로 소아 및 청소년에게 발병하는 드문 자가염증성 뼈 질환이다. 세균 감염 없이도 염증 반응이 지속되며, 심한 경우 뼈의 파괴까지 초래할 수 있다. 통증, 발열, 뼈 변형 등이 주요 증상이며, 원인은 명확히 밝혀지지 않았지만 면역 시스템의 이상이 관여하는 것으로 알려져 있다.

하지만 CNO는 여전히 임상적으로 과소진단되기 쉬우며, 진단 기준과 치료 방법에 있어 전 세계적으로도 의견 차이가 존재한다. 이런 질병일수록, 환자와 의료진이 쉽게 접근할 수 있는 정확한 정보원이 절실하다.

연구 개요: 무엇을 어떻게 비교했는가?

연구진은 2025년 출간된 전문가 합의 문서를 기반으로 CNO 관련 16개의 핵심 질문을 추출했다. 이 질문들은 다음을 포함한다:

질병 정의
증상 및 임상양상
진단 및 감별진단 기준
치료 및 예후

각 AI 모델(Deepseek V3, Doubao, Kimi1.5)은 이 질문에 대해 3회씩, 총 48개의 응답을 생성했다. 각 답변은 정형외과 전문의 2인이 블라인드 평가 방식으로 정확성(4점 척도)과 일관성(세 번의 답변 간 일치도)을 평가했다.

결과: 누가 가장 정확하고 일관된가?

✅ 정확성(Accuracy)

Kimi1.5는 전반적으로 가장 높은 평균 점수(평균 3.875)를 기록하며 가장 정확한 답변을 생성했다.
Doubao는 한 차례(3차 평가) 완전히 잘못된 답변을 제공하여 유일하게 "1점(전혀 부정확)"을 받은 사례가 있었다.
Deepseek V3는 비교적 안정적인 결과를 보였지만, 응답 시간이 가장 길었다.

🔁 일관성(Repeatability)

세 AI 모두 3회 반복 질문에 대해 비교적 일관된 답변을 제공했으며, 통계적으로 유의미한 편차는 없었다.

🕒 응답 속도 & 📝 답변 길이

Doubao: 가장 빠른 응답(평균 4.7 ~ 5.1초, 가장 긴 답변(평균 800~950자)
Kimi1.5: 응답 시간 중간, 답변 길이는 가장 짧음
Deepseek V3: 응답 속도 가장 느림(평균 15초 이상)

➡️ 흥미로운 사실: 답변이 길다고 해서 정확한 것은 아니며, Doubao는 가장 긴 답변을 제공했지만 정확성 면에서는 Kimi1.5에 밀렸다.

비판적 시각: 이 연구의 한계와 해석의 여지

📌 한계점 1: 질문 수의 제한

연구에 사용된 질문 수는 16개로 제한적이다. 실제 환자들이 묻는 방식은 더 모호하고 다양한데, 이러한 다양성을 반영하지 못한 점은 아쉽다. 실제 환자 질문을 수집해 실험에 반영했다면 더 실질적인 결과를 도출할 수 있었을 것이다.

📌 한계점 2: 중국어에 국한된 테스트

모든 질문은 중국어로 이루어졌으며, 따라서 이 결과는 한국어나 영어 기반 AI 챗봇과는 직접 비교가 어렵다. 다국어 테스트가 추가되어야 글로벌 적용 가능성이 검증될 수 있다.

📌 한계점 3: 최신성 반영 여부

AI 모델의 답변은 항상 최신 의학 정보를 반영하는 것은 아니다. 새로운 가이드라인이나 논문이 출판되어도 AI가 이를 반영하지 못할 경우, 오답률은 증가할 수 있다. 이 점에서, 정기적인 학습 데이터 업데이트와 검증 절차가 필요하다.

확장적 시사점: AI 의료 챗봇의 실용성과 미래 가능성

이 연구는 단지 AI 챗봇의 "정확도 시험"에 그치지 않는다. 다음과 같은 확장적 활용 가능성을 제안한다:

🧑‍⚕️ 1. 1차 진료의사 보조 도구로서의 AI

지방 병원이나 일차 진료 현장에서 CNO와 같이 희귀하거나 복잡한 질환을 처음 접하는 경우, AI가 초기 진단 포인트와 감별진단 옵션을 제시함으로써 의사 결정 속도를 높이고, 진단 누락을 줄일 수 있다.

📚 2. 환자 맞춤형 교육 도구

기존의 환자 교육 자료는 지나치게 일반화되어 있어 개인 맞춤형 설명이 어렵다. AI는 환자의 병력과 치료 이력을 반영하여, 더 효과적이고 환자 친화적인 정보 전달을 가능하게 한다.

💡 3. 향후 연구 방향: '정적 Q&A'에서 '동적 진단 시뮬레이션'으로

현재는 단순한 질의응답에 머무르지만, 향후에는 케이스 기반 시나리오(예: 증상 - 검사 선택 - 치료 제안)를 통해 AI의 '임상 추론 능력'을 검증하는 방향으로 발전할 수 있다. 이는 진정한 의미의 의료 보조 AI로 진화하는 길목이 될 것이다.

결론: '보조 수단'으로서 AI의 가치, 그러나 절대적 신뢰는 금물

Deepseek V3, Doubao, Kimi1.5 모두 만성 비세균성 골염에 대한 질문에 대해 높은 정확도와 일관성을 보였다. 특히 Kimi1.5는 전반적으로 가장 높은 점수를 받았으며, Doubao는 응답 속도와 설명 길이에서 두각을 나타냈다. 그러나 아직까지 이들 AI는 의사의 판단을 대체할 수준은 아니다. 특히 최신 의학 정보를 반영하지 못하거나, 오답을 자신감 있게 제시하는 경우도 있다.

🔎 따라서 우리는 AI를 '똑똑한 조수'로 활용하되, 최종 결정은 반드시 전문 의료진과의 상담을 통해 이루어져야 한다.

출처 논문 (APA Style)

Zhu, Z., Xie, J., Zhou, L., Yang, C., & Li, F. (2025). Evaluation of the accuracy and repeatability of Deepseek V3, Doubao, and Kimi1.5 in answering knowledge-related queries about chronic non-bacterial osteitis. Frontiers in Artificial Intelligence, 8, 1629149. https://doi.org/10.3389/frai.2025.1629149

AI-World-Story