의사 대신 챗봇에게 물어본 심혈관 질환 위험도
“당신의 심장 건강, AI가 알려준다”
당신의 심장이 위험하다는 걸 가장 먼저 알려주는 건 누구일까? 의사일까, 가족일까, 아니면... 챗봇일까?
최근 한 연구팀이 선보인 AI 챗봇 ‘ChatCVD’는, 사용자의 건강 정보를 바탕으로 심혈관 질환(CVD) 위험도를 평가하고, 개인 맞춤형 건강 조언까지 제공한다. 게다가 이 챗봇을 만들기 위해 사용한 인공지능 모델이, 꼭 전문적인 의학용 AI일 필요는 없다는 사실도 밝혀졌다.
놀랍지 않은가? 우리가 흔히 쓰는 범용 인공지능이, 병원에서 사용하는 의료 특화 AI만큼이나 효과적으로 건강을 판단할 수 있다는 것이다.
질병 예측, AI의 새로운 무대
전 세계에서 매년 2,000만 명 이상이 심혈관 질환으로 목숨을 잃는다. 예방과 조기 진단이 무엇보다 중요한 이 질환은, 사람들의 생활 습관과 밀접하게 연관되어 있다. 하지만 누구나 병원에 가서 정밀 검진을 받을 수 있는 건 아니다. 그래서 연구진은 AI를 활용해 이런 한계를 넘고자 했다.
이번 연구의 핵심은 단순했다. “의료 전문 인공지능이 정말로 더 뛰어난가?”
이 물음에 답하기 위해 연구팀은 두 부류의 인공지능 언어 모델을 실험에 사용했다. 하나는 의료 논문과 기록을 학습한 의학 특화 모델, 다른 하나는 일반적인 언어를 학습한 범용 모델이었다.
두 모델은 모두 미국 CDC의 건강 조사 데이터인 BRFSS를 바탕으로 학습되었다. 이 데이터는 참가자의 나이, 식습관, 운동 습관, 질병 이력 등 수백 가지 항목으로 구성되어 있어, 실제 환자와 유사한 상황을 구성할 수 있다.
하지만 단순한 숫자나 설문 데이터를 모델에 넣어선 원하는 결과를 얻기 어렵다. 그래서 연구팀은 이 데이터를 문장으로 바꿨다.
예를 들면, “고혈압 이력 있음”을 “이 사람은 고혈압 병력이 있다”로 자연스럽게 표현한 것이다. 이렇게 만든 프로필을 기반으로 AI는 각 참가자의 심혈관 질환 위험도를 ‘높음’ 혹은 ‘낮음’으로 분류했다.
“작지만 강한” 모델의 반란
총 8개의 모델이 실험에 투입됐다. 이 중에는 유명한 BioBERT나 Med42 같은 의학 특화 모델도 있었고, LLaMA3, Gemma2 같은 범용 모델도 포함되어 있었다.
결과는 다소 의외였다.
가장 높은 민감도(Recall, 즉 위험 환자를 잘 찾아내는 능력)를 보인 모델은 Med42였지만, 그와 거의 차이 없는 성능을 보인 모델은 의학 특화가 아닌 Gemma2였다. 게다가 Gemma2는 모델 크기(2억 파라미터)가 훨씬 작아, 경량화 환경에서 훨씬 유리하다.
모델명 | 유형 | 민감도(Recall) | 정확도 | F1 점수 |
---|---|---|---|---|
Med42 | 의학 특화 | 0.922 | 0.728 | 0.772 |
BioBERT | 의학 특화 | 0.908 | 0.732 | 0.772 |
Gemma2 | 범용 | 0.907 | 0.730 | 0.770 |
통계적으로 이 셋 사이의 차이는 유의미하지 않았다.
즉, 꼭 비싼 의료 AI를 써야 하는 건 아니라는 의미다. 특히 리소스가 부족한 병원이나 개발 환경에서는 이 같은 가벼운 범용 모델이 오히려 실용적일 수 있다.
챗봇 ‘ChatCVD’, 어떻게 작동할까?
이제 이 AI를 사람들과 소통하게 만든다. 그렇게 탄생한 것이 바로 ChatCVD라는 챗봇이다.
사용자는 자신의 건강 정보를 입력하면, 챗봇이 위험도를 예측하고 그에 맞는 건강 조언을 준다. 이 과정에서 단순한 예측을 넘어, RAG(Retrieval-Augmented Generation) 기술을 활용해 신뢰도 높은 외부 의학 지식과 연결된다.
예를 들어, 한 사용자가 “고혈압과 고지혈증이 있다”고 입력하면, 챗봇은 이를 바탕으로 위험도를 판단한 후, 신뢰할 수 있는 가이드라인을 기반으로 “염분 섭취 줄이기”, “하루 30분 걷기”와 같은 구체적인 조언을 3가지 제시해 준다.
게다가 조언의 중복을 피하고, 사용자의 상태에 맞춘 실행 가능한 행동 지침을 주도록 설계됐다.
의사들도 인정한 조언
실제로 이 챗봇이 내린 조언이 믿을 만한지 검증하기 위해, 의사 두 명이 20개의 프로필과 추천 결과를 검토했다.
그 결과, 75%의 사례가 “우수” 또는 “매우 우수” 등급을 받았으며, 평균 점수는 5점 만점에 4.5점에 달했다.
특히 “의학적 가이드라인과 잘 맞는다”, “실제 환자 상담에 쓸 수 있을 정도”라는 평가가 나왔다.
데이터는 오래됐지만, 가능성은 최신형
물론 한계도 있다. 학습에 사용된 BRFSS 데이터는 2015년 것으로, 지금과 건강 양상에 차이가 있을 수 있다. 또 위험도를 '고위험 vs 저위험'으로 이진 분류한 것도 현실을 단순화한 결과다.
하지만 연구진은 이를 출발점으로 본다. 더 정밀한 모델, 다양한 연령과 인종을 고려한 AI 개발로 이어질 수 있다는 것이다.
인공지능, 건강을 묻다
이제는 검색창에 “심장 건강에 좋은 음식?”을 묻는 시대를 넘어, AI 챗봇에게 “나, 심장이 괜찮을까?”를 물을 수 있는 시대다.
ChatCVD는 그 가능성을 처음으로 보여줬다. 작고 똑똑한 AI가, 인간의 가장 중요한 장기인 ‘심장’을 지키는 데 큰 역할을 할 수 있다는 사실.
누구나 AI 의사 한 명쯤은 갖고 사는 시대, 이제 시작이다.
출처:
Lakhdhar, W., Arabi, M., Ibrahim, A., Arabi, A., & Serag, A. (2025). ChatCVD: A Retrieval-Augmented Chatbot for Personalized Cardiovascular Risk Assessment with a Comparison of Medical-Specific and General-Purpose LLMs. AI, 6(8), 163. https://doi.org/10.3390/ai6080163