AI가 뼈를 읽고, 설명까지 해주는 시대

 

AI가 골절 여부를 진단한다

“이건 단순한 골절이 아닙니다”

골절은 의사에게 어렵지 않은 진단이다.

그런데 문제는 언제나 ‘예외’에 있다. 뼈가 이상하긴 한데, 정확히 어디가 문제인지 안 보이는 경우.

특히 고관절(hip)은 고령자에게 자주 발생하고, 골절이 숨어있는 경우도 많다. 이른바 ‘Occult Fracture’, 즉 숨어 있는 골절이다.


그렇다면 이런 상황에서 AI는 도움을 줄 수 있을까?

단순히 골절을 ‘찾아주는’ 것을 넘어, 왜 그렇게 판단했는지 설명까지 해주는 AI는 가능할까?


스페인 마드리드 대학 연구팀은 최근 이런 물음에 답하는 논문을 발표했다.

이들은 기존의 흑상자(Black Box) AI를 넘어서, ‘이해 가능한 AI’, 즉 설명 가능한 인공지능(XAI)을 활용해 고관절 골절을 진단하는 모델을 만들었다.


“AI, 왜 그렇게 말했는지 보여줄 수 있겠니?”

요즘 AI는 참 똑똑하다. 정확도 90%, 의사보다 더 잘 맞추는 경우도 있다.

그런데 문제는, ‘왜 그런 결과를 냈는지’ 아무도 모른다는 점이다.

이게 의료 현장에서 AI가 ‘불안한 이유’다. 사람 생명이 걸린 판단에 "그냥 그렇게 나왔어요"라고 답하는 건 부족하다.


이 논문이 강조하는 건 단 하나다.

“AI는 설명할 수 있어야 한다.


연구진은 고관절 X-ray를 읽고, 골절 여부와 종류를 판별한 뒤,

그 판단 과정을 이미지 + 텍스트 + 예시로 설명해주는 모델을 개발했다.

그리고 사용자(의사, 환자, 학생)에 따라 설명 수준도 달리 조절할 수 있도록 설계했다.


어떻게 만들었나?

전체 시스템은 크게 두 축으로 나뉜다.


 1. 뼈를 보는 AI – 분류기(Classifier)

 ResNet18 기반의 딥러닝 모델이 X-ray 이미지를 분석한다.

 세 가지 클래스로 분류한다: 정상 / 경부골절 / 전자부 골절

 정확도는 최대 96%, 특히 골절 유형별 분류 정확도도 94~95%에 달한다.


 2. AI의 판단을 설명하는 AI – 설명기(Explainer)

 Grad-CAM: 이미지에서 모델이 주목한 부분을 ‘열지도(heatmap)’로 표시

 CBR (Case-Based Reasoning): 유사한 이전 사례를 찾아 텍스트 설명을 제공

 LLM (GPT-4): 사용자에 맞춰 설명 문장을 재구성

  → 예: 환자에겐 쉽게, 의사에겐 전문 용어로


이 두 AI는 서로 ‘쌍둥이(Twins)’처럼 함께 작동한다.

하나는 진단을 내리고, 다른 하나는 "왜 그렇게 생각했는지" 설명한다.


 AI가 설명해준다고? 실제 예시는 이렇다


예를 들어, AI가 어떤 X-ray에서 ‘기저경부골절(basicervical fracture)’을 진단했다고 하자.

그럼 다음과 같이 설명이 제공된다:


 * 이미지 해석: Grad-CAM이 골절 부위에 붉은 열 지도를 표시

 * 유사 사례: 과거에 같은 골절이 있었던 환자의 X-ray 이미지 제시

 

텍스트 설명:

   환자용: “대퇴골의 목과 몸통이 만나는 지점에서 생긴 골절입니다. 이 부위는 회복이 상대적으로 빠릅니다.”

   의사용: “Intertrochanteric line 상단에서 시작된 기저경부 골절로, 관절 외 부위로 혈류 손상은 크지 않습니다.”


이처럼 시각, 사례, 언어가 종합된 설명은 단순한 ‘예측값’보다 훨씬 신뢰를 준다.


설명, 실제로 쓸모 있을까?

연구진은 65명의 실제 의료인을 대상으로 실험을 진행했다.


 정형외과 전문의는 평균 4.37점(5점 만점)

 의대생은 평균 3.78점

 일반 사용자는 4.26점


특히 “설명 덕분에 AI 판단의 근거를 이해할 수 있었다”는 피드백이 많았다.

또한 GPT-4가 생성한 설명 문장에 대해서도 전문가들이 직접 수정 및 보완을 제안하며,

그 내용을 반영해 시스템이 계속 ‘학습’할 수 있도록 설계되어 있다.


현실에서 쓸 수 있을까?

아직 갈 길은 남아 있다.


 데이터 부족: 고관절 골절 X-ray 데이터는 아직 충분하지 않다.

 실시간 적용: 현재는 후처리 기반이기 때문에 병원 시스템과의 연동이 필요하다.

 LLM 검증: GPT-4 등은 아직 의료용으로는 검증 단계에 있다.

 윤리 문제: AI가 진단한 내용을 과신하거나 오용할 위험성도 존재한다.


하지만 이 모든 문제를 차근차근 해결해 간다면,

“의사 + AI”의 협업 구조는 머지않아 일상화될 수 있다.


결론: "AI는 도구가 아니라, 설명 가능한 파트너여야 한다"

이 연구의 핵심 메시지는 간단하다.

정확한 진단도 중요하지만, ‘왜 그렇게 판단했는가’를 설명할 수 있어야 신뢰받는다.


X-ray를 읽고 골절을 찾는 AI는 많다.

하지만 설명까지 해주는 AI는, 아직 많지 않다.

그리고 이 설명 가능한 AI야말로, 진짜 의료 현장에서 함께 일할 수 있는 파트너다.


출처 논문

Queipo-de-Llano, E., Ciurcau, M., Paz-Olalla, A., Díaz-Agudo, B., & Recio-García, J. A. (2025). eXplainable Artificial Intelligence for Hip Fracture Recognition. Applied Artificial Intelligence, 39(1), e2502568.