의료 그림 앞에서 멈춘 AI — 어깨관절 분류 시험에서 드러난 한계

 



다른 산업보다 일찍 AI를 받아들인 의료 현장에서도, “이미지 해석”만큼은 여전히 쉬운 문제가 아니었다. 어깨 인공관절 수술을 준비할 때 쓰는 ‘왈쉬(Walch) 글레노이드 분류’—어깨 관절 소켓(관절와)의 닳는 패턴을 유형별로 나누는 체계—를 두 개의 최신 대형언어모델(LLM)에게 풀어보게 했더니, 결과는 의외로 냉정했다. 딥시크 R1(DeepSeek R1)은 44%의 정답률을 보였고, 클로드 3.5 소넷(Claude 3.5 Sonnet)은 0%였다. 


멀티모달 시대라며 AI에 거는 기대가 커졌지만, 의학 그림 한 장도 꾸준히 맞히지 못했다는 뜻이다. 연구팀은 결론을 이렇게 요약했다. “2025년 2월 현재, 공개된 범용 LLM들은 임상에 쓸 만큼 안정적이지 않다.”


‘그림’ 앞에서 멈춘 AI

왈쉬 분류는 어깨 관절 치환술 전 계획에서 가장 널리 쓰이는 언어다. 의사는 축 방향 CT나 겨드랑이 방향 X선에서 관절와가 앞·뒤로 얼마나 닳았는지, 상완골두가 얼마나 치우쳤는지 등을 보고 A1, A2, B1, B2, B3, C, D로 나눈다. 예컨대 A형은 중심에 가깝고 닳음이 동심원처럼 고르게 나타난다. B형은 뒤쪽으로 치우치며 비대칭 마모가 특징이다. 간단히 말해, 수술 중 어떤 삽입물과 교정각을 쓸지 결정하는 설계도다.


그렇다면 이 명백한 시각적 규칙을 AI가 못 알아챘다는 말일까? 연구진은 범용 LLM들이 텍스트 중심으로 학습돼 왔다는 점, 의료 전용 도상(도식화 그림)엔 노출이 적었다는 점을 지적한다. 그 결과, ‘곡선’과 ‘빈 공간’ 같은 기하학적 단서들을 일관되게 잡아내지 못했다. 특히 가장 흔한 오류는 A2를 A1로 바꾸어 말하는 실수였다. 중심에서 살짝 벗어난 상완골두를 ‘중심’으로 오인한 셈이다.


어떻게 시험했고 무엇이 드러났나

연구는 진짜 환자 영상 대신, 라디오피디아(Radiopaedia)의 고대비 흑백 도식 7장을 사용했다. 실제 임상 영상보다 훨씬 단순하고 ‘정답의 힌트’가 뚜렷한 자료다. 테스트는 퍼플렉시티(Perplexity) 플랫폼에서, 의료 특화 튜닝 없이 기본 모델로 진행했다. 연구진은 두 모델 각각 여러 대화 스레드를 열고, 처음에는 “왈쉬 분류 사용법”을 설명하는 지시문을 줬다.이후 동일 스레드에서 도식 이미지를 던지며 “이건 어떤 유형인가?”를 물었고, 모델이 낸 답과 정답을 비교해 정확도를 계산했다.


숫자는 냉정했다. 딥시크 R1은 16문항 중 7개를 맞혀 44%였고, 클로드 3.5 소넷은 16문항 모두 빗나갔다(0%). 지시문 길이와 정답률 사이의 관계도 살폈는데, 딥시크는 대체로 길게 설명했을수록 미세하게 좋아지는 경향이 있었다. 반면 클로드는 지시문이 길든 짧든 오답이었다. 연구진은 “지시문을 더 장황하게 써도, ‘그림을 읽는 눈’이 없다면 한계가 있다”라고 해석했다.


오류 패턴을 뜯어보니 더 흥미롭다. 전체적으로 가장 흔한 실수는 A2→A1(32%)였고, 다음은 A2→B2(20%)였다. 딥시크는 실수가 비교적 고르게 퍼졌지만, 클로드는 A2→A1에 과도하게 몰렸다(63%). 이는 ‘중심 여부’라는 핵심 특징을 안정적으로 잡지 못했다는 신호다. 한편 B형 내부(예: B2와 B3) 구분도 만만치 않았는데, 관절와의 뒤쪽 닳음과 상완골두의 후방 전위, 레트로버전 각도 같은 세부 지표를 도식에서 일관되게 추출하지 못한 탓으로 보인다.


왜 이런 일이 벌어졌나: 텍스트 뇌 vs. 영상 눈

LLM은 본질적으로 ‘다음 단어’ 예측 기계다. 웹·책·게시글 같은 텍스트에 잔뜩 노출되어 문장 맥락을 잡는 데는 강하다. 하지만 의료 일러스트나 CT처럼 픽셀의 패턴·형태·여백을 수치로 읽어내려면, 다른 종류의 데이터와 학습 절차가 필요하다. 연구진은 “공개 범용 LLM들은 의료 데이터—특히 의료 영상—노출이 적다. 그러니 시각적 분류 과제에서 약점이 드러난다”고 지적했다. 여기에 의료 데이터의 규제·프라이버시 장벽, 전용 어노테이션 부족이 겹치면서, 범용 모델의 임상 적합성은 생각보다 천천히 올라간다.


또 하나 주목할 점은 ‘자신감 있는 오답’이다. 클로드는 특정 패턴(A2)을 일관되게 A1로 몰아넣는 경향을 보였다. 사용자 입장에선 더 위험하다. 모델이 분명하게 말할수록, 사람은 그 답을 믿기 쉬우니까. 어깨 인공관절에선 잘못된 유형 판단이 임플란트 선택과 교정 계획을 바꾸고, 이는 재수술 증가나 기능 저하로 이어질 수 있다. 즉, 이건 단지 ‘퀴즈 오답’이 아니라 환자 결과에 닿는 문제다.



딥시크는 왜 조금 나았나: ‘추론형’의 가능성과 한계

딥시크 R1은 오픈소스 성격과 ‘추론(reasoning)’ 과제를 강조한 학습으로 주목받았다. 이번 시험에서도 클로드보다 높은 정확도를 냈고, 지시문을 길게 주면 약간 더 나아지는 경향도 보였다. 연구진은 이를 “세부 단서에 주의를 기울이는 능력 차”로 해석한다. 하지만 44%는 임상에서 의미 있는 숫자가 아니다. ‘다른 모델보다 낫다’와 ‘사람 치료에 쓸 수 있다’ 사이에는 넓은 간극이 있다. 이 연구는 그 간극을 적나라하게 보여준다.


연구의 빈칸: 소수 표본, 도식 중심, 플랫폼 효과

한계도 분명하다. 문항 수가 16개로 적고, 유형도 A1·A2에 편중됐다. 시험 자료가 실제 CT가 아니라 ‘이상적으로 깔끔한’ 도식이었던 점도 변수다. 역설적으로, 이런 도식에서도 실패했다는 사실은 더 의미심장하다. 또한 모델 접속이 네이티브 플랫폼이 아닌 퍼플렉시티를 경유했다는 점에서, 미묘한 인터페이스 차이가 결과에 영향을 줬을 가능성도 남는다. 그래도 결론이 크게 바뀌진 않는다. “간단한 도식도 일관되게 못 맞히면, 실제 임상 영상에 바로 투입하기는 위험하다.”


그래서 이제 무엇을 해야 하나

연구가 제안하는 다음 단계는 명확하다. 첫째, 충분히 큰 표본과 표준화된 지시문으로 다시 검증할 것. 둘째, 의료 영상과 일러스트에 특화된 사전학습·미세조정을 통해 ‘시각적 문해력’을 끌어올릴 것. 셋째, 단순 정확도 외에도 ‘오류 분포’와 ‘과신(오버컨피던스)’을 안전성 지표로 적극 모니터링할 것. 넷째, 임상 통합 전에는 사람 전문가의 이중 확인을 제도화할 것. 그래야 “AI가 도와주는 수술”이 “AI가 망칠 수도 있는 수술”로 변질되는 일을 막을 수 있다.


결론: ‘그림을 읽는 AI’를 향해

왈쉬 분류는 어깨 수술의 언어다. 아직 LLM은 그 언어의 ‘철자’를 틀린다. 이번 연구는 범용 LLM에게 의료 도식을 맡기는 일이 왜 위험한지, 어디서부터 고쳐야 하는지를 숫자로 보여줬다. 진짜 승부는 이제 시작이다. 의료 영상과 도식을 ‘텍스트처럼’ 자연스럽게 읽는 AI—그날이 올 때까지, 임상은 사람의 눈을 믿어야 한다.




출처:
ElSayed, A., & Updegrove, G. F. (2025). Limitations of broadly trained LLMs in interpreting orthopedic Walch glenoid classifications. Frontiers in Artificial Intelligence, 8, 1644093. https://doi.org/10.3389/frai.2025.1644093