"의사 선생님, 우리 아이 무릎이 왜 자꾸 아플까요?" AI가 찾아낸 성장기 무릎 통증의 숨은 비밀

성장기 자녀를 둔 부모라면 한 번쯤 아이가 "무릎이 시리고 아프다"며 고통을 호소하는 모습을 본 적이 있을 것이다. 흔히 '성장통이겠거니' 하며 대수롭지 않게 넘기기 쉽지만, 통증이 지속된다면 무릎 관절 내부의 구조적인 문제일 가능성을 의심해봐야 한다. 특히 허벅지뼈(대퇴골)와 무릎 앞쪽의 둥근 뼈(슬개골)가 만나는 '슬개대퇴관절(Patellofemoral joint)'은 청소년기 무릎 통증의 단골 원인이 되는 부위다.

의사들은 무릎 통증의 정확한 원인을 찾기 위해 MRI(자기공명영상) 검사를 시행하고, 관절의 길이, 각도, 깊이 등 다양한 기하학적 지표들을 측정한다. 이를 전문 용어로 '형태계측학적 파라미터(Morphometric parameters)'라고 부른다.

하지만 인간 의사의 눈과 전통적인 통계 방식만으로는 이 복잡한 정밀 측정 데이터 속에 숨겨진 질환의 징후를 완벽하게 예측하기가 어려웠다. 청소년기는 뼈와 연골이 아직 완전히 자라지 않은 '골격적 미성숙' 단계여서, 해부학적 구조의 변동성이 매우 크기 때문이다.

최근 인공지능(AI)과 머신러닝 기술이 의학계의 전방위로 확산되면서, 이러한 복잡한 무릎 구조 데이터를 분석해 질환을 예측하려는 시도가 활발해지고 있다. 과연 최첨단 AI 알고리즘은 청소년들의 무릎 MRI 데이터를 보고 어떤 무릎 질환이 발생할지 똑똑하게 맞출 수 있을까?

의사의 정밀 측정 데이터, AI 머신러닝을 만나다

유럽 베오그라드 의과대학 연구팀(Dusan Spasic 등)은 2018년 1월부터 2024년 12월까지 앞쪽 무릎 통증이나 구조적 이상으로 무릎 MRI 검사를 받은 청소년 168명(평균 나이 15.5세, 여학생 97명, 남학생 71명)의 데이터를 수집했다.

두 명의 베테랑 영상의학과 전문의가 환자들의 MRI 영상을 세밀하게 분석하여 슬개대퇴관절과 관련된 13가지의 핵심 구조적 지표들을 정밀하게 측정했다. 여기에는 무릎뼈가 들어가는 홈의 비대칭성, 홈의 깊이, 무릎뼈의 높이 비율 등이 포함되었다.

연구팀의 목표는 이 13가지 구조 데이터만을 활용해 청소년들에게 흔히 발생하는 세 가지 주요 무릎 병변을 AI가 얼마나 정확하게 예측할 수 있는지 확인하는 것이었다.

예측 대상이 된 질환은 다음과 같다.

슬개골 연골연화증 (Chondromalacia): 무릎뼈 안쪽 연골이 말랑말랑하게 약해지거나 손상되는 질환.
전방십자동대(ACL) 손상 또는 슬개골 뼈 타박상 (ACL injury / Patellar bone bruise): 격렬한 운동 중 발생하기 쉬운 십자인대 파열 및 뼈 내부의 미세 손상.
슬개 지대 손상 (Patellar retinacular lesion): 무릎뼈가 좌우로 흔들리지 않도록 단단히 잡아주는 일종의 끈(힘줄 조직)인 '지대'가 찢어지거나 손상되는 질환.

연구팀은 기존에 널리 쓰이던 전통적인 의학 통계 기법인 '다변량 로지스틱 회귀분석(Logistic Regression)'을 기준점으로 삼고, 현대적인 트리 기반의 머신러닝 알고리즘인 CatBoost, LightGBM, XGBoost 등과 성능을 정면으로 비교했다. 데이터 분석의 신뢰도를 극도로 높이기 위해 환자들을 시간 순서대로 훈련용(83명), 검증용(35명), 최종 테스트용(50명)으로 엄격하게 분리하여 AI를 학습시켰다.

통념을 깨다: 무릎 구조와 질환은 '1대1'로 통하지 않는다

연구 결과는 의학계의 기존 예측이나 통념과는 다소 결이 달랐다. 흔히 특정 무릎 뼈의 각도가 많이 휘어 있거나 홈이 파여 있으면 당연히 연골연화증이나 십자인대 손상률이 비례해서 치솟을 것이라 생각하기 쉽다.

하지만 기존의 전통적인 통계 방식을 적용했을 때, 13가지 구조적 지표 중 단 하나의 지표도 세 가지 질환 모두에 대해 통계적으로 유의미한 단독 예측 인자가 되지 못했다. 즉, "이 수치가 비정상적이니 이 질환에 걸릴 확률이 몇 배 높다"와 같은 단순한 1대1 인과관계 공식이 성립하지 않는다는 뜻이다. 무릎 구조가 조금 부자연스럽다고 해서 무조건 연골이 닳거나 인대가 끊어지는 것은 아니며, 청소년기 특유의 신체적 역동성과 다양한 외부 요인이 복합적으로 작용함을 시사한다.

이처럼 복잡하게 얽힌 데이터 앞에서 전통적인 통계 모델은 힘을 쓰지 못했다. 연골연화증의 경우, 전통 통계 모델의 예측 정확도를 나타내는 AUC(1에 가까울수록 완벽한 예측)는 0.61에 불과했고 질환을 정확히 짚어내는 민감도는 고작 4% 수준이었다. 머신러닝 모델 역시 이 질환에 대해서는 AUC 0.57로 큰 효용을 발휘하지 못했다. 전방십자인대 손상 및 뼈 타박상 복합 병변에서도 AI는 전통 통계 모델 대비 눈에 띄는 압도적인 우위를 보여주지 못했다.

AI가 찾아낸 핵심 단서, '슬개 지대 손상'에서 빛을 발하다

그러나 세 번째 질환인 '슬개 지대(Retinacular) 손상' 부문에서는 이야기가 완전히 달라졌다. AI 머신러닝 모델이 무릎 구조 정밀 측정 값들을 조합해 예측을 시작하자, 놀라울 정도로 강력하고 명확한 신호가 잡히기 시작한 것이다.

최종 테스트 데이터 세트에서 머신러닝 모델 중 하나인 CatBoost 모델은 무릎 구조 데이터만을 활용해 AUC 0.85, 균형 정확도(Balanced Accuracy) 79%라는 뛰어난 진단 모델링 성적을 거두었다. 또 다른 고성능 알고리즘인 LightGBM 모델 역시 AUC 0.84, 균형 정확도 76%로 그 뒤를 바짝 쫓았다.

진단 모델 종류	예측 성능 (AUC)	균형 정확도
전통 통계 모델 (로지스틱 회귀)	0.68	(낮은 민감도)
최첨단 AI CatBoost 모델	0.85	79%
최첨단 AI LightGBM 모델	0.84	76%

이 수치가 의미하는 바는 결코 가볍지 않다. 똑같은 무릎 구조 데이터를 보더라도 전통적인 선형 통계 방식은 뼈의 비대칭성이나 각도 변수들이 서로 어떻게 얽혀서 악영향을 미치는지 그 비선형적 상호작용을 포착하지 못한다. 반면 트리 기반의 AI 머신러닝 모델은 수많은 미세한 구조적 단서들을 종합적으로 연결하여, "이러한 기하학적 형태를 가진 청소년은 무릎뼈를 잡아주는 슬개 지대에 강한 스트레스가 가해져 손상될 위험이 매우 높다"는 점을 정확하게 인지해낸 것이다.

의료 AI의 진정한 가치: 화려함보다는 '실용성'

이번 연구가 시사하는 사회적·의학적 의의는 매우 실용적인 관점에 닿아 있다. 최근 의료 AI 분야에서는 MRI 영상 전체를 통째로 딥러닝 뇌 신경망에 학습시키거나, 고도의 연산 처리가 필요한 '라디오믹스(Radiomics, 영상분석학)' 기술이 각광받고 있다. 성능은 뛰어날지 모르지만, 이러한 방식은 병원 현장에 고가의 그래픽 처리 장치(GPU) 컴퓨터 시스템을 도입해야 하고 인프라를 구축하는 데 많은 비용과 시간이 든다는 단점이 있다.

반면, 이번 연구에서 사용한 데이터는 영상의학과 의사들이 이미 일상적인 진료 과정에서 흔히 측정하고 판독문에 입력하는 기본적인 구조 수치들이다. 별도의 복잡한 이미지 처리 파이프라인이나 거대한 시스템 구축 없이도, 의사가 입력한 몇 가지 수치 엑셀 표(정형 데이터)만으로 고성능 AI 진단 보조 프로그램을 즉시 구현할 수 있다는 뜻이다. 의사들에게 익숙하고 설명 가능한(Interpretable) 지표들을 그대로 활용하기 때문에 실제 임상 현장에서의 거부감도 훨씬 적다.

결과적으로 이 기술은 진료 효율성을 극대화할 수 있다. 성장기 청소년이 무릎 통증으로 내원했을 때, 일상적인 MRI 판독 수치들을 AI에 입력하는 것만으로 눈에 잘 보이지 않는 미세한 슬개 지대 손상 위험군을 사전에 스크리닝하고 예방적 재활 치료나 맞춤형 운동 처방을 내리는 일련의 과정이 가능해질 전망이다.

아직 넘어야 할 산: 과신은 금물, 좁혀진 임상적 확장성

물론 이 연구가 '모든 성장기 무릎 질환을 해결하는 만능 AI'의 탄생을 의미하는 것은 아니다. 논문 저자들 역시 연구의 한계를 명확히 짚고 넘어간다.

가장 큰 한계는 AI의 뛰어난 성능이 모든 무릎 질환에 통용되지 않고 '슬개 지대 손상'이라는 특정 병변에만 국한되어 나타났다는 점이다. 연골연화증이나 인대 손상처럼 뼈의 구조적 형태보다는 외부 충격, 활동량, 근육의 불균형 등 다른 복합적 요인이 더 크게 작용하는 질환에 대해서는 구조 데이터만 학습한 AI 역시 뚜렷한 답을 내놓지 못했다. 따라서 의료 현장에서 이 모델을 적용할 때는 임상적 유용성의 범위를 좁고 명확하게 정의해야 한다.

또한, 이번 연구는 단 한 곳의 대학병원에서 수집된 168명의 소규모 청소년 환자군 데이터를 바탕으로 진행된 단일 기관 파일럿(Pilot) 연구다. 병원마다 MRI 촬영 장비의 기종이 다르고 의사마다 미세하게 측정 방식에 차이가 있을 수 있기 때문에, 이 AI 모델이 전 세계 다른 병원의 청소년 환자들에게도 똑같이 정확하게 작동할지는 아직 미지수다. 진정한 상용화를 위해서는 향후 더 다양하고 대규모인 외부 환자 그룹을 통한 추가 검증(External Validation) 과정이 반드시 선행되어야 할 것이다.

그럼에도 불구하고 이번 연구는 복잡하고 변동성이 큰 청소년의 관절 구조 속에서 인공지능이 인간 통계학의 한계를 넘어 숨겨진 질환 패턴을 찾아낼 수 있음을 멋지게 증명해냈다. 인공지능이 일상적인 진료실 풍경 속으로 자연스럽게 스며들어, 우리 아이들의 무릎 건강을 더 정밀하고 안전하게 지켜줄 날이 머지않아 보인다.

출처

Spasic D, Djuricic G, Kovac JD, Bukva B, Radlovic V. Maletic M, Rajkovic S and Radulović M. (2026). MRI-based morphometric analysis of the patellofemoral joint: diagnostic modeling of knee pathologies in adolescents. Front. Artif. Intell., 9:1808422. https://doi.org/10.3389/frai.2026.1808422