인공지능(AI), 아직 귀코목 수술실 문턱을 넘지 못했다

 

이비인후과에선 AI가 갈길이 멀다.

"AI가 의료를 바꾼다"는 말, 이제는 낯설지 않다. 심장 판독부터 암 진단까지, AI는 이미 다양한 분야에서 그 역할을 입증하고 있다. 

그런데 이상하게도, 귀·코·목을 다루는 이비인후과(정확히는 '이비인후과-두경부외과', 이하 OHNS) 분야에서는 AI 기술이 아직 본격적으로 자리잡지 못하고 있다. 왜일까?

스탠퍼드와 존스홉킨스대 공동 연구팀은 이 질문에 답하기 위해 1996년부터 2023년까지 발표된 OHNS 분야 딥러닝 연구 3,236편을 조사했다. 이 중 실제 AI 모델을 개발하거나 평가한 논문 444편을 분석한 결과, 놀라운 사실이 드러났다. 

거의 모든 연구가 '개념 증명(proof-of-concept)' 단계에 머물러 있었고, 실제 임상 현장에서 검증된 연구는 단 한 편도 없었다는 것이다. AI가 넘지 못한 거대한 간극, 이른바 "AI 챔(AI chasm)"이 존재하고 있었다.


AI 논문은 많지만, 실제로 쓰이는 건 없다?

연구팀이 수집한 데이터에 따르면, 2012년부터 2022년까지 OHNS 분야의 AI 연구는 매년 기하급수적으로 증가했다. 미국, 중국, 한국을 포함해 48개국에서 논문이 쏟아졌고, 그 중 절반 이상은 의료진의 진단 능력을 보조하는 데 초점을 맞췄다. 사용된 데이터는 주로 영상 자료(55%)였고, 알고리즘은 대부분 이미지 분석에 강한 '합성곱 신경망(CNN)'이었다.

하지만 문제는 그다음 단계였다. 분석된 444편의 논문 중 무려 441편(99.3%)이 컴퓨터 시뮬레이션 수준의 '인실리코(in silico)' 연구였다. 실제 환자 데이터를 활용한 오프라인 검증이 이뤄진 논문은 3편(0.7%), 그리고 병원 현장에서의 임상시험은 단 한 편도 없었다. 말 그대로 '책상 위에서만 존재하는 AI'였다.


왜 이런 일이 벌어졌을까?

의료용 AI가 실제 환자에게 적용되기까지는 까다로운 검증 절차가 필요하다. 진단 정확도뿐 아니라 환자 안전, 윤리, 법적 책임까지 고려해야 하기 때문이다. 그러나 이번 리뷰에 따르면, OHNS 분야의 AI 연구자들은 이 '임상 적용'에 거의 발을 들이지 못하고 있었다.

보고서에 따르면, 444편 중 실제 평가 방법이 기술되지 않은 논문이 4편, 그리고 외부 데이터를 통한 테스트 없이 단순히 기존 데이터를 반복적으로 학습시키는 방식만 사용한 논문이 73편이나 됐다. 이는 AI 모델의 일반화 가능성을 제대로 판단할 수 없다는 뜻이다.

그뿐만이 아니다. 연구 결과를 표준화된 방식으로 보고하도록 돕는 '보고 가이드라인'을 사용한 논문은 전체의 5.4%에 불과했다. 가장 많이 사용된 STARD, TRIPOD, TREND, STROBE, CONSORT-AI 같은 가이드라인도 각기 다르게 쓰였다. 결국 연구의 신뢰성과 재현 가능성에도 의문이 생긴다.


"이제는 다음 단계로 나아가야 할 때"

연구팀은 이 AI 챔을 넘기 위한 몇 가지 제안을 내놨다. 첫째, 복잡하고 고위험한 진단보다는 비교적 단순하고 저위험인 업무에 AI를 먼저 적용하자는 것이다. 예를 들어, 진단 대신 의료 기록 정리, 환자 순서 정리(트리아지), 예약 관리 같은 반복적인 작업부터 자동화하는 것이다.

둘째, 연구 설계 단계부터 보고 가이드라인을 적극 도입해, 결과의 신뢰도를 높이자는 제안도 나왔다. 그래야만 다른 연구자들이 결과를 재현하거나 확장할 수 있다.

셋째, 소규모라도 실제 환자를 대상으로 한 임상 검증을 시도해보자는 것이다. 굳이 여러 병원을 연계하지 않더라도, 자기관련 병원에서 검증하는 '로컬 밸리데이션(local validation)'만으로도 의미 있는 시작이 될 수 있다.

그리고 마지막으로, AI 모델의 학습 데이터를 구성할 때 보다 정확한 '정답(label)'을 부여하는 것이 중요하다고 강조했다. 예컨대 음성 질환을 분류할 때 단순히 '이상 있음/없음'이 아니라, '성대 결절', '후두염'처럼 보다 구체적인 진단명이 있어야 AI가 더 정교해진다는 것이다.


단순한 기술 문제가 아니다

이번 리뷰는 OHNS 분야에 국한된 내용이지만, 실제로는 전반적인 의료 AI의 현실을 보여주는 축소판일지도 모른다. 아직 많은 AI 기술이 병원 문턱을 넘지 못하고 있다. 그 이유는 단순히 정확도가 부족해서가 아니다. 윤리, 안전, 비용, 법적 책임, 데이터 공유 문제까지 얽혀 있는 복합적인 문제다.

AI 기술이 의사들의 업무를 보조하고, 환자에게 더 나은 진료를 제공하려면 이제는 '그 다음 단계'로 넘어가야 한다. 환자와 의료진 모두가 믿고 쓸 수 있는 AI를 만들기 위해, 실험실 너머의 검증이 필요한 때다.

출처 논문: Liu, G. S. et al. Scoping review of deep learning research illuminates artificial intelligence chasm in otolaryngology-head and neck surgery. npj Digital Medicine 8, 265 (2025).