인공지능 기반 안저 사진을 활용한 녹내장 단계 분류: EfficientNetB7의 가능성과 한계

서론

녹내장은 전 세계적으로 돌이킬 수 없는 실명 원인 1위로 꼽힌다. 만성적으로 시신경이 손상되며, 초기에는 뚜렷한 증상이 없어 조기 발견이 까다롭다. 하지만 안저 사진(fundus photograph) 촬영 장비는 이미 당뇨망막병증 스크리닝 등에서 보편화되어 있어, 녹내장 선별(screening)에도 응용할 수 있는 잠재력이 크다.

최근 딥러닝 기술이 의료 영상 분석 분야에 빠르게 적용되면서, 특히 컨볼루션 신경망(CNN)을 활용한 녹내장 탐지가 주목받고 있다. 본 글에서는 Sukhumal Thanapaisal 외(2025)가 발표한 “Machine learning technology in the classification of glaucoma severity using fundus photographs” 논문을 바탕으로, 인공지능 모델 EfficientNetB7을 활용한 녹내장 단계 분류 연구를 소개하고, 그 의의와 한계, 그리고 향후 발전 방향을 독자 관점에서 깊이 있게 분석했다.

연구 배경과 목적

녹내장 선별의 필요성

녹내장은 2040년까지 전 세계 환자 수가 1억 1,180만 명에 이를 것으로 예측된다. 특히 자원 부족 지역에서는 시야 검사(visual field test)나 OCT 검사 장비를 갖추기 어려워 안저 사진만으로 녹내장 진단·단계를 구분할 수 있는 기술이 절실하다.

HPA 기준 기반 단계 분류

기존 연구들은 주로 시야 검사에서 산출되는 평균 결손(mean deviation, MD) 값만으로 녹내장 단계를 분류했지만, Hodapp-Parrish-Anderson(HPA) 기준은 MD 값 외에도 결함 개수와 중심 부위 근접성을 종합한다. 이 논문은 HPA 기준으로 정상(normal), 경증-중등도(mild-moderate), 중증(severe) 녹내장 단계를 안저 사진만으로 분류하는 모델을 개발한 점에서 차별화된다.

연구 방법

데이터셋 구성 및 라벨링

환자 수 1,789명, 안저 사진 2,940장 확보
시야 검사 결과와 6개월 이내 매칭하여 세 명의 녹내장 전문의가 HPA 기준으로 각 사진에 레이블 부여
합의되지 않은 사진은 제외하여 노이즈 최소화

모델 구조 및 학습 절차

베이스 모델: ImageNet에서 사전학습된 EfficientNetB7
전이학습 단계: 마지막 분류층만 학습 후, 전체 층 중 39%만 파인튜닝
입력 이미지 크기 224×224, 데이터 증강으로 수직·수평 뒤집기, 회전, 대비 조정 적용하여 과적합 방지

통계 분석과 검증

학습·검증·테스트 데이터셋 세 분할(10-fold 교차검증 포함)
성능 지표: 정확도(accuracy), AUC, 민감도(sensitivity), 특이도(specificity), F1 점수 등
최종 테스트 세트에서 0.871의 정확도, AUC는 클래스별로 정상 0.988, 경증-중등도 0.932, 중증 0.963 달성

연구 결과

모델 성능 평가

전체 테스트 세트 정확도 87.1%로, 임상 선별 도구로서 높은 가능성 입증

정상군에서 민감도 90.3%, 특이도 96.0%를 보여 오탐(false positive)이 드문 편

중증군에서도 민감도 88.7%, 특이도 93.6%로 긴급 치료가 필요한 환자 선별에 유용

오분류 사례 분석

중증→경증 판정: 컵-원반비(cup-to-disc ratio)는 크지만 시야 검사 결과가 과소 반영된 사례

경증→정상 판정: 미세한 시야 결함이 구조적 변화보다 먼저 나타난 경우

이처럼 구조(안저 사진)와 기능(시야 검사)의 비정합을 모델이 완전히 극복하지 못함을 확인

Grad-CAM 시각화

모델이 주로 시신경 유두(optic disc cupping) 부위를 강조하여 판별함을 확인

중증 이미지에서는 활성화 영역이 확산되어, 심층 특징 추출이 제한적일 수 있음을 시사

고찰 및 비판적 해석

연구의 의의

자원 부족 환경에서 안저 사진만으로 녹내장 단계를 구분할 수 있는 기술적 초석 마련

HPA 기준을 적용하여 임상 실무와 직결된 분류 모델이라는 점이 신선하다

한계와 개선 과제

경증·중등도 병합: 중증 이외 클래스가 경증과 중등도로 나뉘지 않아, 임상적 세분화가 부족하다. 향후 충분한 데이터 확보 시 4단계 분류 모델 개발이 필요하다.
다기관·다인종 검증 부족: 본 연구는 태국 지역 단일 기관 데이터이므로, 조명 조건·인종 간 차이로 인한 도메인 시프트(domain shift) 위험성이 있다. 글로벌 코호트로 외부 검증을 권장한다.
단일 모달리티 의존: OCT, 시야 검사 등 멀티모달 융합 모델이 성능 향상에 유리하므로, 향후 멀티모달 딥러닝 구조를 탐색할 필요가 있다.
해석 가능성 보완: Grad-CAM 외에도 개별 뉴런 중요도를 정량화할 수 있는 방법을 적용하면, 의료진 신뢰도를 높일 수 있다.

응용 가능성과 미래 전망

원격의료(tele-ophthalmology): 클라우드 기반 AI 선별 시스템으로 농어촌 보건소에 설치된 안저 카메라와 연동

스마트폰 확장: 휴대용 렌즈 어댑터와 모바일 앱을 결합해, 절차 간소화 및 비용 절감

의료 워크플로우 통합: 당뇨망막병증 스크리닝 시스템에 녹내장 판독 알고리즘을 추가하여 다중 질환 동시 관리

개인적으로는 경증·중등도 간 뚜렷한 임상 차이를 반영한 세분화가 향후 환자 맞춤형 모니터링, 치료 결정에 핵심적이라고 본다. 또한, 환자 데이터 프라이버시를 보장하면서도 대규모 인공 지능 모델을 서비스화할 수 있는 Federated Learning 접근법도 연구해볼 만하다.

결론

본 연구는 EfficientNetB7을 활용해 안저 사진만으로 녹내장 단계를 분류하는 딥러닝 모델을 제안했다. 테스트 세트에서 우수한 정확도와 민감도를 보였으며, 자원 제약 지역의 녹내장 선별 도구로써 높은 잠재력을 확인했다. 다만 경증·중등도 세분화, 다기관 검증, 멀티모달 융합 등의 개선 과제가 남아 있다. 이러한 발전 과제를 해결한다면, 인공지능 기반 녹내장 스크리닝 기술이 실제 임상에 폭넓게 도입될 수 있을 것이다.

출처논문:
Thanapaisal, S., Uttakit, P., Ittharat, W., Suvannachart, P., Supasai, P., Polpinit, P., Sirikarn, P., & Hanpinitsak, P. (2025). Machine learning technology in the classification of glaucoma severity using fundus photographs. Scientific Reports, 15, 26151. https://doi.org/10.1038/s41598-025-11697-1