AI 형태측정에서 이상치 탐지의 중요성과 실전 적용: 비장 CT 데이터셋 사례

 



비정상적 관측값(outliers)과 이상(anomalies)은 AI 모델의 정확도와 신뢰성에 치명적 영향을 미친다. 특히 의료 영상에서 장기를 자동으로 측정하는 형태측정(morphometry) AI 개발 과정에서는 데이터셋의 품질 관리가 핵심이다. 이번 글에서는 모스크바 의료 기관에서 수집한 비장 CT 스캔 측정값을 대상으로 수행된 연구를 바탕으로, 이상치 탐지 방법론을 소개하고 독자적인 관점에서 비판적 해석과 실생활 응용 가능성을 제안한다.


서론: AI 형태측정과 데이터 품질의 상관관계

의료 AI 개발에서 ‘데이터셋 표준화’는 단순한 전처리를 넘어 모델 성능의 기본 토대가 된다. 연구팀은 2023년 4월부터 2024년 5월까지 모스크바 공공의료 시스템에서 수집된 총 197명(394개 측정치)의 비장 직경과 두께 데이터를 확보했다. 세 명의 전문 방사선과 의사가 각각 동일 수치를 측정해 라벨링을 수행했다. 하지만 수집 과정에서 측정 오류, 입력 실수, 비정상적 장기 형태 등이 뒤섞여 있었다. 이로 인해 AI 학습과 검증 단계에서 예기치 못한 오차가 발생할 위험이 컸다.

전통적 통계 기법(1.5 IQR, Z-점수, Grubbs 검사 등)과 시각화(boxplot, 히스토그램, 히트맵, 산점도), 고전적 머신러닝(Isolation Forest, DBSCAN, KNN, LOF, OSVM, EllipticEnvelope, 오토인코더)을 병행 적용했다. 그 결과 총 32개의 이상치·이상현상을 식별했다. 본문에서는 주요 탐지 기법별 특징과 한계, 그리고 이를 보완할 독창적 인사이트를 다룬다.

 

주요 방법론과 특징

 1) 전통 통계 및 시각화 기법

  • 박스플롯(Boxplot): 사분위 범위(IQR)의 1.5배를 넘는 값을 잠재적 이상치로 분류했다. 직경 150mm 이상, 50mm 이하가 주로 표시됐다.

  • 히스토그램(Histogram): 빈(bin) 설정에 따라 해석 차이가 크다. 연구진은 175mm 이상·50mm 이하를 이상치로 정의했다.

  • 히트맵(Heat Map): Z-점수를 색상으로 표현해 극단값을 시각화했다. 다만 대규모 데이터에서는 정확한 값 식별이 어렵다는 한계가 있었다.

  • 산점도(Scatter Plot): 직경과 두께를 함께 표시해 군집에서 벗어난 점을 발견했다. 그러나 입력 오류인지 진짜 비정형 장기인지 판별이 필요했다.

이들 방법은 빠르고 직관적이지만 임계값 설정이 연구자 주관에 크게 의존한다는 문제가 있다. 특히 히스토그램과 박스플롯은 비정상 분포를 가정하지 않아, 의료 데이터 특성을 반영하지 못할 때가 많다.

 

2) 머신러닝 기반 탐지 기법

  • OSVM(One-Class SVM): 전체 관측치를 ‘정상’으로 간주하고 경계면을 학습해 이상치를 분리했다. 총 16개 이상치 식별, 이 중 6개는 실제 장기 구조 이상이었다. 감도는 높았으나 결과 해석에 전문가 개입이 필수였다.

  • Isolation Forest: 랜덤 분할 과정을 통해 고립되기 쉬운 관측치를 이상치로 판정했다. 5건의 측정 오류와 4건의 장기 이상을 발견했다. 하지만 극단값 일부는 놓치는 경향이 있었다.

  • KNN/K-최근접 이웃: 거리 기반으로 이웃과의 거리가 먼 포인트를 이상치로 표시했다. 입력 오류 식별에 강점을 보였으나, 장기 형태 이상 검출에는 낮은 민감도를 보였다.

  • DBSCAN: 밀도 기반 클러스터링으로 소수점(노이즈)을 이상치로 간주했다. ε와 min_samples 설정에 따라 탐지 수가 크게 변했다.

  • EllipticEnvelope: 정규 분포를 가정한 등고선 방식을 활용했다. 데이터 분포가 크게 왜곡된 의료 측정치에는 적용이 제한적이었다.

  • Autoencoder(오토인코더): 입력 데이터 복원을 학습하고 복원 오차가 큰 포인트를 이상치로 간주했다. 20개 사례를 발견했고, 8개는 장기 구조 이상이었다. 다만 고도의 자원과 전문가 검토가 요구되었다.

  • LOF(Local Outlier Factor): 국소 밀도 차이를 이용해 이상치를 판별했으나, 과다 검출(99/197)로 실용성이 낮았다.

머신러닝 방법들은 통계 기법을 보완하며 숨겨진 패턴을 드러냈다. 특히 OSVM과 오토인코더는 장기 형태 이상(anomalies)을 잘 포착했으나, 해석 복잡도와 리소스 비용이 높았다.

 

비판적 시각과 응용 가능성

  1. LOF 과도 검출 문제

    • 밀도 기반 LOF는 소규모 데이터에서 과적합 경향이 강하다. ε-이웃 개수를 조정하거나 사전 필터링을 적용하면 실험적 성능을 개선할 수 있다.

  2. OSVM 해석의 어려움

    • 경계면 이론은 강력하지만, 어떤 특성이 이상치로 분류됐는지 파악하기 어렵다. 설명가능한 AI(XAI) 기법을 결합해 이상치 특징을 추출하는 연구가 필요하다.

  3. 오토인코더의 잠재력

    • 복원 오차 기반 이상치 탐지는 비정형 장기 형태를 감지하는 데 효과적이었다. 하지만 라벨링 비용과 검토 비용이 크다. 반자동 라벨링 툴을 개발해 방사선과 전문의의 검토 부담을 줄일 필요가 있다.

  4. 전이학습(Transfer Learning) 활용

    • 다른 장기나 해부학적 구조에도 유사한 이상치 분포가 존재한다. 비장 CT에서 학습한 모델을 간, 신장, 폐 형태측정에도 전이학습으로 적용하면 효율성을 높일 수 있다.

  5. 임상 적용과 워크플로우 통합

    • 이 연구 결과를 데이터 큐레이션 플랫폼에 통합해 라벨링 단계에서 실시간 이상치 알림 기능을 구현하면, 데이터 품질을 자동으로 관리할 수 있다.



결론: 통합적 접근의 필요성

의료 형태측정 AI 개발에서는 단일 기법에 의존하기보다 전통 통계, 시각화, 머신러닝을 결합한 ‘하이브리드’ 이상치 탐지 전략이 필수다. 특히 OSVM과 오토인코더는 실제 장기 형태 이상을 포착하는 데 강점을 보였으며, 박스플롯과 히스토그램은 초기 탐색에 유용했다. 향후 연구에서는 XAI 기반 이상치 해석, 전이학습 적용, 라벨링 자동화 툴 개발을 통해 AI 형태측정의 정확성과 효율성을 더욱 향상시킬 수 있을 것으로 기대한다.



참고문헌
Vasilev, Y., Pamova, A., Bobrovskaya, T., Vladzimirskyy, A., Omelyanskaya, O., Astapenko, E., Kruchinkin, A., Vladimir, N., & Arzamasov, K. (2025). Outliers and anomalies in training and testing datasets for AI-powered morphometry—evidence from CT scans of the spleen. Frontiers in Artificial Intelligence, 8:1607348. https://doi.org/10.3389/frai.2025.1607348