딥 트랜스포머와 전통 ML 기법을 활용한 다단계 우울증 심각도 검출
서론: 온라인 글로 우울증 단계를 가늠하다
우울증은 전 세계적으로 가장 흔한 정신건강 문제 중 하나다. 전통적으로는 임상 면담과 질문지를 통해 진단했지만, 온라인에서 자가 표현하는 글만으로도 심각도를 파악할 수 있다면 훨씬 확장성 있는 모니터링이 가능하다. 본 연구는 Reddit의 정신건강 서브레딧에서 수집한 게시글을 최소(minimum), 경증(mild), 중등도(moderate), 중증(severe) 네 단계로 자동 분류하는 프레임워크를 제안했다.
연구 배경과 목표
다단계 분류의 필요성
- 이전 연구는 주로 우울증 유무를 이진 분류했다.
- 심각도 단계를 세분화하면 개별화된 개입 시점을 더 정확히 잡을 수 있다.
- 임상 기준(PHQ-9, DSM-5)에 맞춰 네 단계로 구분해 실용성을 높였다.
전통 ML vs. 딥 트랜스포머
클래식 ML과 Word2Vec·GloVe 같은 정적 임베딩 기법으로 시작해, XGBoost 등 10가지 모델을 비교했다. 한편 딥 트랜스포머 계열 모델 10종(BERT, RoBERTa 계열, MentalBERT 등)을 파인튜닝해 성능을 평가했다.
데이터와 전처리
- 서브레딧: r/depression, r/SuicideWatch, r/mentalhealth 등 10개 채널
- 기간: 2019년 1월~2023년 12월, 총 9,841개 게시글
- 레이블링: PHQ-9·DSM-5 기준으로 최소·경증·중등도·중증 네 단계
- 전처리: 소문자 변환, URL·멘션·해시태그 제거, 불용어 제거, 토큰화
- 데이터 분할: 학습 80%, 검증 10%, 테스트 10% (층화 샘플링)
방법론
전통 머신러닝 파이프라인
- 정적 임베딩: Word2Vec, GloVe
- 모델: Logistic Regression, SVM, Naive Bayes, Random Forest, XGBoost, Gradient Boosting, K-NN, Decision Tree, AdaBoost, Extra Trees
- 클래스 불균형 해결: 학습 시 가중치 균형(class_weight=‘balanced’)
- 하이퍼파라미터: GridSearchCV(5-겹 교차검증)
딥 트랜스포머 파이프라인
- 모델: BERT, RoBERTa, XLM-RoBERTa, MentalBERT, BioBERT, RoBERTa-large, DistilBERT, DeBERTa, Longformer, ALBERT
- 설정: 학습률 2e-5, 배치 크기 16, 시퀀스 길이 최대 256, 에폭 4, AdamW 옵티마이저, 얼리 스토핑
- 분류 헤드: 드롭아웃 + 소프트맥스
주요 결과
전통 ML 결과
GloVe 임베딩을 사용할 때 XGBoost가 최고 F1-score 94.01%를 기록했다:contentReference[oaicite:1]{index=1}. SVM(91.67%)과 Random Forest(89.45%)가 뒤를 이었다.
딥 트랜스포머 결과
도메인 특화 모델인 MentalBERT가 최고 F1-score 97.30%를 달성했다. 그다음으로 RoBERTa(96.27%)와 RoBERTa-large(96.14%)가 우수한 성능을 보였다:contentReference[oaicite:2]{index=2}.
해석과 시사점
- 도메인 특화 사전학습의 힘
MentalBERT는 정신건강 관련 게시글로만 사전학습해, “절망” “자해” 같은 단어 맥락을 더 민감히 포착했다. 이로써 경증과 중증을 더 명확히 구분할 수 있었다. - 경량 모델의 활용 가능성
DistilBERT와 ALBERT도 95%대 F1-score를 보여, 엣지 디바이스나 모바일 환경에서 실시간 모니터링 도구로 활용 가능하다. - 클래스 불균형 해결 전략
가중치 조정만으로도 소수 클래스(중증) 예측력을 크게 개선했다. 이후 SMOTE 등 오버샘플링과 비교 연구가 필요하다. - 다중 모달 확장 제언
텍스트뿐 아니라 음성·표정·사용자 메타데이터를 결합한 멀티모달 모델로 보강하면, 초기 경고 시스템으로 더 강력한 예측이 가능할 것이다.
비판적 시각과 한계
- 데이터 출처가 Reddit에 한정돼 있어 일반 사용자의 글로 확장성 검증이 필요하다.
- 후향적 레이블링으로 인과관계보다는 상관관계 분석에 그친다.
- 긴 게시글(2,000자 이상)은 최대 256토큰으로 자른 뒤 학습해, 일부 맥락 손실이 발생할 수 있다.
향후 연구 방향
- 오디오·비디오·텍스트 결합한 멀티모달 학습 프레임워크 개발
- 사용자 타임라인 추적 기반 시계열 모델로 우울증 변화 예측
- 설명 가능 AI(XAI) 도입으로 모델 예측 근거 제공
- 플랫폼 간(트위터, 페이스북) 크로스-도메인 일반화 검증
결론
본 연구는 Reddit 게시글을 대상으로 전통 ML과 딥 트랜스포머를 비교·벤치마킹해, 다단계 우울증 심각도 검출이 가능함을 보였다. XGBoost(94.01%)와 MentalBERT(97.30%) 성능 차이에서 알 수 있듯, 도메인 특화 사전학습과 의미론적 임베딩이 우울증 단계 분류의 핵심 요소다. 향후 멀티모달 확장과 설명 가능성 연구를 통해, 실제 임상 및 서비스에 적용할 로드맵을 완성할 필요가 있다.
출처논문:
Hussain, N., Qasim, A., Mehak, G., Zain, M., Sidorov, G., Gelbukh, A., & Kolesnikova, O. (2025). Multi-Level Depression Severity Detection with Deep Transformers and Enhanced Machine Learning Techniques. AI, 6(7), Article 157. https://doi.org/10.3390/ai6070157