Layer-wise Scaled Gaussian Prior, Bayesian 신경망의 새로운 열쇠가 되다

 

베이지안 신경망이 부상하고 있지만 그 신경망을 학습시키는 것은 만만치 않은 것으로 알려져있다.

최근 머신러닝 분야에서는 '정확성'뿐만 아니라 '불확실성'까지 측정할 수 있는 방법이 주목받고 있다. 특히, 의료, 금융, 자율주행처럼 안전이 중요한 분야에서는 단순한 예측값이 아니라, 그 예측이 얼마나 신뢰할 만한지까지 아는 것이 필수적이다. 이런 이유로 '베이지안 신경망(Bayesian Neural Networks, BNN)'이 부상하고 있다.


하지만 베이지안 신경망을 학습시키는 과정은 결코 쉽지 않다. 특히 'Markov Chain Monte Carlo(MCMC)'라는 정교한 샘플링 기법을 사용할 때는 더욱 까다롭다. MCMC는 높은 정확성을 자랑하지만, 계산 비용이 많이 들고 학습이 느리다는 단점이 있었다.


이런 문제를 해결하기 위해 Devesh Jawla와 John Kelleher 연구팀은 한 가지 흥미로운 방법을 제안했다. 바로 "Layer-wise Scaled Gaussian Prior"를 적용하는 것이다. 이름만 보면 복잡해 보이지만, 사실 이 아이디어는 꽤 직관적이다. 신경망 각 층(layer)마다 적절히 조정된 분포를 주자는 것이다.


딥러닝과 베이지안 학습, 그리고 어려운 문제


기존 딥러닝은 가중치(weight)를 한 번만 최적화하는 방식이다. 반면, 베이지안 신경망은 가중치 하나하나를 확률 분포로 다룬다. 이론상으론 더 강력하고 안전한 모델을 만들 수 있지만, 실전에서는 '샘플링' 과정이 너무 느리고 불안정했다.


왜일까? 핵심은 '초기 분포(prior)' 설정이다. 전통적으로는 모든 가중치에 똑같은 분포(예: 평균 0, 분산 1의 정규분포)를 주는 'Isotropic Prior'를 사용해왔다. 그런데 이렇게 하면, 학습 초기에 가중치들이 지나치게 커지거나 작아져버려서 MCMC가 비효율적으로 동작할 수 있다.


Jawla와 Kelleher는 이 점을 간파했다. 그들은 "각 층마다 입력/출력 크기에 따라 분산을 조정하자"는 아이디어를 냈다. 딥러닝 초기화 기법(He 초기화, Glorot 초기화)처럼 말이다. 이것이 바로 "Layer-wise Scaled Gaussian Prior"다.


실험: 8개 데이터셋, 다양한 비교


연구팀은 총 8개의 데이터셋을 사용해 실험했다. 성인 소득 예측(Adult), 신용카드 사기 탐지(Credit Fraud), 뇌졸중 예측(Stroke Detection) 등 다양한 분야였다.


각 데이터셋에 대해 네 가지 Prior을 비교했다:


- Isotropic Gaussian (전통적인 방법)

- Isotropic Laplace (꼬리가 무거운 분포)

- Isotropic Cauchy (꼬리가 더 무거운 분포)

- Layer-wise Scaled Gaussian (새로운 방법)


성능은 예측 정확도뿐만 아니라, **샘플링 속도**와 **MCMC 수렴 지표**까지 모두 평가했다.


결과는 놀라웠다. 거의 모든 데이터셋에서, Layer-wise Scaled Gaussian Prior가 샘플링 속도와 효율성 면에서 압도적이었다. 심지어 예측 정확도도 떨어지지 않았다. 어떤 경우에는 오히려 더 나았다.


예를 들어, 성인 소득 데이터셋에서:

- 전통적 Gaussian Prior: 17초 소요

- Layer-wise Scaled Gaussian Prior: 단 5.8초 소요!


비슷한 추세는 다른 데이터셋에서도 나타났다.


'Cold Posterior Effect' 문제는?


딥러닝 연구자들이 최근 주목하는 문제 중 하나가 "Cold Posterior Effect(CPE)"다.


간단히 말하면, 신경망의 'posterior'(사후 분포)를 인위적으로 조작할 때, 성능이 오히려 좋아지는 이상 현상이다. 이는 베이지안 이론과 맞지 않기 때문에 큰 논란을 불러일으켰다.


Jawla와 Kelleher는 이 문제도 함께 분석했다.


재미있게도, MCMC 방식으로 학습한 베이지안 신경망에서는 CPE가 거의 나타나지 않았다. 특히, 소수 클래스 불균형 문제가 없는 데이터셋에서는 더욱 그랬다.


몇몇 다중 분류 데이터셋(예: Iris, Yeast)에서는 약간의 CPE가 나타났지만, 이 경우에도 "클래스 가중치(class-weighted likelihood)"를 사용하면 문제를 크게 완화할 수 있었다.


내부를 들여다보다: 활성화 분포 비교


연구팀은 신경망 내부까지 자세히 들여다봤다. 레이어별 뉴런들의 활성화 값 분포를 비교했다.


그 결과, Isotropic Prior를 쓰면 깊은 층으로 갈수록 활성화 분산이 급격히 커지거나 작아졌다. 이런 불균형이 MCMC 샘플링을 어렵게 만들었던 것이다.


반면, Layer-wise Scaled Gaussian Prior를 사용하면 활성화 분산이 각 층마다 고르게 유지됐다. 덕분에 MCMC 샘플링이 훨씬 안정적이고 빠르게 진행될 수 있었다.


"가중치 분포를 층마다 잘 조정해주면, 신경망 전체가 고르게 숨 쉬게 된다." 연구팀의 설명이다.


앞으로의 의미는?


이 연구는 단순한 '트릭' 이상의 의미를 가진다.


Bayesian Neural Network는 불확실성을 정량화할 수 있는 강력한 도구다. 하지만 실용화는 느린 학습 속도와 복잡성 때문에 지지부진했다.


Layer-wise Scaled Gaussian Prior는 이런 장애물을 상당 부분 제거할 수 있다. 기본 설정만 잘 해줘도, 복잡한 튜닝 없이 빠르고 안정적인 베이지안 신경망을 학습할 수 있게 된다.


특히, 의료, 금융, 항공우주 등 안전성이 중요한 분야에서 베이지안 딥러닝의 실용화를 앞당길 수 있을 것으로 기대된다.


연구팀은 마지막으로 이렇게 말했다.


"딥러닝이 빠르고 강력해진 비결이 좋은 초기화 방법 덕분이었듯, 베이지안 신경망에서도 좋은 Prior 설정이 성공의 열쇠가 될 것이다."


앞으로 Bayesian Neural Networks를 쓸 계획이 있다면, 이제는 'Layer-wise Scaled Gaussian Prior'를 기본값으로 삼아야 할 때다.


---

키워드

#BayesianNeuralNetwork #MCMC #GaussianPrior #딥러닝 #UncertaintyEstimation


---

출처 논문

-  마코프 체인 몬테카를로로 샘플링된 딥 베이지안 신경망을 위한 층별 스케일링 가우시안 프라이어

-  Layer wise Scaled Gaussian Priors for Markov Chain Monte Carlo Sampled deep Bayesian neural networks

- 저자: Devesh Jawla (Technological University Dublin) 외 1인

- 발행 일자: 2025년 4월 25일

- 저널 이름: Frontiers in Artificial Intelligence