Layer-wise Scaled Gaussian Prior, Bayesian 신경망의 새로운 열쇠가 되다

베이지안 신경망이 부상하고 있지만 그 신경망을 학습시키는 것은 만만치 않은 것으로 알려져있다. 최근 머신러닝 분야에서는 '정확성'뿐만 아니라 '불확실성'까지 측정할 수 있는 방법이 주목받고 있다. 특히, 의료, 금융, 자율주행처럼 안전이 중요한 분야에서는 단순한 예측값이 아니라, 그 예측이 얼마나 신뢰할 만한지까지 아는 것이 필수적이다. 이런 이유로 '베이지안 신경망(Bayesian Neural Networks, BNN)'이 부상하고 있다. 하지만 베이지안 신경망을 학습시키는 과정은 결코 쉽지 않다. 특히 'Markov Chain Monte Carlo(MCMC)'라는 정교한 샘플링 기법을 사용할 때는 더욱 까다롭다. MCMC는 높은 정확성을 자랑하지만, 계산 비용이 많이 들고 학습이 느리다는 단점이 있었다. 이런 문제를 해결하기 위해 Devesh Jawla와 John Kelleher 연구팀은 한 가지 흥미로운 방법을 제안했다. 바로 "Layer-wise Scaled Gaussian Prior"를 적용하는 것이다. 이름만 보면 복잡해 보이지만, 사실 이 아이디어는 꽤 직관적이다. 신경망 각 층(layer)마다 적절히 조정된 분포를 주자는 것이다. 딥러닝과 베이지안 학습, 그리고 어려운 문제 기존 딥러닝은 가중치(weight)를 한 번만 최적화하는 방식이다. 반면, 베이지안 신경망은 가중치 하나하나를 확률 분포로 다룬다. 이론상으론 더 강력하고 안전한 모델을 만들 수 있지만, 실전에서는 '샘플링' 과정이 너무 느리고 불안정했다. 왜일까? 핵심은 '초기 분포(prior)' 설정이다. 전통적으로는 모든 가중치에 똑같은 분포(예: 평균 0, 분산 1의 정규분포)를 주는 'Isotropic Prior'를 사용해왔다. 그런데 이렇게 하면, 학습 초기에 가중치들이 지나치게 커지거나 작아져버려서 MCMC가 비효율적으로 동작할 수 있다. Jawla와 Kell...