SHAP의 계산 부담을 줄이는 새로운 해법, Slovin's Formula의 등장 - 해석 가능한 AI의 진화를 이끄는 저비용 전략
들어가며: 해석 가능한 AI(XAI)의 중요성과 SHAP의 딜레마
인공지능이 의료, 금융, 법률 등 민감한 영역에 깊숙이 침투함에 따라, '왜 이 결정이 나왔는가'를 설명할 수 있는 해석 가능성(Explainability)의 중요성은 갈수록 커지고 있다. 특히 블랙박스 모델에 대한 신뢰와 투명성을 확보하기 위한 기술로 SHAP(SHapley Additive exPlanations)는 가장 널리 사용되는 도구 중 하나다. 하지만 SHAP은 이론적으로 강력한 만큼, 계산 비용이 매우 크다는 치명적인 약점을 가지고 있다. 이는 특히 데이터가 방대하거나 실시간 처리 요구가 있는 환경에서는 치명적이다.
이러한 상황에서 독일 뉘른베르크 협동조합 연구소의 Severin Bachmann은 SHAP의 계산 비용을 획기적으로 줄이면서도 해석 가능성을 유지할 수 있는 흥미로운 대안을 제시했다. 바로 Slovin's formula를 활용한 저비용 데이터 축소 방식이다.
Slovin's Formula란 무엇인가?
Slovin's formula는 본래 설문 조사나 사회과학 연구에서 샘플 크기를 추정할 때 사용되는 통계적 기법이다. 인구 전체 수(N)와 허용 오차(e)만을 기준으로 적절한 샘플 크기(n)를 계산할 수 있어, 데이터에 대한 사전 지식 없이도 사용이 가능하다는 특징을 지닌다.
수식은 다음과 같다:
n = N / (1 + N * e^2)
Slovin's formula는 그 단순함 때문에 과학적으로 논란이 있기도 하지만, 복잡한 통계적 전처리 없이도 빠르게 샘플을 구성할 수 있다는 실용성이 강점이다.
이 연구의 핵심: Slovin's formula를 SHAP 계산에 적용하다
논문의 중심은 Slovin's formula를 SHAP 해석 과정에 적용해, 전체 데이터셋이 아닌 샘플 데이터에 대해서만 SHAP 값을 계산하는 방식을 제안한 것이다. 기존의 차원 축소나 특성 선택 방법과 달리, 이 방식은 데이터 구조를 변경하지 않고도 계산량을 줄일 수 있다는 점에서 획기적이다.
흥미롭게도 실험 결과, 중간 수준의 SHAP 값을 가진 특성들은 축소 샘플에서도 높은 안정성을 유지하는 반면, 상위 혹은 하위 랭크의 특성들은 더 큰 변동성을 보였다. 특히, 범주형 특성이나 비왜곡된 분포를 가진 데이터는 더욱 견고한 SHAP 값을 유지했고, 반대로 타깃 변수가 치우친 분포(예: 포아송, 지수 분포)를 가질 경우 SHAP 값의 불안정성이 커졌다.
데이터 크기의 영향과 5% 룰의 발견
Slovin's formula를 통해 생성된 샘플 크기는 데이터셋이 커질수록 원본 대비 상대적으로 작아진다. 예를 들어, 10만 개의 샘플을 가진 데이터셋에서는 Slovin 방식으로 추출된 샘플이 전체의 2.4% 수준에 그쳤다.
중요한 발견 중 하나는, 샘플/원본 비율이 5% 이하로 떨어질 경우 SHAP 값의 안정성이 급격히 감소한다는 점이다. 이로 인해 Slovin 방식은 소형 또는 중형 데이터셋에는 적합하지만, 대규모 데이터에는 제한적으로 활용해야 한다는 교훈을 준다.
SHAP을 상대적 지표로 활용한 점의 독창성
연구에서 SHAP 값을 절대값이 아닌 상대값(Relative SHAP Value)으로 계산한 방식도 주목할 만하다. 이는 각 특성의 중요도를 전체 특성의 SHAP 합계에 대한 비율로 계산하는 방식으로, 분포나 척도의 차이에 따른 왜곡을 줄이는 효과를 발휘한다. 이 방식은 특히 다양한 데이터 유형과 분포를 실험하는 이번 연구에서 SHAP의 해석력을 더욱 정밀하게 평가할 수 있는 기반이 되었다.
비판적 고찰과 적용 가능성
이 연구는 Slovin's formula의 기존 한계를 정면으로 반박하며, 단순한 도구라도 맥락에 따라 강력한 해결책이 될 수 있음을 보여주었다. 특히 계산 자원이 부족한 스타트업, 중소기업, 연구자들에게 SHAP을 보다 효율적으로 활용할 수 있는 방법론을 제시했다는 점에서 의미가 크다.
다만 아쉬운 점은, 이 연구가 전적으로 합성 데이터(synthetic data)에 기반했다는 것이다. 현실의 복잡성과 노이즈를 충분히 반영하지 못했을 수 있으며, 현실 데이터에 대한 후속 검증 연구가 필요하다. 또한 SHAP 값 자체의 분산이 특정 구조의 데이터에선 왜곡될 수 있기에, 다른 XAI 기법과의 비교도 필요해 보인다.
마무리: 지속 가능한 XAI를 위한 실용적 돌파구
Severin Bachmann의 이번 연구는 해석 가능성과 계산 효율성이라는, 때로는 상충하는 두 가치를 조화시키려는 지속 가능한 AI(Sustainable AI)의 노력의 일환이다. Slovin's formula라는 단순한 공식을 통해, SHAP이라는 복잡한 기법의 실용성을 크게 높였다는 점은 많은 시사점을 던진다.
특히 자원 제약 환경에서도 고품질의 해석을 제공하고자 하는 다양한 산업 및 연구 현장에서, 이러한 저비용 샘플링 기반 XAI 전략은 널리 활용될 수 있는 잠재력을 지닌다.
향후 연구에서는 현실 데이터셋을 기반으로 한 실증적 검증, 다양한 분포/특성 수 조합에 따른 SHAP의 안정성 테스트, 다른 XAI 기법과의 하이브리드 조합 가능성 등을 다루어야 할 것이다.
그럴 때 비로소, 해석 가능성과 효율성의 진정한 균형을 갖춘 XAI의 새로운 패러다임이 열릴 것이다.
출처: Bachmann, S. (2025). Efficient XAI: A Low-Cost Data Reduction Approach to SHAP Interpretability. Journal of Artificial Intelligence Research, 83(2). https://doi.org/10.1613/jair.1.18325