“AI, 왜 그렇게 판단했어?”… 그 이유를 설명하는 똑똑한 알고리즘이 등장했다

AI의 생각, 사람도 이해할 수 있다! 'Interpretable AI'가 보여주는 IF-THEN 규칙 기반의 의사결정 흐름. 사람과 인공지능이 같은 논리 구조로 사고하며, 판단 이유를 직관적으로 공유할 수 있다.

이제는 우리 삶 곳곳에 스며든 인공지능(AI). 검색 결과 추천은 물론, 병원에서 환자의 질병을 진단하고, 법정에서 판결을 돕는 일까지 하고 있다. 그런데 문득 궁금해진다. “AI는 왜 그렇게 판단했을까?” 이 물음에 명쾌하게 답해줄 수 있는 기술, 즉 ‘설명 가능한 인공지능(Explainable AI, XAI)’이 점점 중요해지고 있다.

최근 공개된 한 논문에서는 바로 이 XAI를 다룬 새로운 기술이 소개됐다. 이름하여 "Interpretable by Design" (설계 단계부터 해석 가능한 모델). 기존의 ‘설명 가능한 모델’들이 대체로 복잡한 알고리즘 뒤에 설명 기능을 덧붙이는 방식이었다면, 이 모델은 애초부터 설명을 염두에 두고 설계되었다는 점에서 다르다. 게다가 최신 딥러닝 모델보다도 뛰어난 정확도를 자랑한다고 하니, 그야말로 ‘해석도 잘 되고 예측도 잘하는’ 두 마리 토끼를 잡은 셈이다.

---

AI 설명, 이제는 ‘선택’이 아니라 ‘필수’

AI가 점점 더 똑똑해질수록, 사람들은 “어떻게 그렇게 판단했는지”를 알고 싶어한다. 특히 의료, 금융, 자율주행처럼 생명이나 재산에 영향을 주는 분야에선 AI의 결정 과정을 투명하게 설명할 수 있어야 한다.

하지만 지금까지의 AI, 특히 딥러닝 모델은 일명 ‘블랙박스’에 가까웠다. 입력을 넣으면 정답은 나오는데, 중간 과정이 어떻게 이루어졌는지는 알 수 없었다. 그래서 연구자들은 다양한 방식으로 ‘사후 설명(post-hoc explanation)’ 기법을 개발해 왔다. 대표적인 예가 LIME, SHAP 같은 모델들이다. 그러나 이들 역시 본래 모델과 별도로 설명을 만들어내는 방식이라 정확성이나 신뢰성이 떨어질 수 있었다.

이 논문은 바로 이 문제를 정면으로 겨냥했다. “아예 처음부터 해석 가능한 구조로 AI를 설계하면 어떨까?” 그것이 바로 ‘Interpretable by Design’이라는 새로운 해법이다.

---

어떻게 설계했을까? ‘모듈형 결정 트리’로 접근

이 기술은 간단히 말해 “AI가 결정하는 과정 자체를 사람 눈에도 이해 가능한 구조로 만드는 것”이다. 구체적으로는 복잡한 신경망 대신, 모듈형 결정 트리(Modular Decision Sets) 형태의 모델을 사용한다.

이 방식은 ‘IF-THEN’ 규칙들의 조합으로 구성된다. 예를 들어 “만약 연령이 60세 이상이고, 혈압이 140 이상이면 고위험군이다” 같은 식이다. 각각의 규칙은 독립적으로 작동하며, 전체 모델은 이 규칙들의 조합으로 구성된다. 덕분에 모델이 어떤 판단을 내릴 때, 사람도 그 이유를 한눈에 파악할 수 있다.

놀라운 건, 이렇게 단순한 구조임에도 불구하고 성능이 매우 높다는 점이다. 실험 결과, 이 모델은 복잡한 블랙박스 AI보다도 더 높은 정확도를 보이는 경우도 있었고, 특히 의료, 재무, 교육 등의 실제 데이터셋에서 그 강점을 뚜렷하게 보여줬다.

---

예측도 정확하고, 설명도 쉬운 모델

실험은 총 12개의 공개 데이터셋에서 진행됐다. 비교 대상은 로지스틱 회귀, 랜덤 포레스트, 신경망 등 다양한 기존 AI 모델들이었고, 평가 항목은 정확도와 설명 가능성 두 가지였다.

그 결과는 흥미로웠다.

- Interpretable by Design 모델은 10개 이상 데이터셋에서 기존 설명 가능 모델보다 높은 정확도를 기록했다.

- 특히 설명 복잡성(설명 길이, 규칙 수 등)이 확연히 줄어들었다.

- 사용자가 각 규칙을 이해하는 데 걸리는 시간도 짧았고, 해석 정확도도 더 높았다.

다시 말해, 이 모델은 ‘설명을 잘하려다 성능을 포기한 모델’이 아니라, “성능과 설명력을 동시에 잡은 모델”이라는 평가를 받았다.

---

왜 중요한가? 신뢰할 수 있는 AI의 첫걸음

이 기술의 가장 큰 의의는 AI의 ‘신뢰성’을 높였다는 점이다. 실제 의료 현장에서 AI의 진단 결과를 그대로 믿고 따르기란 쉬운 일이 아니다. 하지만 모델이 “왜 그렇게 판단했는지”를 논리적으로 설명할 수 있다면 이야기가 달라진다. 환자도, 의사도 그 결정을 신뢰할 수 있기 때문이다.

또한, 법률적 투명성도 중요한 분야다. AI의 판정이 보험료 책정이나 대출 심사, 심지어는 형량 결정 등에 영향을 주는 상황에서, ‘설명할 수 없는 결정’은 받아들여지기 어렵다. 이 논문은 그런 의미에서 사회적으로도 매우 시의적절한 기술을 제안하고 있다.

---

다음 단계는?

물론 아직 완전한 해결책은 아니다. 이 모델이 가진 구조적 단순함은 해석력을 높여주지만, 그만큼 복잡한 패턴을 잡아내는 데는 한계가 있을 수 있다. 또, 데이터에 따라 규칙 수가 많아지면 오히려 해석이 어려워질 수 있다는 지적도 있다.

하지만 연구진은 이 한계를 극복하기 위해, 규칙 자동 축약 알고리즘, 사용자 맞춤형 시각화 도구 등을 차례로 개발하고 있다. 궁극적으로는 AI가 설명을 ‘직접 생성하는’ 시대로 진화할 것으로 보인다. 즉, 단순히 "왜 그런 판단을 했는지"를 넘어서, "당신이 이해하기 쉽게 설명해주는 AI"로의 발전이다.

---

출처 논문

Zhang, H., Valera, I., & Gomez-Rodriguez, M. (2024). Interpretable by Design: Learning Rules for Classification with Interpretable Structure. Artificial Intelligence, 328, 104078.