짧은 수식으로 AI를 설명한다고? 논리로 푸는 ‘설명가능성’의 비밀

AI가 어떻게 결론을 내렸는지 설명해 달라는 건 이제 당연한 요구다. 하지만 정작 ‘설명가능성(Explainability)’이라는 단어는 너무 추상적이다. 이 논문은 그 막연함에 칼을 들이댔다. 논리와 수식 길이로 AI의 설명가능성을 정의한 것이다.

글로벌 설명과 로컬 설명

핵심은 두 가지다. 하나는 글로벌 설명(Global Explanation). 어떤 논리식이 있다면, 똑같은 의미를 갖되 더 짧은 식으로 바꿔보자는 거다. 예컨대 ¬¬¬¬p는 결국 p다. 똑같으면 굳이 부정을 네 번 쓸 필요가 있나?

다른 하나는 로컬 설명(Local Explanation)이다. 이는 특정 입력이 왜 그런 결과가 나왔는지, 그 입력에 딱 맞는 최소 수식을 찾는 것이다. 예를 들어 체스판 위에 퀸이 배치됐을 때 왜 이 배치가 가능한지, 왜 불가능한지, 그 이유를 가장 간단한 논리로 뽑아내는 식이다.

DNF만으로도 충분하다?

연구팀은 특히 명제 논리(Propositional Logic)에 집중했다. 흥미로운 점은 이 로컬 설명 문제의 복잡도가 ΣP₂-완전이라는 것. 이미 잘 알려진 DNF(Disjunctive Normal Form)로도 동일한 복잡도가 나온다는 게 핵심이다.

즉, 복잡한 로직을 풀어내는 데 꼭 거창한 구조가 필요 없다는 얘기다. DNF로도 충분하다!

구현은 어떻게?

이론만 멋지면 소용없다. 저자들은 이 설명 가능성을 실제로 구현했다. 바로 Answer Set Programming(ASP)이라는 논리 프로그래밍 기법을 썼다. ASP는 복잡한 논리 구조도 다룰 수 있어, 이번처럼 ΣP₂ 수준의 문제에도 잘 맞는다.

연구진은 이를 바탕으로 체스판의 n-Queens 문제나 그래프의 Dominating Set 문제를 실험했다. 복잡한 조합에서 왜 답이 되는지, 왜 답이 안 되는지 짧은 수식으로 설명해냈다.

블랙박스도 깐다

놀라운 건, 이렇게 짧은 수식을 이용해 블랙박스 모델도 해석할 수 있다는 점이다. 연구진은 카테고리가 여러 개인 블랙박스 분류기를 이 방법으로 분석했다. 결과적으로 어떤 입력이 어떤 결과로 연결되는지, 최소한의 논리로 추적할 수 있었다.

결국 중요한 건 ‘간결함’

기존에도 논리 기반 설명은 있었다. 하지만 이 논문은 글로벌/로컬/반사실(Counterfactual) 등 여러 설명 시나리오를 통합해, ‘최소 길이 수식’이라는 공통 기준으로 풀어낸 게 인상적이다.

AI의 해석 가능성은 이제 선택이 아니라 필수다. 데이터가 복잡해질수록, 설명은 짧을수록 좋다. 논리는 결국 AI의 마지막 언어가 될지 모른다.

출처 논문
Reijo Jaakkola, Tomi Janhunen, Antti Kuusisto, Masood Feyzbakhsh Rankooh, Miikka Vilander. (2025). Explainability via Short Formulas: the Case of Propositional Logic with Implementation. Journal of Artificial Intelligence Research, 83, Article 8. https://doi.org/10.1613/jair.1.17422