AI의 예측 가능성, 안전의 열쇠

인공지능의 배신, 어떻게 막을까? 성능보다 더 중요한 '예측 가능성'의 모든 것

우리는 지금 인공지능(AI)과 함께 살아가는 시대를 살고 있다. 자율주행 자동차가 도로를 달리고, 챗봇이 내 숙제를 도와주며, AI가 병을 진단하기도 한다. 그런데 여기서 아주 중요한 질문이 하나 있다.

"이 AI가 언제, 어디서 실수할지 우리는 미리 알 수 있을까?"

지금까지의 AI 연구는 주로 '성능'에만 집착했다. 얼마나 더 정확한지, 얼마나 더 똑똑한지를 겨뤘다. 하지만 아무리 성능이 좋아도, 언제 사고를 낼지 모르는 자율주행 차에 내 아이를 태울 수 있을까?

최근 발표된 한 논문은 우리가 이제 성능이 아닌 '예측 가능한 AI(Predictable AI)'에 집중해야 한다고 강력하게 경고하고 있다.

완벽하지 않아도 괜찮다, 다만 '언제 틀릴지' 알려다오

이 연구의 핵심은 아주 단순하면서도 파격적이다. AI가 100% 완벽할 필요는 없다는 것이다. 대신, 그 AI가 어떤 상황에서 성공하고 어떤 상황에서 실패할지를 우리가 정확하게 예측할 수만 있다면, 그 AI는 충분히 안전하고 가치 있게 쓰일 수 있다는 논리다.

예를 들어보자. 안개가 자욱하고 길이 구불구불한 산길을 달리는 자율주행 로봇이 있다고 치자. 이 로봇의 전체 성공률은 60%밖에 안 될 수도 있다.

하지만 우리가 "이 로봇은 안개가 낀 날에는 90% 확률로 사고를 내지만, 맑은 날에는 100% 안전하다"는 것을 미리 안다면 어떨까?

우리는 맑은 날에만 로봇을 쓰면 된다. 이것이 바로 '예측 가능성'의 힘이다. 반대로 평균 성공률이 99%인 AI라도, 언제 그 1%의 치명적인 실수를 할지 모른다면 우리는 불안해서 그 시스템을 믿고 쓸 수 없다.

AI의 속마음을 꿰뚫어 보는 법: '예측 가능성'의 공식

연구진은 AI가 얼마나 예측 가능한지를 측정하기 위해 새로운 틀을 제시했다. 여기에는 크게 두 가지 종류의 불확실성이 등장한다.

첫째는 '운이 나빠서' 발생하는 어쩔 수 없는 불확실성(알레아토리 불확실성)이고,

둘째는 '우리가 몰라서' 생기는 줄일 수 있는 불확실성(에피스테믹 불확실성)이다.

논문은 흥미로운 실험 데이터를 통해 이를 증명했다. 아래 표는 챗봇(LLM)이 고객 문의를 5개의 부서로 분류할 때, 그 결과가 얼마나 예측 가능한지를 보여준다.

시스템 종류	행동 패턴	예상 정확도 (V)	예측 가능성 (P)
똑똑이 AI	언제나 정답만 말함	1.00 (100%)	1.00 (완벽 예측)
바보 AI	언제나 틀린 답만 말함	0.00 (0%)	1.00 (완벽 예측)
고집쟁이 AI	정답이든 아니든 한 곳으로만 보냄	0.15 (15%)	0.70 (높음)
변덕쟁이 AI	아무렇게나 무작위로 보냄	0.20 (20%)	0.20 (매우 낮음)

여기서 놀라운 점은 무엇인가?

언제나 틀리기만 하는 '바보 AI'도 예측 가능성만큼은 100점이라는 사실이다! 왜냐하면 우리는 이 녀석이 틀릴 거라는 걸 뻔히 알기 때문에, 아예 일을 시키지 않거나 대비를 할 수 있기 때문이다.

진짜 위험한 녀석은 성능이 중간쯤 되면서도 언제 틀릴지 종잡을 수 없는 '변덕쟁이 AI'다.

초등학생도 할 수 있는 AI 감시하기

이 논문은 AI를 더 잘 예측하기 위한 세 가지 방법을 소개한다.

첫째는 사람이 직접 AI의 난이도를 평가하는 것이다. 연구에 따르면, 사람들은 AI가 어떤 문제를 어려워할지 어느 정도 짐작할 수 있다.

둘째는 AI 스스로 자신의 정답 확률을 계산하게 하는 것이고, 마지막 세 번째는 '감시자 AI'를 따로 두어 메인 AI를 평가하게 하는 것이다.

특히 '감시자 AI'는 비용 절감에도 큰 도움을 준다. 메인 AI를 실제로 돌려보기 전에 "이 문제는 네가 풀기 너무 어려워 보여"라고 미리 걸러낼 수 있기 때문이다. 실제로 연구진은 이 방법을 통해 AI의 실패 중 약 46%를 미리 막아내는 데 성공했다.

이제는 성능보다 '믿음'의 시대로

결국 예측 가능한 AI는 우리에게 '통제권'을 돌려준다. AI가 언제 멈출지, 언제 사람이 개입해야 할지를 명확히 알 수 있다면 우리는 AI를 더 깊이 신뢰할 수 있다. 이것은 단순히 기술적인 문제를 넘어, AI 사고에 대한 책임(Liability)을 누가 질 것인지, 그리고 AI가 인간의 의도에 맞게 행동하는지(Alignment)를 결정하는 아주 중요한 열쇠가 된다.

앞으로의 AI는 단순히 '똑똑한 녀석'에서 '우리가 충분히 예상할 수 있는 녀석'으로 진화해야 한다. 그래야만 우리는 AI라는 강력한 도구를 두려움 없이, 우리 삶의 진정한 동반자로 받아들일 수 있을 것이다.

출처:
Zhou, L., Casares, P. A. M., Martínez-Plumed, F., Burden, J., Burnell, R., Cheke, L., Ferri, C., Marcoci, A., Mehrbakhsh, B., Moros-Daval, Y., Ó hÉigeartaigh, S., Rutar, D., Schellaert, W., Voudouris, K., & Hernández-Orallo, J. (2026). Predictable artificial intelligence. Artificial Intelligence, 353, 104491. https://doi.org/10.1016/j.artint.2026.104491