AI, 위험 관리 기술 EvC 소개

불확실성과 위험이 가득한 환경 속에서, 인공지능이 최악의 상황까지 계산하며 신중하게 한 걸음씩 나아가는 모습을 상징적으로 보여준다

"실패하면 끝장이다!" 인공지능이 '돌다리도 두드려보고' 건너는 법: 새로운 위험 관리 기술 EvC의 탄생

인간은 경험을 통해 배운다. 뜨거운 냄비에 데어본 아이는 다음부터 냄비를 조심스럽게 다룬다. 하지만 만약 단 한 번의 실수가 돌이킬 수 없는 재앙을 불러온다면 어떨까? 수술 로봇이 단 한 번의 가위질을 잘못하거나, 자율주행 자동차가 보행자를 인식하지 못해 사고를 내는 경우를 상상해보라. 이런 상황에서 인공지능(AI)에게 "일단 부딪혀보며 배워라"라고 말할 수는 없는 노릇이다. 그래서 과학자들은 AI가 실제로 일을 시작하기 전에, 이미 가지고 있는 데이터를 바탕으로 가장 안전하고 똑똑한 선택을 내릴 수 있는 방법을 연구해왔다. 최근 발표된 한 논문은 인공지능이 불확실한 상황에서도 위험을 획기적으로 줄이며 최선의 결정을 내릴 수 있게 돕는 'EvC(Exploitation vs Caution, 활용 대 주의)'라는 혁신적인 방법을 제시했다.

인공지능의 고민: 아는 길로만 갈까, 아니면 모험을 해볼까?

연구진은 먼저 인공지능이 처한 딜레마를 분석했다. 기존의 인공지능 학습 방식 중 하나인 '오프라인 강화학습'은 이미 모아둔 데이터를 공부해서 최고의 전략을 짜는 방식이다. 문제는 데이터가 항상 완벽하지 않다는 점이다. 데이터에 없는 새로운 상황이 닥치면 인공지능은 당황하기 마련이다. 이때 인공지능은 두 가지 선택지 사이에서 고민한다. 하나는 내가 배운 대로 밀어붙이는 '활용(Exploitation)'이고, 다른 하나는 혹시 모를 위험에 대비해 조심하는 '주의(Caution)'다.

연구진은 이 두 가지 사이의 균형을 맞추기 위해 '베이지안 마르코프 결정 과정(Bayesian MDP)'이라는 복잡한 수학적 틀을 가져왔다. 쉽게 말해, 인공지능이 "내가 지금 배운 모델이 100% 맞지 않을 수도 있어"라는 의심을 품게 만든 것이다. 그리고 이 의심을 바탕으로 수많은 가상의 미래 시나리오를 그려보게 했다. "만약 세상이 이렇게 돌아간다면 내 전략은 안전할까?"라고 끊임없이 자문하는 과정인 셈이다.

연구의 핵심: 위험을 숫자로 계산하는 인공지능의 '안전 제일' 전략

이번 연구의 핵심인 EvC 알고리즘은 단순히 평균 점수가 높은 전략을 고르지 않는다. 대신 '최악의 상황'에서도 얼마나 잘 버티는지를 계산한다. 이를 위해 연구진은 금융계에서 투자 위험을 관리할 때 쓰는 'VaR(Value at Risk)'와 'CVaR(Conditional Value at Risk)'라는 개념을 도입했다.

예를 들어, 어떤 전략 A는 평균적으로 90점을 받지만 운이 나쁘면 0점을 받을 수도 있다. 반면 전략 B는 평균은 80점이지만 아무리 운이 없어도 70점은 유지한다. 기존 인공지능은 90점짜리 A를 골랐겠지만, EvC는 위험을 고려해 70점을 보장하는 B를 선택한다. 연구진은 MC2PS(Monte Carlo Confident Policy Selection)라는 방법을 통해 수천, 수만 번의 시뮬레이션을 돌려 각 전략이 가질 수 있는 최악의 점수를 아주 정밀하게 예측해냈다.

아래 표는 이번 연구에서 제안한 EvC 방법과 기존 방법들이 어떻게 다른지를 한눈에 보여준다.

구분	기존 방법 (예: UnO)	새로운 방법 (EvC)
주요 목표	평균적인 성능 극대화	불확실성 속 위험 최소화
위험 측정	샘플의 평균과 분산 고려	최악의 상황(하위 5% 등) 집중 분석
데이터 활용	주어진 데이터에만 의존	데이터 이면의 다양한 모델 시뮬레이션
안전성	예기치 못한 실패 가능성 있음	확률적으로 안전성 보장

인공지능이 우리 삶에 더 안전하게 들어오기 위한 이정표

이 연구의 결론은 명확하다. 인공지능이 현실 세계, 특히 생명이나 안전과 직결된 분야에 투입되려면 '성능'보다 '신뢰'와 '안전'이 우선되어야 한다는 것이다. EvC 알고리즘은 간단한 가상 환경 실험에서 기존의 그 어떤 방법보다도 안정적으로 최선의 정책을 골라내는 데 성공했다. 특히 결정이 한 번 내려지면 바꿀 수 없는 '오프라인' 환경에서 이 방법의 가치는 더욱 빛난다.

연구진은 이 기술이 앞으로 자율주행차의 경로 선택, 환자의 상태를 고려한 의료 로봇의 수술 보조, 혹은 변동성이 큰 금융 시장의 자산 운용 등 다양한 분야에서 AI의 '안전핀' 역할을 할 것으로 기대하고 있다. 인공지능이 똑똑한 것을 넘어 '신중함'까지 갖추게 된다면, 우리는 더 안심하고 미래 기술의 혜택을 누릴 수 있지 않을까? 이번 연구는 인공지능이 진정한 인간의 파트너로 거듭나기 위한 중요한 한 걸음을 내디뎠다고 평가받는다.

출처: Angelotti, G., Drougard, N., & Chanel, C. P. C. (2026). An Offline Risk-aware Policy Selection Method for Bayesian Markov Decision Processes. Artificial Intelligence, 104519. https://doi.org/10.1016/j.artint.2026.104519