위기 상황에서도 끄떡없는 전력망, 그 비밀은 AI가 배운 복원력에 있다
AI가 복원력을 학습하는 순간 |
미국 국립재생에너지연구소, 강화학습 통해 ‘적응형 복원력 지표’ 만드는 신기술 개발
사이버 공격이 전력망을 마비시키는 일이 현실이 됐다. 드문 일이지만, 한 번 발생하면 재앙으로 이어진다. 과연 어떻게 대비할 수 있을까?
미국 국립재생에너지연구소(NREL)의 연구진이 제시한 해법은 의외로 간단하다. “그냥 AI에게 복원력을 배우게 하자”는 것이다. 하지만 단순한 인공지능이 아니다. 이번에 등장한 기술은 “ARM-IRL”, 즉 ‘역강화학습을 활용한 적응형 복원력 지표 학습(Adaptive Resilience Metric via Inverse Reinforcement Learning)’이다.
말이 복잡해 보이지만 핵심은 하나다. 기계가 전문가의 판단을 보고 ‘무엇이 복원력 있는 행동인지’ 스스로 배운다.
---
왜 ‘복원력’을 AI에게 가르치려 하나?
복원력(Resilience)은 시스템이 위협을 얼마나 잘 견디고, 얼마나 빨리 회복하느냐를 뜻한다. 전력망에서는 송전선 단절, 자연재해, 사이버 공격 등 어떤 상황에서도 핵심 전력을 어떻게든 다시 공급하는 능력이다.
문제는 지금까지 쓰이던 복원력 지표들이 대부분 정적(static)이라는 점이다. 예를 들어 송전선 몇 개가 나갔는지, 평균 복구 시간이 얼마나 되는지 같은 정보는 사건이 끝난 뒤에야 알 수 있다. 실시간 대응에는 한계가 있다.
게다가 ‘복원력’은 복합적 개념이다. 빠른 응답, 낮은 비용, 적은 피해, 높은 회복 속도… 이 모든 걸 종합해야 한다. 이를 수학적으로 수치화하기란 여간 어려운 일이 아니다.
---
역강화학습(IRL), 복원력 지표를 자동으로 배우다
연구진은 문제를 뒤집었다.
‘이런 상황에서 전문가라면 어떻게 행동할까?’
그걸 보고 AI가 어떤 행동이 좋은지 판단할 기준(보상 함수)를 스스로 배우는 것이다.
이 방식을 역강화학습(IRL)이라고 부른다. 기존 강화학습은 보상 함수가 정해진 상태에서 최적 행동을 찾는다. 반면 IRL은 전문가의 행동을 보고 보상 함수 자체를 유추한다.
ARM-IRL은 이 방식을 활용해 상황에 따라 달라지는 복원력 지표를 학습한다. 그리고 이를 기반으로 어떤 행동이 ‘복원력이 높은’ 행동인지를 판단하게 된다.
---
세 가지 시나리오, 실제로 실험해봤다
연구진은 다음 세 가지 상황을 가정해 실험을 진행했다.
1. 사이버 공격으로 네트워크가 마비될 때 통신 경로 재설정 (MDP 1)
스마트미터가 보내는 데이터를 우회 경로로 보내야 하는 문제다.
목표는 가능한 빠르게, 안전하게 데이터가 도착하도록 경로를 바꾸는 것.
2. 송전망 일부가 나갔을 때 전력망 재구성 (MDP 2)
병원, 소방서 같은 ‘핵심 부하’를 가능한 빨리 복구해야 한다.
자동 스위치를 조작해 전력을 우회 공급하는 전략을 학습.
3. 사이버+물리 복합 상황에서의 통합 복원 (MDP 3)
통신 경로와 전력망을 동시에 조정해 복원력을 극대화한다.
이 모든 상황은 ‘마르코프 결정 과정(MDP)’으로 모델링되었고, 다양한 IRL 알고리즘(GAIL, AIRL 등)을 적용해 실험했다.
---
AIRL: 전문가도 능가한 AI 복원력 판단
그중에서도 AIRL(Adversarial Inverse Reinforcement Learning)이 압도적인 성능을 보였다.
단순한 행동 복제(cloning)가 아닌, 보상 구조 자체를 학습
전문가 수준의 의사결정을 넘는 효율적인 복원 시나리오 도출
복잡한 상황(사이버+물리 복합)에 대해서도 높은 적응성 및 재사용 가능성 확보
특히, 기존 GAIL 기반 모델은 샘플 효율성이 낮아 학습에 수십만 번의 시도가 필요했지만, AIRL은 그보다 훨씬 적은 시도로 비슷한 성능을 내거나 오히려 더 나은 결과를 보였다.
---
시각적으로 드러나는 복원력 지표의 진화
흥미로운 점은 이 학습된 ‘복원력 보상 함수’를 시각화한 결과다.
통신망에서는 R3 라우터가 공격당할 때, R1과 R2가 우회 경로를 택하면 보상이 급증
전력망에서는 특정 스위치(4번, 5번)를 조작할 때 보상이 크게 상승
두 환경을 통합했을 때도, 물리 스위치 조작이 전체 보상에 큰 영향 미침
이는 단순한 패턴이 아니라, 실제 시스템 구조상 중요한 조치들을 AI가 정확히 학습했음을 보여준다.
---
실제 전력망에도 적용 가능한가?
연구진은 이 모델을 IEEE 123-bus 시스템(실제 중규모 배전망 시뮬레이션)에 적용했다.
그 결과, 기존의 RL 또는 수작업 기반 복원 전략보다 더 빠르고 정밀한 복원 시나리오를 제안할 수 있었다.
또한 시뮬레이션 환경을 Python, OpenDSS, SimPy 기반으로 구성해 추후 확장성과 실시간 적용 가능성까지 고려했다.
---
결론: 위기 대응의 ‘AI 본능’을 만들어낸다
ARM-IRL은 단순히 AI가 복원 전략을 따라 하는 것이 아니다. ‘무엇이 좋은 선택인지’ 스스로 판단할 수 있게 해주는 방식이다.
이는 전력망뿐 아니라 다양한 사이버-물리 시스템의 위기 대응 전략 수립에도 널리 활용될 수 있다.
앞으로 연구진은 다음 단계를 준비하고 있다.
다중 에이전트 확장 (여러 AI가 협력해 대응)
대규모 송전망 적용
보상 함수의 볼록화 및 해석 가능성 향상
이제 AI는 단순히 명령을 따르는 게 아니라, 위기 속에서 ‘왜 그래야 하는지’를 이해하며 행동하는 존재가 되어가고 있다.
---
출처 논문
Sahu, A.; Venkatramanan, V.; Macwan, R. ARM-IRL: Adaptive Resilience Metric Quantification Using Inverse Reinforcement Learning. AI 2025, 6, 103.