배터리 AI가 정말 제대로 학습했는지 확인하는 새로운 평가법의 등장

소수 데이터 환경에서도 배터리 열화 생성 모델의 오류를 찾아내는 3단계 진단 프레임워크

배터리 연구에서는 실제 실험 데이터가 부족한 경우가 많다. 특히 고온, 저온, 고속 충방전 같은 위험 조건은 실험 비용이 높고 안전 문제도 있어 데이터 수집이 쉽지 않다.

이 때문에 최근에는 인공지능이 배터리 열화 곡선을 생성해 부족한 데이터를 보완하는 연구가 활발히 진행되고 있다. 하지만 한 가지 중요한 문제가 남아 있었다. AI가 만든 배터리 데이터가 정말 믿을 만한가라는 질문이다.

일본 규슈공업대학 연구진은 이 질문에 답하기 위해 새로운 평가 체계인 Stratified Fréchet Distance, 즉 SFD 기반 3단계 진단 프레임워크를 제안했다. 연구진은 기존 평가 지표인 FID가 배터리 연구에서는 중요한 오류를 놓칠 수 있다고 지적했다.

기존 FID 평가는 중요한 배터리 오류를 숨길 수 있다

생성형 AI 연구에서 가장 널리 사용되는 평가 지표는 FID다. FID는 실제 데이터와 생성 데이터의 분포 차이를 하나의 숫자로 계산한다.

문제는 모든 조건을 하나로 합쳐 평가한다는 점이다. 예를 들어 배터리 데이터의 88%는 정상적으로 생성했지만, 안전과 직결되는 고온 조건 12%에서만 심각한 오류가 발생했다고 가정해보자. FID는 전체 데이터를 평균적으로 평가하기 때문에 해당 오류가 전체 점수에 거의 반영되지 않는다.

연구진은 이를 희석 효과라고 설명했다. 배터리 연구에서는 이 문제가 더욱 심각하다. 가장 위험한 조건일수록 데이터가 적기 때문이다.

연구진은 평가를 세 단계로 나누어 문제를 해결했다

새로운 프레임워크의 첫 번째 계층은 조건별 품질 평가다. SFD의 핵심 아이디어는 모든 데이터를 한꺼번에 평가하지 않고 온도나 충방전 속도 같은 조건별로 나누어 평가하는 것이다.

예를 들어 15°C, 25°C, 35°C의 각 온도에서 생성 품질을 따로 측정한다. 이렇게 하면 특정 온도에서만 발생하는 오류를 즉시 발견할 수 있다.

또한 시간축으로도 분할이 가능하다. 배터리 열화는 초반에는 천천히 진행되다가 특정 시점 이후 급격히 악화된다. 연구진은 열화 곡선을 앞부분과 뒷부분으로 나누어 평가해 AI가 초기 열화는 잘 생성하지만 후기 열화에서는 실패하는 문제까지 찾아냈다.

실제 실험에서 기존 FID는 문제를 거의 감지하지 못했다

연구진은 CVAE라는 조건부 생성 모델을 이용해 실험을 수행했다. 특정 모델은 25°C 데이터만 학습한 뒤 다른 온도 조건의 배터리를 생성하도록 설정됐다.

상식적으로 보면 이 모델은 다른 온도 조건을 제대로 생성하기 어렵다. 그런데 FID 결과는 기준 모델 대비 1.01배에 그쳤다. 사실상 차이가 없는 수준이다.

반면 SFD는 전혀 다른 결과를 보여줬다. 15°C 조건에서는 오류가 1.97배 증가했고, 35°C 조건에서는 1.84배 증가했다. 오히려 학습에 사용된 25°C에서는 성능이 향상된 것으로 나타났다.

기존 FID는 문제없음에 가까운 결과를 냈지만, SFD는 특정 온도에서 발생한 품질 저하를 직접 찾아냈다.

열화 후반부에서 발생한 위험한 오류까지 찾아냈다

연구진은 조건과 시간을 동시에 나누는 분석도 수행했다. 가장 큰 오류는 35°C 조건의 열화 후반부에서 발견됐다. 이 구간의 품질 저하 정도는 기준 모델 대비 8.69배에 달했다.

이 결과는 중요하다. 배터리 화재나 안전 문제는 열화가 상당히 진행된 후반 단계에서 더 민감해질 수 있다. 단순히 전체 평균 성능이 좋은 모델보다 위험 구간에서 정확한 모델이 훨씬 중요하다.

AI가 온도 간 물리적 관계를 제대로 이해했는지도 평가했다

좋은 생성 모델이라면 단순히 개별 온도를 흉내 내는 것이 아니라 온도 변화에 따른 물리적 관계까지 유지해야 한다. 예를 들어 25°C보다 35°C에서 열화가 빠르고, 35°C보다 43°C에서 더 빠르게 진행되는 경향을 유지해야 한다.

연구진은 이를 평가하기 위해 Conditional Response Consistency와 Conditional Distance Ratio를 사용했다. 이 지표들은 조건 간 거리 구조가 얼마나 잘 유지되는지를 측정한다.

성능이 좋은 모델은 CRC 값이 0.9 수준에 도달했다. 반면 성능이 떨어지는 모델은 0.5~0.7 수준으로 감소했다. 생성 모델은 곡선 모양만 맞추는 것이 아니라 조건 간 물리적 관계까지 보존해야 한다는 뜻이다.

데이터가 적을 때는 평가 결과의 신뢰도까지 따로 확인해야 했다

배터리 연구의 가장 큰 문제는 데이터 부족이다. 일부 온도 조건에서는 배터리 샘플이 3~4개밖에 존재하지 않았다. 이런 상황에서는 공분산 행렬 계산이 불안정해질 수 있다.

연구진은 이를 위해 Effective Stratum Size라는 신뢰도 지표를 도입했다. ESS가 1보다 낮으면 해당 평가 결과는 신뢰하기 어렵다고 판단한다. 또한 이런 상황에서는 FID 계열 대신 MMD를 사용하는 것이 더 안정적이라는 점도 확인했다.

물리 법칙을 반영한 AI 모델이 가장 좋은 결과를 보였다

연구진은 Flow Matching 기반 생성 모델도 평가했다. 실험에는 배터리 물리 정보를 사전 학습한 FNO가 사용됐다.

물리 정보를 반영한 모델은 SFD 값이 약 2,353 수준이었다. 반면 물리 제약 없이 순수 생성만 수행한 모델은 177억 수준까지 악화됐다. CRC 역시 물리 정보를 활용한 모델은 0.724를 기록했지만 물리 정보가 없는 모델은 0.033에 불과했다.

즉, 배터리 물리를 이해한 AI가 훨씬 안정적이고 신뢰성 높은 데이터를 생성했다.

배터리 디지털 트윈의 신뢰성을 높이는 평가 기준이 될 수 있다

배터리 산업은 디지털 트윈 기술로 빠르게 이동하고 있다. 디지털 트윈은 실제 배터리를 가상 공간에 복제해 미래 성능을 예측하는 기술이다.

앞으로 전기차와 에너지 저장장치에서는 실제 실험하지 않은 조건까지 AI가 예측하게 될 가능성이 높다. 하지만 예측 데이터가 잘못됐다면 안전 문제로 이어질 수 있다.

이번 연구는 생성 모델 자체를 개선한 것이 아니라, 생성 모델이 어디서 실패하는지, 어떤 조건에서 위험한 오류가 발생하는지, 그리고 그 결과를 얼마나 신뢰할 수 있는지를 체계적으로 진단하는 방법을 제시했다.

출처

Okita, T. (2026). Stratified Fréchet Distance: A Three-Layer Diagnostic Framework for Conditional Time Series Generation Under Data Scarcity. Machine Learning and Knowledge Extraction, 8(6), 148. https://doi.org/10.3390/make8060148