자연재해 보험료는 어떻게 결정될까? 머신러닝이 재난 피해액과 보험금까지 예측한 방법
FEMA 데이터 7만 건을 분석해 자연재해 위험과 보험금 규모를 예측한 최신 연구
허리케인, 홍수, 산불 같은 자연재해는 보험회사가 가장 예측하기 어려운 위험 가운데 하나다.
문제는 과거 기록만으로 미래 재난 위험을 정확히 계산하기가 점점 어려워지고 있다는 점이다. 기후변화로 재난 발생 양상이 달라지고 있고, 인구 증가와 도시화로 피해 규모도 커지고 있기 때문이다.
2026년 발표된 Frontiers in Artificial Intelligence 연구는 미국 FEMA 재난 데이터 68,485건을 활용해 자연재해 발생 위험, 경제적 손실, 보험금 청구액까지 예측하는 머신러닝 기반 보험 리스크 평가 시스템을 개발했다.
연구진은 72년 동안 축적된 재난 데이터를 하나의 시스템으로 통합했다
연구에 사용된 데이터는 1953년부터 2025년까지의 FEMA 재난 선언 기록이다. 총 68,485건의 재난 사례가 포함됐으며 허리케인, 홍수, 산불, 토네이도, 폭풍, 폭설, 가뭄, 지진, 생물학적 재난 등이 분석 대상이 됐다.
연구진은 여기에 NOAA 기후 데이터와 USGS 지형 데이터를 추가했다. 분석 변수는 강수량, 평균기온, 습도, 해안 접근성, 고도, 토양 수분, 인구 밀도, FEMA 지원 프로그램 여부, 재난 발생 이력, 계절성 변수 등 총 49개였다.
허리케인과 홍수는 가장 큰 경제적 손실을 만드는 재난이었다
데이터 분석 결과 가장 많이 발생한 재난은 폭풍이었다. 전체 재난 선언의 약 32.2%를 차지했다. 그 뒤를 이어 허리케인과 홍수가 높은 비중을 차지했다.
흥미로운 점은 발생 빈도와 경제적 피해 규모가 반드시 비례하지 않았다는 것이다. 홍수와 허리케인은 상대적으로 발생 횟수보다 훨씬 큰 경제적 손실을 만들었다.
재난 위험을 예측하기 위해 49개의 특징을 만들었다
머신러닝 모델 성능은 어떤 특징을 사용하느냐에 따라 크게 달라진다. 연구진은 총 49개의 특징을 시간, 지리, 환경, 사회경제, 상호작용 변수로 나누어 설계했다.
재난은 계절 영향을 크게 받는다. 허리케인은 여름과 가을에 집중되고 산불은 건조한 시기에 증가한다. 이를 반영하기 위해 연구진은 월별 주기와 최근 재난 발생 이력을 변수에 포함했다.
해안가 여부가 보험금 예측에 가장 큰 영향을 미쳤다
특징 간 상관관계 분석에서는 보험금 추정액과 가장 강한 관계를 보인 변수가 해안 접근성이었다. 상관계수는 0.67이었다.
이는 해안 지역이 허리케인과 폭풍 해일 위험에 직접 노출되기 때문으로 해석된다. 강수량과 토양 수분의 상관계수도 0.71로 높게 나타났다.
재난 종류 예측 정확도는 92%를 넘었다
연구진은 Random Forest, XGBoost, LightGBM 모델을 비교했다. 무작위 데이터 분할 환경에서는 Random Forest가 가장 우수한 성능을 보였고, 재난 종류 분류 정확도는 92.24%였다.
하지만 과거 데이터를 학습하고 미래 데이터를 예측하는 시간 기반 검증에서는 정확도가 53.86%로 감소했다. 이는 실제 미래 예측에서는 데이터 분포 변화가 성능을 크게 낮출 수 있음을 보여준다.
보험금 예측 모델은 높은 설명력을 보였다
연구진은 먼저 전체 경제 손실을 예측한 뒤 그 결과를 활용해 보험금 규모를 예측했다. 이 방식은 실제 보험사 업무 흐름과 유사하다.
보험금 예측에서는 LightGBM 모델이 가장 높은 성능을 보였다. 무작위 검증 기준 설명력 R²은 0.9712였고, 평균 절대 백분율 오차는 6.74%였다.
다만 이 결과는 실제 보험금 데이터가 아니라 합성 데이터를 사용했기 때문에 실무 적용 전 추가 검증이 필요하다.
연구진은 보험 위험 점수를 자동으로 계산하는 시스템도 만들었다
연구진은 예측 결과를 실무에서 활용하기 위해 0점에서 100점 사이의 위험 점수 시스템을 구축했다. 평가 요소는 재난 발생 빈도, 예상 피해 규모, 취약성 지표, 최근 재난 발생 여부, 경제적 노출 수준이었다.
분석 결과 위험도가 높은 지역은 텍사스, 캘리포니아, 플로리다, 조지아, 노스캐롤라이나였다. 이들 지역은 허리케인, 산불, 홍수 등 여러 위험 요인이 동시에 존재했다.
높은 정확도보다 중요한 것은 실제 데이터 부족 문제였다
이 연구의 가장 큰 한계는 실제 보험금 자료를 사용하지 못했다는 점이다. 연구진은 공개된 FEMA 자료만으로는 실제 보험금 규모를 확보하기 어려워 합성 데이터를 생성했다.
그 결과 무작위 검증에서는 높은 성능이 나타났지만 미래 데이터를 사용하는 검증에서는 일부 회귀모델의 성능이 크게 떨어졌다.
공개 데이터만으로도 자연재해 보험 위험을 예측할 가능성을 보여줬다
이번 연구는 공개 데이터와 머신러닝만으로도 자연재해 위험 평가 시스템을 구축할 수 있음을 보여준다. 환경 데이터, 사회경제 데이터, 재난 이력을 통합하면 보험사가 활용할 수 있는 의사결정 지원 도구를 만들 수 있다는 점을 시사한다.
다만 현재 결과는 실제 보험금 데이터가 아닌 합성 데이터를 기반으로 도출됐기 때문에 실무 적용 전에는 실제 지급 데이터와 보험 청구 자료를 이용한 검증이 필요하다.
출처
Mujtaba, A. H. (2026). Machine learning-based insurance risk assessment pipeline for natural disaster prediction and claims estimation. Frontiers in Artificial Intelligence, 9, 1802461. https://doi.org/10.3389/frai.2026.1802461
