AI로 미세먼지를 예측하는 남아프리카의 실험
“공기 속 숨은 변수까지 읽다”
■ 도입: ‘보이지 않는 위협’, 공기를 읽는 새로운 방법
대부분의 사람들은 대기 오염을 눈으로 확인하기 어렵다. 가끔 뿌연 하늘이나 숨이 탁 막히는 느낌 정도로 체감할 뿐, 대기 속에는 어떤 물질이 언제 얼마나 떠다니는지 알기 어렵다. 그러나 이 보이지 않는 오염은 심각한 건강 문제를 초래한다. 세계보건기구(WHO)에서도 기준치를 제시하고 있지만, 남아프리카공화국의 일부 지역에서는 여전히 공기 질이 우려 수준이다.
이러한 상황에서 이스라엘 애덤 애그베하지(Israel Edem Agbehadji)와 이비둔 크리스티아나 오바그부와(Ibidun Christiana Obagbuwa) 연구팀은 남아공 킴벌리(Kimberley) 지역의 대기 오염 예측을 위해 인공지능(AI)을 결합한 새로운 모델을 선보였다. 공기 속 ‘숫자’를 읽는 AI는 이제 오염물질이 어디에서, 언제, 얼마나 퍼질지를 예측할 수 있는 실험실을 만든 셈이다.
■ 본론: AI의 조합, 복잡한 공기를 해석하다
이번 연구는 LSTM(Long Short-Term Memory)이라는 딥러닝 모델에 GAM(Generalized Additive Model)이라는 통계 모델을 결합하고, LIME(Local Interpretable Model-agnostic Explanation)이라는 설명 기술까지 덧붙인 복합 구조로 구성됐다. 이름만 보면 복잡해 보이지만, 쉽게 말해 시간의 흐름에 따라 오염물질의 농도를 예측하면서도, 그 예측이 왜 그렇게 나왔는지까지 설명할 수 있도록 설계된 모델이다.
연구팀은 이 모델을 ‘LSTM-GAM-xAI’라고 명명했다. 핵심은 다음과 같다:
- LSTM은 시간에 따른 변화 패턴을 포착한다. 예를 들어, 하루 중 아침에 NO₂가 증가하고 오후에 줄어드는 등의 리듬을 배운다.
- GAM은 그 변화의 원인을 설명한다. NO₂의 농도는 온도와 습도, 바람 속도와 어떻게 연관되는지를 수학적으로 해석해주는 역할이다.
- LIME은 AI의 결정이 어떤 요인에 의해 영향을 받았는지 시각적으로 보여주는 설명 도구다.
이렇게 세 가지 기술을 하나로 묶어, 연구팀은 단순한 예측이 아니라 ‘설명 가능한 예측’을 구현했다.
■ 데이터 없는 도시, 가상의 데이터를 만들어내다
킴벌리는 대규모 다이아몬드 광산이 있는 도시로, 공기 오염의 주범은 광산 활동, 자동차 배기가스, 그리고 산업시설이다. 특히 PM2.5, PM10, 이산화황(SO₂), 질소산화물(NOₓ) 등이 주된 오염물질이다.
하지만 문제는 데이터 부족이었다. 킴벌리에는 장기적인 대기 질 데이터가 충분히 축적되어 있지 않았다. 연구팀은 남아공 북부지역의 한탐(Hantam) 측정소 데이터를 기반으로, 통계적 샘플링을 통해 킴벌리의 환경을 가정한 합성 데이터를 생성했다.
이 데이터를 바탕으로 모델을 학습시켜 5일 전과 10일 전 데이터를 입력하면 미래의 대기 질을 예측할 수 있도록 했다. 총 6,210개의 학습 사례가 사용됐다.
■ 결과: 정확도도 높고, 해석도 된다
실험 결과는 꽤 인상적이다. 연구팀은 이 모델을 기존 딥러닝 모델들과 비교했는데, 모든 오염물질에 대해 가장 낮은 평균 제곱 오차(MSE)를 기록했다. 쉽게 말해, 예측이 가장 정확했다는 뜻이다.
예를 들어 5일 간의 데이터를 바탕으로 SO₂ 농도를 예측했을 때, 기존 LSTM 모델의 오차는 0.607이었지만, LSTM-GAM-xAI 모델은 0.416으로 더 낮았다.
또한 이 모델은 왜 그런 결과가 나왔는지 설명할 수 있다. LIME 분석에 따르면, PM2.5가 높을수록 SO₂ 농도가 높아지는 경향이 있으며, 반대로 NO₂가 낮을수록 SO₂는 더 낮아졌다. 단순히 숫자를 맞추는 것이 아니라, 무엇이 영향을 줬는지까지 보여주는 셈이다.
하지만 놀라운 점은 또 있었다. 연구팀은 모델의 인과 관계(Causal Inference)까지 분석했다. 결과는 조금 아이러니했다. 오염물질 간 상관관계는 뚜렷하지만, 통계적으로 유의미한 인과 관계는 나타나지 않았다는 것이다. “NO₂가 높으면 SO₂도 높다”는 경향은 있지만, NO₂가 SO₂를 직접 유발했다고 보기에는 부족하다는 의미다.
■ 결론: 공기질 예측, 이제는 ‘왜’를 말한다
이번 연구는 대기 오염 예측 기술의 새로운 장을 열었다. 단순히 미래의 수치를 보여주는 것을 넘어, 그 예측의 이유까지 설명할 수 있는 AI 모델이 등장한 것이다.
킴벌리처럼 데이터가 부족한 지역에서도 활용이 가능하며, 정책 수립이나 대기 질 경보 시스템, 도시계획 등에 실질적인 도움을 줄 수 있다. 특히 모델의 투명성과 설명력은 공공 정책에 있어서 중요한 무기가 된다.
물론, 모든 오염물질의 관계를 완벽히 해석하는 건 여전히 어렵다. 인과 관계가 명확하지 않은 부분도 존재한다. 하지만, 이제 우리는 공기 속에 숨은 변수들을 한층 더 명확히 바라볼 수 있게 됐다.
앞으로 이 모델이 실제 도시 환경에 적용되어, 대기 질 개선에 어떤 역할을 할지 기대해볼 만하다.
📚 출처
Agbehadji, I. E., & Obagbuwa, I. C. (2025). A hybrid long short-term memory with generalized additive model and post-hoc explainable artificial intelligence with causal inference for air pollutants prediction in Kimberley, South Africa. Frontiers in Artificial Intelligence, 8, 1620019. https://doi.org/10.3389/frai.2025.1620019