“AI가 위성사진을 보는 방식, 사실은 ‘눈’보다 ‘색감’이 더 중요”

우리는 흔히 인공지능 성능이 좋아지면 모든 문제가 해결될 거라고 생각한다. 더 거대한 모델, 더 복잡한 구조, 더 많은 파라미터. 하지만 위성사진을 분석하는 AI 세계에서는 조금 다른 결론이 나오고 있다.

최근 발표된 한 연구는 놀라운 사실을 보여준다. 토지 이용을 분석하는 AI에서 가장 중요한 건 “모델을 얼마나 복잡하게 만들었는가”보다, “위성사진의 어떤 파장을 입력했는가”였다는 점이다.

쉽게 말하면 이렇다.

AI에게 사람 눈처럼 보이는 RGB 사진만 보여주는 것보다, 인간은 볼 수 없는 적외선·단파적외선 정보까지 함께 보여주는 편이 훨씬 중요했다는 이야기다. 그리고 그 효과는 최신 트랜스포머 AI보다도 더 컸다.

이 연구는 세르비아와 서부 발칸 지역의 위성 데이터를 활용해, “어떤 위성 밴드 조합이 가장 안정적인가”, “CNN과 트랜스포머 중 누가 더 강한가”, “지역이 바뀌면 AI는 얼마나 무너지는가”를 체계적으로 분석했다.

위성사진은 단순한 사진이 아니다

우리가 스마트폰으로 보는 사진은 빨강(R), 초록(G), 파랑(B) 세 가지 색만 담는다. 하지만 유럽우주국의 Sentinel-2 위성은 훨씬 더 많은 정보를 본다.

가령 식물은 적외선 반사를 강하게 일으키고, 도시의 콘크리트는 단파적외선(SWIR)에서 독특한 반응을 보인다. 물은 또 다른 파장 패턴을 가진다.

즉, 위성은 단순히 “색”을 찍는 게 아니라, 지표면의 물리적 성질을 읽어내는 셈이다.

연구진은 이런 다양한 파장 조합을 AI에게 입력했다.

실험군은 다음과 같았다.

RGB만 사용한 3개 밴드(3B)
RGB + 근적외선(NIR)
여기에 단파적외선(SWIR)을 추가한 6B
적색경계(red-edge)까지 포함한 9B·10B
NDVI 같은 지수(index) 기반 입력

그리고 이 데이터를 여러 종류의 AI 모델에 학습시켰다.

RGB만 본 AI는 의외로 형편없었다

결과는 꽤 극적이었다.

RGB만 사용했을 때 AI의 평균 성능(mIoU)은 약 54.6%였다. 그런데 근적외선과 단파적외선을 포함한 6개 밴드를 넣자 성능은 71.3%까지 뛰었다. 무려 17%포인트 가까운 상승이다.

흥미로운 건 그다음부터다.

9개 밴드, 10개 밴드로 더 많은 정보를 넣어도 성능 향상은 크지 않았다. 최고 성능은 74.6%였지만, 증가 폭은 생각보다 미미했다.

왜 이런 일이 벌어졌을까?

연구진은 밴드 간 상관관계를 분석했다. 그 결과 서로 비슷한 정보를 담고 있는 밴드가 많았다. 즉, 위성이 10개의 눈을 가지고 있어도 실제로는 몇 개가 거의 같은 장면을 반복해서 보고 있었던 셈이다.

PCA(주성분 분석)를 해보니 더 흥미로운 결과가 나왔다. 전체 스펙트럼 정보의 92% 이상이 사실상 단 두 개의 주요 성분으로 설명됐다.

많다고 다 좋은 건 아니라는 이야기다.

“어떤 AI가 최고인가?”보다 더 중요한 질문

연구진은 Attention U-Net, ConvNeXt-UNet, DeepLabV3+, DINOv2 같은 최신 모델들을 비교했다. CNN 계열과 트랜스포머 계열을 모두 포함했다.

내부 테스트에서는 DeepLabV3+와 Attention U-Net이 가장 좋은 성능을 보였다. 평균 mIoU는 약 0.74 수준이었다.

하지만 연구의 핵심은 여기서 끝나지 않는다.

진짜 중요한 건 “다른 나라에서도 잘 작동하는가?”였다.

AI는 종종 훈련된 지역에서는 뛰어나지만, 다른 지역으로 가면 갑자기 바보가 된다. 이를 ‘도메인 시프트(domain shift)’라고 부른다.

예를 들어 세르비아에서 학습한 모델을 슬로베니아·크로아티아·알바니아 같은 서부 발칸 지역에 적용했더니 성능이 크게 떨어졌다.

흥미롭게도, 이 성능 하락 폭은 “어떤 모델을 썼느냐”에 따른 차이보다 더 컸다.

즉,

CNN이냐 트랜스포머냐
최신 모델이냐 아니냐

보다도,

지역이 얼마나 다른가
토지 이용 패턴이 얼마나 달라지는가

가 훨씬 더 중요했다는 의미다.

이건 AI 연구에서 꽤 중요한 메시지다.

우리는 종종 “더 큰 모델”에 집착하지만, 실제 현장에서는 데이터 분포 변화가 더 치명적일 수 있다.

농지는 AI에게 가장 어려운 대상이다

연구에서 가장 흥미로운 부분 중 하나는 클래스별 성능 분석이다.

AI는 물과 도시 지역은 비교적 안정적으로 구분했다. 하지만 농지는 유독 어려워했다.

왜일까?

농지는 계절에 따라 색이 달라진다. 작물 종류도 다양하다. 지역마다 경작 방식도 다르다. 어떤 곳은 밀, 어떤 곳은 옥수수, 또 다른 곳은 휴경지다.

반면 물은 비교적 일정한 스펙트럼 특성을 가진다. 도시 역시 콘크리트와 아스팔트가 만드는 패턴이 꽤 안정적이다.

연구진이 SHAP 분석으로 확인한 결과도 이를 뒷받침했다. 도시 분류는 특정 SWIR 밴드에 크게 의존했지만, 농지는 여러 밴드 정보를 복합적으로 사용해야 했다.

쉽게 말하면 도시를 찾는 건 “특정 특징 하나”만 봐도 되지만, 농지는 훨씬 복잡한 퍼즐이라는 뜻이다.

이 연구가 중요한 이유

이 논문은 단순히 “어떤 모델이 더 좋다”를 말하는 연구가 아니다.

오히려 다음과 같은 현실적인 메시지를 던진다.

첫째, 위성 AI에서 입력 데이터 설계는 모델 자체만큼 중요하다.
둘째, 더 많은 스펙트럼 정보를 넣는다고 항상 좋아지는 건 아니다.
셋째, 실제 현장에서는 지역 차이에 따른 도메인 시프트가 가장 큰 문제다.
넷째, 벤치마크 점수보다 “다른 지역에서도 잘 작동하는가”가 더 중요하다.

이건 단지 토지 분석 문제만이 아니다. 의료 AI, 자율주행, 금융 예측 같은 거의 모든 AI 분야에도 연결된다.

AI는 결국 “배운 세상” 안에서는 강하지만, 낯선 세상에서는 쉽게 흔들린다.

진짜 어려운 건, 더 똑똑한 AI를 만드는 일이 아니라
“처음 보는 세상에서도 무너지지 않는 AI”를 만드는 일일지도 모른다.

출처

Jelena Mitić, Velibor Ilić, Uroš Durlević, Milan Mitić. (2026). Spectral Input Selection and Architectural Design for Robust Multispectral Land Cover Semantic Segmentation from Sentinel-2 Imagery. AI, 7(186). https://doi.org/10.3390/ai7060186