대장암 예방의 열쇠, 인공지능이 쥐다



대장암은 세계적으로 세 번째로 흔한 암이다. 놀랍게도, 이 무서운 암의 출발점은 아주 작고 평범한 '용종(polyp)'에서 비롯된다. 대장내시경 검사를 통해 이 용종을 미리 찾아 제거하면 대장암으로 발전하는 것을 막을 수 있다. 하지만, 이 용종이 항상 눈에 잘 띄는 것은 아니다. 작고 모양도 들쑥날쑥하며 주변 조직과 경계가 흐릿한 경우가 많아 의사의 숙련도에 따라 놓치기 쉽다. 그래서 의사들의 눈을 대신할 수 있는 인공지능의 역할이 주목받고 있다.


최근 발표된 논문 하나가 큰 화제를 모으고 있다. 말레이시아 아시아퍼시픽대학의 Peng Li 박사 연구팀은 'VMDU-Net'이라는 새로운 인공지능 모델을 제안했다. 이 모델은 대장내시경 이미지에서 용종을 정확히 찾아내는 데 탁월한 성능을 보였다. 기존 방식의 한계를 넘어서는 이 기술은 조기 진단의 정확도를 끌어올려 대장암 예방에 큰 변화를 가져올 것으로 기대된다.


용종 찾기의 어려움

대장내시경 사진을 보면 용종은 다양한 크기와 모양을 띤다. 문제는 사진 속에서 이 용종이 배경과 구분이 잘 되지 않는 경우가 많다는 것이다. 특히 색상이나 질감이 비슷한 주변 조직과 섞여 있을 땐 일반적인 인공지능 모델도 헷갈려 한다. 기존의 딥러닝 기반 모델들은 대부분 이미지의 국소적인 특징에만 집중해 넓은 범위에서의 관계를 놓치기 쉬웠다. 이런 한계 때문에 복잡한 형태의 용종을 정확히 인식하기 어려웠다.


연구팀은 이 문제를 해결하기 위해 두 개의 다른 종류의 인공지능 기술을 조합했다. 하나는 'Transformer', 다른 하나는 최근 떠오르는 'Mamba' 모델이다. 각각 장단점이 다른 이 두 모델을 병렬로 구성해, 서로의 약점을 보완하도록 설계한 것이다.


두 개의 눈, Transformer와 Mamba

VMDU-Net은 이름 그대로 'Dual Encoder' 구조를 갖고 있다. 즉, 이미지를 처리하는 두 개의 인공지능 눈(인코더)이 존재한다. 하나는 Transformer 기반으로, 넓은 범위에서 정보를 파악하는 데 강점을 지닌다. 또 다른 하나는 Mamba 기반으로, 계산량이 적고 빠르게 학습할 수 있다는 장점이 있다.


Transformer는 전체 이미지의 맥락을 이해하는 데 탁월하다. 반면 Mamba는 훈련 속도가 빠르고 긴 거리의 정보를 효율적으로 처리할 수 있다. 연구팀은 이 둘을 결합한 뒤, 'MTM(Mamba-Transformer-Merge)'라는 모듈을 사용해 두 인코더가 뽑아낸 정보를 효과적으로 융합했다.


뿐만 아니라, 'Cross-Shape Transformer'라는 새로운 구조도 개발했다. 기존의 Transformer가 정사각형 패치로 이미지를 나누는 것과 달리, 이 구조는 십자 형태로 정보를 인식한다. 덕분에 가로세로 방향으로 멀리 떨어진 정보를 더 잘 연결할 수 있게 됐다. 이는 용종처럼 경계가 애매한 물체를 식별하는 데 큰 도움이 된다.



성능은 어땠을까?

연구진은 이 모델을 다섯 개의 공개된 데이터셋에서 테스트했다. 결과는 매우 인상적이었다. 대표적인 Kvasir-SEG 데이터셋에서 기존 최고 모델보다 높은 'Dice score(정확도를 나타내는 지표)' 0.938을 기록했고, CVC-ClinicDB에서는 무려 0.964를 달성했다. 이 숫자는 기존 방법보다 용종을 훨씬 정확하게 찾아낸다는 뜻이다. 특히 작고 경계가 흐릿한 용종일수록 VMDU-Net의 강점이 더 뚜렷했다.


게다가 이 모델은 단지 정확하기만 한 게 아니다. 계산량과 처리 속도 면에서도 경쟁력이 있었다. 고성능 그래픽카드 하나로도 빠르게 작동하며, 실제 병원 환경에서도 충분히 활용 가능하다는 평가를 받았다.


의료 현장의 AI, 현실로 다가오다

이번 연구는 단순히 하나의 AI 모델이 뛰어나다는 데 그치지 않는다. Transformer와 Mamba라는 서로 다른 성격의 기술을 융합해 성능과 효율을 모두 잡았다는 점에서 큰 의미가 있다. 무엇보다 이런 기술이 실제 환자의 생명을 구하는 데 도움을 줄 수 있다는 사실이 감동적이다.


대장내시경을 받아본 사람이라면 누구나 알 것이다. 고통스럽고 번거로운 그 검사 속에서 용종 하나를 놓친다는 것이 어떤 의미인지. 이제 AI는 그런 실수를 줄이고, 대장암 예방의 길을 넓혀주는 든든한 조력자가 되고 있다. 앞으로 VMDU-Net 같은 기술이 더 발전해, 의료 현장에서 당연하게 쓰이는 날이 머지않아 올 것이다.



출처 논문

Li P, Ding J and Lim CS (2025) VMDU-net: a dual encoder multi-scale fusion network for polyp segmentation with Vision Mamba and Cross-Shape Transformer integration. *Front. Artif. Intell.* 8:1557508. doi: 10.3389/frai.2025.1557508