내시경 수술, AI가 실시간으로 상황 파악한다? EndoARSS가 뭐길래

내시경 수술의 딥러닝 도전

최소침습 수술(MIS)은 ‘칼 안 대는 수술’이라 불리며 빠른 회복과 적은 통증으로 환자들에게 환영받는다. 그 중에서도 내시경 수술은 복강경, 대장내시경 등 다양한 분야에서 표준 치료법으로 자리 잡았다. 하지만 복잡한 장기와 기구가 한 화면에 모여 있는 내시경 화면을 읽어내는 일은 여전히 어렵다.

수술 중엔 출혈이나 장기 손상 같은 합병증이 언제든 일어날 수 있고, 이를 방지하려면 수술팀이 순간순간 상황을 정확히 파악해야 한다. 여기서 AI가 힘을 발휘한다면 어떨까?

EndoARSS란?

홍콩중문대 Wang 연구팀은 최근 새로운 AI 프레임워크 EndoARSS를 선보였다. 풀어 쓰면 Endoscopic Activity Recognition and Semantic Segmentation, 즉 내시경 영상에서 ‘행동 인식’과 ‘의미 분할’을 동시에 수행하는 모델이다.

쉽게 말하면, AI가 내시경 화면을 보고 지금 어떤 수술 단계인지(행동 인식)와 화면 속 기구나 조직이 뭔지(의미 분할)를 실시간으로 구분해 수술팀에 보여주는 것이다.

왜 두 가지 작업을 동시에 하나?

기존에도 내시경 AI 연구는 많았다. 하지만 대부분은 ‘하나의 작업’만 한다. 예를 들어, 어떤 수술 기구가 화면에 있는지 구분하거나(의미 분할), 수술 단계만 인식한다(행동 인식). 문제는 내시경 수술은 단계마다 쓰는 기구나 조직이 달라지고, 같은 기구라도 쓰임새가 다르다는 점이다.

따라서 두 가지 작업을 함께 돌리면 서로 도움을 주고받을 수 있다. 예를 들어 AI가 ‘지금은 절개 단계’라는 걸 알면, 화면 속 칼이 어디 있는지 더 잘 찾아낼 수 있고, 반대로 칼 위치를 알면 수술 단계도 더 정확히 파악할 수 있다.

EndoARSS의 핵심: 파운데이션 모델 + LoRA + TESLA

EndoARSS의 기반은 이미지 분야에서 유명한 DINOv2라는 ‘파운데이션 모델’이다. 대규모 이미지로 사전 학습된 모델로, 일반 이미지를 넘어서 의료 영상에도 응용될 만큼 범용성이 높다.

하지만 파운데이션 모델을 의료 영상에 그대로 쓰면 한계가 있다. 수술 영상은 일반 이미지보다 복잡하고, 상황별로 데이터 편차도 심하다. 이를 해결하려고 연구팀은 LoRA(Low-Rank Adaptation)라는 경량화 기법을 썼다. LoRA는 파운데이션 모델의 방대한 파라미터를 전부 바꾸지 않고, 필요한 일부만 적응적으로 조정한다.

여기에 TESLA(Task Efficient Shared Low-Rank Adapter)라는 모듈을 붙였다. 다중 작업(Multitask)을 동시에 돌리면 서로 방해가 되기 쉽다. TESLA는 작업별로 필요한 파라미터만 나눠서 충돌을 줄이고 학습 효율을 높여준다.

공간인지: SMA 모듈

내시경 화면은 복잡하다. 비슷한 색의 장기와 기구가 얽혀 있으면 AI가 헷갈리기 쉽다. 이를 해결하려고 연구팀은 SMA(Spatially-aware Multi-scale Attention)라는 공간인지 모듈을 도입했다. 쉽게 말해 화면 전체를 여러 스케일로 쪼개서 ‘어디가 중요한가’를 AI가 스스로 배운다. 덕분에 기구와 조직의 경계가 뚜렷해지고, 상황에 맞게 더 정밀한 인식을 할 수 있다.

얼마나 잘 작동할까?

연구팀은 실제 돼지모델 실험, 공개 데이터셋 등에서 총 3개의 데이터셋을 만들어 성능을 검증했다. 평가 항목은 행동 인식 정확도, 의미 분할 정확도, 구조 유사도 등이다.

결과는 인상적이다. EndoARSS는 기존의 ResNet 기반 모델이나 DINOv2 단일 모델보다 모든 지표에서 높은 성능을 냈다. 특히 의미 분할 정확도(mIoU)는 최대 92%까지 기록했으며, 복잡한 장기와 기구가 얽힌 화면에서도 경계가 잘 구분됐다.

또한 모델은 기존보다 10배 이상 적은 GPU 메모리로 작동해 병원에서 실시간으로 쓸 수 있는 수준이었다.

수술실 풍경은 어떻게 달라질까?

EndoARSS가 상용화된다면 수술실 풍경은 달라질 수 있다. 수술 화면에 ‘칼, 핀셋, 혈관, 신경’ 같은 객체가 자동으로 표시되고, 지금 어떤 단계인지가 자막처럼 나타난다. 의료진은 즉시 상황을 파악해 불필요한 합병증을 줄이고, 수술 시간도 단축할 수 있다.

무엇보다도 경험이 부족한 외과의에게는 큰 도움이 된다. 사람의 손과 눈이 놓칠 수 있는 세부 정보를 AI가 대신 잡아주기 때문이다.

여전히 풀어야 할 과제

물론 과제도 남아 있다. 첫째, 실제 임상 환경은 데이터와 달리 변수가 많다. 혈액, 연기, 흐려진 화면 등 다양한 상황에서 AI가 실수 없이 작동해야 한다.

둘째, 환자 개인정보 보호도 중요하다. 내시경 영상은 환자 정보와 직결되므로 데이터 익명화와 보안이 필수다.

셋째, 수술 중 최종 판단은 AI가 아니라 사람에게 있어야 한다는 점도 연구진은 강조한다. EndoARSS는 ‘보조 도구’이지 ‘자동 조종 장치’가 아니기 때문이다.

결론: AI 내시경, 더 똑똑해진다

EndoARSS는 파운데이션 모델과 경량화 기술, 다중 작업 학습을 결합해 내시경 수술 AI의 가능성을 한 단계 끌어올렸다. 앞으로 더 많은 데이터와 다양한 상황을 반영한다면, AI가 수술실 한켠에서 ‘제2의 조수’ 역할을 하게 될 날도 멀지 않았다.

출처 논문
Wang, G.; Tang, R.; Xu, M.; Bai, L.; Gao, H.; Ren, H. EndoARSS: Adapting Spatially Aware Foundation Model for Efficient Activity Recognition and Semantic Segmentation in Endoscopic Surgery. Adv. Intell. Syst. 2025, 2500288. https://doi.org/10.1002/aisy.202500288