블랙박스 같은 AI, ‘렌즈’를 끼우다
거대한 신경망은 왜 그렇게 잘 맞출까? 더 중요한 질문은, 무엇을 보고 그렇게 판단했느냐는 것이다. 지금까지는 모델이 어떤 부분을 근거로 답을 내렸는지 알기 어려워서, 특히 의료나 자율주행처럼 위험을 동반하는 분야에서 “그냥 믿어라”는 말밖에 할 수 없는 경우가 많았다. 최근 _Nature Machine Intelligence_에 게재된 한 연구는 이 난제를 정면으로 겨냥했다. 이름하여 SemanticLens. 말 그대로 모델 내부를 의미(semantic)라는 공통 언어로 번역해, 구성요소 단위(뉴런, 필터 등)까지 들여다보는 ‘만능 설명 도구’다.
핵심 아이디어는 단순하다. 모델 안의 뉴런이 무엇에 반응하는지를 예시 묶음(해당 뉴런을 강하게 활성화시키는 이미지 조각 등)으로 모으고, 이 묶음을 CLIP 같은 기반모델의 의미공간에 임베딩한다. 그러면 각 뉴런은 하나의 의미 벡터로 바뀐다. 그다음은 마치 검색엔진을 쓰듯, 텍스트 한 줄로 “이 모델에 ‘watermark(워터마크)’를 인코딩한 뉴런이 있나?”라고 물어보고 바로 찾아낼 수 있다. 심지어 그 뉴런이 어떤 예시 데이터에서 활성화됐는지, 실제 추론에서 얼마나 중요한 역할을 했는지도 연결해본다. 모델을 부품 단위로 이해하고 검증하려던 오랜 시도가 드디어 규모 있게, 자동으로 돌아가기 시작한 셈이다.
어떻게 했나: 모델을 의미공간으로 옮기는 세 단계
SemanticLens는 세 가지 연결고리로 작동한다. 첫째, 각 뉴런이 잘 반응하는 **개념 예시(ℰ)**를 수집한다. 둘째, 이 예시들을 CLIP 같은 **멀티모달 의미공간(𝒮𝒮)**에 넣어 평균을 내면, 뉴런 하나가 **하나의 의미 벡터(ϑ)**로 표현된다. 셋째, **구성요소 기여도(ℛ)**를 계산해 예측에 얼마나 관여했는지 측정한다. 이 세 줄의 배관을 통해 입력 데이터—뉴런—최종 예측이 한 맥락으로 이어지니, “무엇을 배웠고, 어디서 배웠으며, 실제로 어떻게 썼는가”를 한 번에 추적할 수 있다.
연구진은 ImageNet을 학습한 ResNet, VGG, 비전 트랜스포머(ViT) 등 다양한 모델과 ISIC 2019 같은 의료 이미지 데이터셋을 대상으로 실험했다. 기반모델로는 Mobile-CLIP, DINOv2, WhyLesionCLIP 등을 활용했다. 중요한 건, 이 과정이 사람의 수작업 없이 대규모로 돌아간다는 점이다. 그래서 ‘한두 뉴런을 확대경으로 보는’ 해석이 아니라, 모델 전체의 지식지도를 그리는 수준으로 올라간다.
무엇이 보였나 1: “검색하듯” 편견과 지름길을 찾다
가장 직관적인 기능은 **검색(Search)**이다. 텍스트로 ‘person’, ‘watermark’, ‘bioluminescence’ 같은 개념을 입력하면, 그 개념을 인코딩하는 뉴런들을 바로 찾아낸다. 예컨대 ResNet50v2에서는 ‘person’을 검색했더니 ‘히잡’, ‘피부색’ 같은 민감 속성을 잡아내는 뉴런이 상위에 등장했다. 이런 뉴런이 ‘steel drum(스틸드럼)’ 같은 전혀 다른 분류에까지 영향을 준다면? 공정성 이슈의 신호다. 또 ‘watermark’를 검색해 **데이터 인조물(artefact)**에 반응하는 뉴런들을 의도적으로 찾아낼 수 있었다. 과거엔 우연히 발견하던 ‘지름길 학습(Shortcut/Clever Hans)’의 단서들을, 이제는 의식적으로 수색할 수 있는 셈이다.
여기서 끝이 아니다. 특정 개념이 어떤 클래스에서, 어떤 데이터와 함께 쓰였는지까지 추적된다. 예를 들어 ‘ox(황소)’ 분류에 영향을 준 뉴런 중 일부는 ‘인도 사람’, ‘야자수’, ‘수레바퀴’ 같은 배경-문맥 신호에 강하게 반응했다. 그 결과, ‘인도 사람이 수레를 끌고 야자수 아래에 있는’ 조합 이미지를 보여주면 ‘ox’ 점수가 뚜렷이 올라가는 현상이 관찰됐다. “정답을 맞히긴 하는데, 이상한 이유로 맞히는” 패턴을 수치로 입증한 사례다.
무엇이 보였나 2: 모델의 ‘지식지도’를 그리다
SemanticLens는 뉴런 임베딩들을 UMAP 같은 방법으로 펼쳐 지식 구조를 시각화한다. ‘동물’ ‘운송수단’처럼 큰 범주부터 ‘개’, ‘코끼리’ 같은 세부 개념까지 자동 라벨링해 묶는다. 놀랍게도 ResNet 내부에는 ‘개’ 관련 뉴런만 수백 개가 모여 있었다. 반대로, 사용자가 기대하는 개념이 비어 있는 구역도 보인다. 예컨대 ‘ox’와 관련해선 특정 품종(Angus, Hereford)을 인코딩한 뉴런이 아예 없었다. “모르는 건 모른다고 말하는 지도”가 생긴다. 이는 데이터 보강·추가 학습의 방향을 잡는 실무적 힌트가 된다.
또 하나의 묘미는 아트리뷰션 그래프다. ‘ox’를 예로 들면, ‘긴 털’ 뉴런이 바로 아래 층의 ‘잔디’ 뉴런에 의존하고, 옆에 ‘바퀴’ 같은 배경 개념이 동시에 영향을 미치는 식의 **소회로(circuit)**가 드러난다. 즉, “무엇을 봤나”뿐 아니라 “어떻게 조합했나”까지 추적 가능하다.
무엇이 보였나 3: 모델 간 비교와 ‘감사(Audit)’
같은 데이터로 훈련했더라도, 모델마다 배운 개념의 결이 다르다. 더 오래 훈련한 ResNet50v2는 ‘Komondor’ 같은 견종 고유의 세부 질감을 배우는 반면, 덜 훈련한 ResNet50은 ‘걸레/걸레질’ 같은 추상·공유 개념으로 때우는 경향이 확인됐다. 이처럼 SemanticLens는 아예 라벨 없이도 두 모델의 지식 유사도를 수치로 비교해, 아키텍처나 학습 전략의 차이가 내부 의미공간을 어떻게 바꾸는지 보여준다.
가장 실전적인 기능은 **정렬 감사(Alignment Audit)**다. 사용자가 ‘유효한 개념’과 ‘스퓨리어스(Spurious) 개념’을 문장으로 정의하면, 각 뉴런이 어느 쪽에 더 잘 맞물리는지 산점도로 보여준다. ImageNet의 26개 클래스에 대해 상위 중요 뉴런을 점검해보니, 단 하나도 ‘전부 유효’인 경우가 없었다. ‘삽’은 눈(설경), ‘steel drum’은 흑인 인물, ‘screwdriver’는 아이 같은 배경/맥락 신호에 의존하는 흔적이 빠짐없이 등장했다. “대형 모델은 어디든 편향과 지름길이 숨어 있다”는 경고를, 구성요소 단위로 뽑아낸 결과다.
의료 모델 디버깅: ABCDE룰을 기준으로
피부암(멜라노마) 감지 모델(VGG-16)을 대상으로, 피부과 의사들이 쓰는 ABCDE 규칙—A(비대칭), B(경계), C(색), D(지름), E(변화)—을 텍스트로 정의해 의도한 개념을 모델이 실제로 배웠는지 점검했다. 결과는 기대와 경고가 섞였다. ‘blue-white veil(청백 베일)’, ‘irregular streaks(불규칙 줄무늬)’ 같은 의학적 징후에 대응하는 뉴런이 잘 잡혔지만, 동시에 ‘빨간 피부’, ‘파란 반창고’, ‘자/눈금’ 같은 잡음 신호도 강하게 작동했다. 특히 ‘빨간 피부’는 비멜라노마 예측에, ‘자/눈금’은 멜라노마 예측에 영향을 주는 등 유형별 편향이 수치로 드러났다.
그렇다면 어떻게 고칠까? 연구진은 (1) 문제 뉴런 **가지치기(pruning)**와 (2) 데이터 재학습 두 가지를 시험했다. 깨끗한 테스트셋에서 두 방법 모두 정확도가 올랐지만, 인위적으로 잡음(반창고, 자, 붉은기)을 넣어보면 프루닝만으로는 민감성이 여전했다. 반면 재학습은 잡음 민감도를 크게 낮췄다. 결국 “원인 데이터를 찾아 손보는 것”이 장기적으로 안전하다는 메시지다.
해석가능성 지표: ‘선명도–다의성–중복’
SemanticLens는 해석가능성 자체를 정량화하는 지표도 내놨다. 예시들끼리 의미공간에서 얼마나 서로 비슷한지로 **선명도(clarity)**를, 서로 다른 의미가 한 뉴런에 뒤섞여 있는 정도로 **다의성(polysemanticity)**을, 유사 개념 뉴런이 얼마나 겹치는지로 **중복도(redundancy)**를 정의했다. 흥미롭게도 **컨브넷(ResNet)**은 보통 **트랜스포머(ViT)**보다 선명도가 높고 다의성이 낮았다. ReLU 같은 비선형성이 활성 패턴을 깔끔히 분리하는 덕분이다. 드롭아웃은 대체로 선명도를 높이지만 중복을 늘리는 경향이, 희소성(L1) 규제는 전반적 해석가능성을 개선하는 경향이 관찰됐다. 즉, 학습 하이퍼파라미터를 조절해 해석가능성을 튜닝하는 길이 열렸다.
그래서 뭐가 달라지나
SemanticLens가 제시한 건 ‘한 장의 해답’이 아니라 새로운 작업 방식이다. 모델이 배운 내부 개념을 검색하고 라벨링하며, 예측에서의 역할과 연결망을 확인하고, 데이터의 출처까지 역추적해 수정·재학습하는 일련의 파이프라인. 이 흐름은 EU AI Act, 미국 대통령 행정명령 등 책임 있는 AI 규제가 요구하는 투명성·합치성 검증을 기술적으로 떠받칠 기반이 될 수 있다. 특히 의료처럼 고위험 도메인에서는, “정답”보다 정답까지의 경로가 더 중요할 때가 많다. SemanticLens는 그 경로를 구성요소 단위로 밝혀, 신뢰 가능한 배치를 한 걸음 앞당겼다.
물론 한계도 분명하다. 트랜스포머처럼 다의성이 큰 아키텍처에서는 여전히 해석이 까다롭고, 생성형 모델에 대한 적용, ‘사후(post hoc) 설명’의 근본적 한계 같은 과제도 남아 있다. 그럼에도, 의미공간으로의 전환—모델을 사람의 언어와 닿는 좌표계로 옮겨놓는 발상—은 해석가능성 연구의 다음 단계를 여는 강력한 열쇠처럼 보인다.
출처논문
Dreyer, M., Berend, J., Labarta, T., Vielhaben, J., Wiegand, T., Lapuschkin, S., & Samek, W. (2025). Mechanistic understanding and validation of large AI models with SemanticLens. Nature Machine Intelligence. https://doi.org/10.1038/s42256-025-01084-w