EEViT: 이미지 분류에서 비전을 혁신하는 새로운 트랜스포머 구조

트랜스포머, 비전의 한계를 넘다

트랜스포머(Transformer)는 자연어 처리(NLP) 분야에서 놀라운 성과를 거두며, 최근에는 컴퓨터 비전 영역에서도 각광받고 있다. 하지만 비전 트랜스포머(ViT)는 여전히 CNN보다 성능이 뒤처지는 경우가 많다. 그 이유는 크게 두 가지다:

CNN의 귀납적 편향(inductive bias): 지역적 특징과 변형에 강건함.
트랜스포머의 높은 연산 복잡도: 어텐션 메커니즘의 시간 복잡도가 O(n²)에 달함.

이 논문은 이러한 두 가지 약점을 정면으로 개선하는 혁신적인 구조, EEViT를 제안한다. 두 가지 주요 아키텍처인 EEViT-PAR와 EEViT-IP는 ViT보다 빠르고, CNN보다 똑똑하다.

EEViT-PAR: 정보 손실 없는 효율적인 어텐션 설계

EEViT-PAR는 PerceiverAR 아키텍처를 기반으로 하면서도, 중요한 개선을 더한다. 기존 PerceiverAR는 입력 정보를 context와 latent로 나누어 latent만 후속 층에서 사용했기 때문에 context 정보가 빠르게 손실되었다.

EEViT-PAR는 다음과 같은 방식으로 이 문제를 해결한다:

처음 k개 층에서 context를 유지하고 점진적으로 정제
CLS 토큰을 후반부에만 사용하여 표현 학습과 분류 기능을 분리

이 설계는 연산량을 ViT의 약 1/4 수준으로 줄이면서도 분류 정확도는 거의 동일하게 유지한다. 특히 ImageNet, CIFAR-10/100, Tiny ImageNet 등 다양한 데이터셋에서 ViT와 유사하거나 더 나은 성능을 보였다.

개인적으로, 이 구조에서 context와 latent를 동시에 정제해 나가는 접근이 특히 인상적이다. 이는 시계열 데이터나 의료 영상 등 고정적 맥락 정보가 중요한 문제에 적용 가능성이 크다.

EEViT-IP: 정보 전파로 풀어낸 트랜스포머의 '창문'

EEViT-IP는 SWIN 트랜스포머의 윈도우 어텐션 아이디어를 차용하되, 더욱 단순하고 효율적인 방식으로 구현했다. 핵심 개념은 다음과 같다:

입력 시퀀스를 겹치는 세그먼트로 분할
PerceiverAR 스타일 어텐션을 각 세그먼트에 적용
겹치는 영역을 통해 정보가 층(layer)을 거치며 자연스럽게 전파

이 방식은 마치 CNN의 필터가 이동하면서 정보를 통합하는 것처럼, 인접한 패치 간의 연관성을 강화한다. 실험 결과 EEViT-IP는 Swin-T 모델과 유사한 정확도를 보이면서도 GPU 메모리 사용량은 절반 이하에 불과했다.

흥미롭게도, EEViT-IP는 단순한 구조임에도 정보 흐름을 설계하는 방식이 정교하다. 이는 시각 뿐만 아니라 멀티모달(VLM) 모델에서 언어와 이미지 간 의미 연결에도 활용될 수 있다.

실험 결과 요약: 작지만 강한 EEViT

모델	CIFAR-10	CIFAR-100	Tiny ImageNet	ImageNet-1K	파라미터 수
ViT	87.3%	62.7%	46.8%	64.4%	15M
PerceiverAR	80.2%	52.7%	28.2%	56.3%	15M
EEViT-PAR	87.2%	62.8%	45.7%	63.9%	15M
Swin-T	89.1%	60.6%	52.1%	-	27M
EEViT-IP	91.7%	66.0%	51.1%	-	14M

EEViT가 가지는 시사점

효율성과 정확도의 균형: EEViT는 정확도를 희생하지 않고도 연산량을 크게 줄일 수 있음을 보여준다.
트랜스포머의 보편성 확장: ViT의 구조를 개선함으로써 VLM, 자율주행, 의료영상 등 다양한 분야에 트랜스포머의 활용성을 높인다.
단순한 것이 강하다: 복잡한 하이브리드 구조 없이도, 겹침과 분할만으로도 정보의 흐름과 표현을 극대화할 수 있음을 보여준다.

개인적으로 EEViT-IP 구조는 미래의 멀티모달 트랜스포머 구조의 기본 단위로 활용될 수 있을 것으로 기대한다. 언어-시각 통합 학습에서 효율성과 표현력이 모두 중요한 과제이기 때문이다.

결론

EEViT는 단순한 구조 개선을 통해 ViT의 주요 약점을 극복하고, CNN 수준 혹은 그 이상의 성능을 달성했다. 특히 EEViT-IP는 구조적으로 가볍고 효율적이면서도 정보 표현 능력이 뛰어나, 향후 VLM 및 다양한 멀티모달 응용에서 핵심 모듈로 주목받을 수 있다.

이제 트랜스포머가 '비전의 시대'를 다시 이끌 준비를 마친 듯하다.

출처

Mahmood, R., Patel, S., & Elleithy, K. (2025). EEViT: Efficient Enhanced Vision Transformer Architectures with Information Propagation and Improved Inductive Bias. AI, 6(233). https://doi.org/10.3390/ai6090233