스마트폰에서도 빠르게 돌아가는 비전 트랜스포머?AutoViT가 해낸 진짜 효율화의 비밀

스마트폰에서 작동 중인 AI 칩과 연산 블록 구조, 그리고 응답 시간 105ms가 표시된 비전 트랜스포머 삽화

AI 칩과 비전 트랜스포머 구조, 그리고 응답 속도를 시각화한 AutoViT 개념도

인공지능 분야에서 이미지 인식이나 객체 탐지에 가장 강력한 무기 중 하나는 단연 비전 트랜스포머(ViT)다. 하지만 문제는 “너무 무겁다”는 것. 강력한 만큼 연산량이 많아, 스마트폰 같은 모바일 기기에서는 작동이 느리거나 아예 불가능한 경우도 많다.

그래서 연구자들이 궁금해졌다.

“정말 모바일에서도 실시간으로 작동할 수 있는 비전 트랜스포머를 만들 수 없을까?”

이 질문에 대한 대답을 찾기 위해, 미국 노스이스턴대학교와 마이크로소프트의 공동 연구팀은 새로운 알고리즘을 개발해냈다. 이름하여 AutoViT. 이 모델은 단순히 작게 만든 ViT가 아니라, 하드웨어의 특성을 고려해 ‘진짜로 빠르게’ 동작하는구조를 자동으로 찾아주는 신형 검색기술(NAS)을 사용한다.

트랜스포머 vs CNN, 누가 더 모바일에 적합할까?

전통적으로 이미지 처리에는 합성곱 신경망(CNN)이 강세였다. 그런데 트랜스포머가 등장하면서 이야기의 흐름이 달라졌다. CNN은 지역 정보에는 강하지만 전체 구조를 파악하는 데 약했고, 트랜스포머는 반대로 전체적인 시야는 좋지만 계산량이 많고 느렸다.

연구팀은 둘의 장점을 합치기로 했다. CNN의 빠른 연산과 지역 처리능력, 트랜스포머의 전역 정보 추출능력을 결합해 ‘하이브리드 구조’를 만들고, 여기에 자동화된 설계 알고리즘(Neural Architecture Search, NAS)을 더했다. 단순히 성능만 보는 것이 아니라, 실제 디바이스에서의 속도(Latency)를 평가 기준으로 삼았다.

AutoViT의 비밀 병기: 하드웨어를 아는 NAS

AutoViT의 핵심은 “Latency-aware Coarse-to-Fine Search”, 즉 연산 지연을 중심으로 정밀하게 최적화하는 탐색 기법이다.

이들은 모델을 무작정 설계하지 않았다. 모바일 기기에서 실제로 각 연산 블록이 어느 정도 시간을 차지하는지를 미리 측정한 테이블(lookup table)을 만들어 놓고, 이 정보를 바탕으로 수천 가지 구조를 테스트했다. 그 결과, 실제 기기에서 가장 빠르게 동작하면서도 정확도는 거의 떨어지지 않는 이상적인 구조를 자동으로 뽑아냈다.

흥미롭게도, 이 방식은 기존 방식보다 수십 배 적은 연산량으로도높은 정확도를 낼 수 있었다.

결과는? 빠르고, 작고, 정확하다

AutoViT는 세 가지 크기의 모델을 내놓았다.가장 작은 AutoViT_XXS는 파라미터 수 1.8M, 연산량 0.3 GFLOPs로, MobileViT_XXS보다 2.3ms 더 빠르면서 정확도는 71.3%로 0.3% 더 높다.

중간급 AutoViT_XS는 75.5%의 정확도에 19.3ms의 지연 시간,상위급 AutoViT_S는 79.2%의 정확도에 27.9ms라는 속도를 기록했다.

즉, AutoViT는 더 가볍고 더 빠르면서도 정확도를 유지하는 데 성공한 것이다.

뿐만 아니라 이 모델은 이미지 분류 외에도 객체 탐지, 인스턴스 분할, CIFAR-10/100, 꽃/자동차 데이터셋 등 여러 상황에서도 높은 성능을 보였다.

결론: 하드웨어를 아는 AI, 진짜 실용화를 만든다

이번 연구는 한 가지 중요한 메시지를 던진다.

“AI 모델이 아무리 좋아도, 실제로 돌아가지 않으면 무용지물이다.”

AutoViT는 이 점을 정면으로 돌파했다. 실제 모바일 기기에서 빠르게 작동하는것을 목표로 설계부터 테스트, 최적화까지 모두 ‘실용성’을 중심으로 설계한 것이다.

AutoViT는 앞으로 자율주행, 모바일 AR, 스마트폰 기반 AI 비서 등에 응용될 가능성이 높다.단순히 ‘좋은 모델’이 아니라, ‘돌아가는 모델’을 만든 이번 시도는 AI의 다음 단계를 여는 초석이 될지도 모른다.

출처 논문Kong, Z., Xu, D., Li, Z., Dong, P., Tang, H., Wang, Y., & Mukherjee, S. (2025). AutoViT: Achieving Real-Time Vision Transformers on Mobile via Latency-aware Coarse-to-Fine Search. International Journal of Computer Vision.