‘SimZSL’, 클래스 이름조차 몰라도 똑똑해지는 인공지능이 나타났다

 

이름 없이 배우는 AI, 유사도의 눈으로 세상을 읽다


단어 없이도 배운다!


보통 인공지능에게 “사자”라고 하면, 뭔가를 떠올릴 수 있어야 한다. CLIP 같은 비전-언어 모델은 바로 그 능력을 기반으로 이미지를 분류한다. 이른바 “제로샷 러닝(Zero-Shot Learning)”, 즉 학습해본 적 없는 클래스를 맞히는 기술의 핵심이다.


하지만 문제는 이 방법이 ‘사자’라는 단어를 알아야만 작동한다는 것이다. 만약 ‘Lepomis macrochirus’ 같은 희귀 어류의 라틴어 이름이 주어진다면? 이 단어는 GPT도, CLIP도 처음 보는 단어일 가능성이 크다.


이때 기존 제로샷 모델은 무너진다. 언어 기반 임베딩이 작동하지 않기 때문이다. 바로 여기서 이번 논문이 제시한 솔루션, SimZSL이 등장한다. 단어 없이도 제로샷 학습을 가능하게 만드는 ‘유사도 기반 학습’이다.


---


 제로샷 학습의 대전제: 단어를 알고 있어야 한다?


지금까지의 제로샷 학습은 공통된 임베딩 공간을 전제로 한다. 예를 들어, ‘고양이’, ‘호랑이’, ‘개’ 같은 단어가 존재하고, 이 단어들을 텍스트 임베딩으로 바꿔서 이미지와 비교하는 식이다.


이런 접근은 ImageNet, CIFAR, CUB-Birds 같은 벤치마크에선 잘 작동한다. 하지만 생물학, 의학, 뇌과학처럼 이름이 낯설거나 의미 없는 경우, CLIP 기반 제로샷은 아예 무력화된다.


SimZSL은 "아예 언어를 쓰지 말자”는 대담한 제안을 한다. 대신, 클래스들 간의 유사도만 있다면 충분하다는 것이다.


---

우리는 유사도 기반의 제로샷 학습을 제안하며, 네 가지 도전 과제를 소개한다. a 도전 과제 I: 공통 이름 없는 제로샷. b 도전 과제 II: 다중 출처 제로샷 학습. c 도전 과제 III: 희귀한 누락 지식 기반 제로샷 학습. d 도전 과제 IV: 임의적 누락 지식 기반 제로샷 학습.


 이름 대신 필요한 건 ‘유사도 행렬’ 하나


SimZSL의 기본 아이디어는 단순하다. 클래스 간 유사도를 수치로 정리한 행렬만 있으면, 해당 클래스를 구분할 수 있다는 것.

예를 들어, ‘Class A’와 ‘Class B’는 비슷하고, ‘Class C’는 둘과 다르다… 이런 정보를 숫자화해 정리하면 된다.


그럼 이 유사도를 기반으로 어떻게 임베딩 공간을 만들까? 연구팀은 고전적인 수학 기법인 MDS(다차원 척도법)를 확장한 κ-MDS라는 알고리즘을 제안했다.

이 방법은 유사도를 거리로 바꾸고, 그 거리를 기반으로 각 클래스를 고차원 공간의 점으로 표현해낸다.


놀라운 건 이 방법이 유클리드 공간은 물론, 구면(hyperspherical)이나 쌍곡(hyperbolic) 공간에서도 잘 작동하도록 설계되었다는 것!


---


 챌린지 4종 세트: SimZSL의 진짜 쓰임새


연구팀은 단순히 모델을 제안하는 데 그치지 않았다. SimZSL이 기존 제로샷 방식으로는 풀기 어려운 네 가지 챌린지를 제시하며 그 효과를 입증했다.


 1. 이름이 쓸모없는 클래스들


생물학 데이터셋인 FishNet에서는 라틴어 이름만으로 구성된 231개 어류 클래스가 등장한다.

CLIP은 “this is a photo of Micropterus salmoides”라는 문장을 이해하지 못해 정확도가 1%도 안 나왔다.

하지만 SimZSL은 6.3%의 정확도로 명백히 더 나은 결과를 냈다.


 2. 서로 다른 데이터셋끼리의 제로샷


예를 들어, 동물(AWA2)과 풍경(SUN) 데이터셋을 동시에 다룰 때, 서로 다른 임베딩(속성 정보)을 가졌기 때문에 기존 방식은 적용이 어렵다.

SimZSL은 단순히 두 데이터셋 간 유사도만 있다면 공통 임베딩 공간을 만들 수 있다.


 3. 정보가 일부만 있는 경우


드문 클래스의 경우 유사도 정보가 일부만 존재할 수 있다.

SimZSL은 일부 클래스만 완전한 정보를 가진 ‘랜드마크’로 삼아, 나머지 클래스들의 위치도 유추해낸다.


 4. 유사도 정보가 랜덤하게 빠진 경우


웹 기반 수집이나 군중 소싱 데이터에서는 유사도가 불완전하게 들어올 수 있다.

SimZSL은 유사도가 50% 이상 빠진 경우에도 꽤 정확한 임베딩을 만들어낸다.


---


 정말 유사도만으로 충분한가?


연구진은 기존 방식의 임베딩(속성, 단어 벡터, 계층 구조 등)을 모두 유사도로 바꾼 뒤, 이를 κ-MDS에 넣어봤다.

놀랍게도, 대부분의 경우 성능이 본래 임베딩을 사용한 경우와 큰 차이가 없었다.


특히 CUB, AWA2, SUN 같은 다양한 데이터셋과 DeViSE, HZSL, VGSE 같은 여러 제로샷 모델에 대해 검증한 결과, 유사도 기반 임베딩도 충분히 효과적이었다.


---


 클래스 이름 몰라도 된다, 이게 진짜 제로샷


SimZSL은 기존 제로샷 방식의 한계를 정면 돌파했다. 이름 없는 클래스, 혼합 데이터셋, 정보 누락…

이 모든 상황에서 “우리는 서로 얼마나 비슷한가?”라는 질문 하나로 학습을 이어간다.


앞으로 이 방식은 언어적 임베딩이 어려운 뇌파 분석, 드문 질병 진단, 미지 생물 탐지, 비표준 언어권 데이터 처리 등에 크게 활용될 수 있다.


결론적으로, SimZSL은 제로샷 학습의 ‘언어 중심 패러다임’을 넘어서는 진짜 첫걸음을 내딛은 셈이다.

---

출처 논문

Ghadimi Atigh, M., Nargang, S., Keller-Ressel, M., & Mettes, P. (2025). SimZSL: Zero-Shot Learning Beyond a Pre-defined Semantic Embedding Space. International Journal of Computer Vision.