셀프 슈퍼바이즈드 러닝(SSL), 어떻게 제대로 평가할까?

셀프 슈퍼바이즈드 러닝

요즘 인공지능(AI) 분야에서 가장 뜨거운 키워드 중 하나는 단연 '셀프 슈퍼바이즈드 러닝(Self-Supervised Learning, SSL)'이다. 사람 손으로 라벨링하지 않은 데이터를 활용해 스스로 학습하는 이 기술은, 데이터 라벨링 비용을 줄이고 다양한 응용 가능성을 넓힌다는 점에서 각광받고 있다. 그런데, 여기서 중요한 질문이 나온다. "과연 우리는 SSL 모델을 제대로 평가하고 있을까?"

최근 발표된 논문이 바로 이 문제를 깊이 파고들었다. 제목은 "이미지 분류를 통한 셀프 슈퍼바이즈드 사전학습 벤치마킹 재조명(A Closer Look at Benchmarking Self-supervised Pre-training with Image Classification)"이다. 지금부터 이 논문의 주요 내용을 살펴보자.

셀프 슈퍼바이즈드 러닝, 왜 중요한가?

SSL은 데이터 자체에서 학습 신호를 얻는다. 예를 들어, 이미지의 일부를 가리고 나머지를 보고 복원하는 식이다. 이렇게 하면 방대한 비라벨 데이터로도 강력한 표현력을 가진 모델을 만들 수 있다. 최근 컴퓨터 비전, 자연어 처리, 의료 영상 등 다양한 분야에서 SSL이 엄청난 성과를 내고 있다.

특히 컴퓨터 비전에서는 SSL로 사전학습(pre-training)한 후, 특정 태스크에 맞춰 미세조정(fine-tuning)하는 방식이 널리 쓰인다. 그런데, 문제는 여기에 있다. "어떤 SSL 방법이 좋은가?"를 평가하는 기준이 명확하지 않다는 것!

평가 방법, 이래도 되는 걸까?

지금까지 SSL 모델들은 주로 다음 세 가지 방법으로 평가됐다.

- 선형 프로빙(Linear probing): 사전학습된 특징 위에 단순한 선형 분류기를 학습시켜 성능을 본다.

- k-최근접 이웃(kNN) 프로빙: 학습된 임베딩 공간에서 비슷한 샘플끼리 가까이 있는지를 kNN으로 본다.

- 전체 미세조정(Fine-tuning): 모델 전체를 다시 학습시켜 성능을 비교한다.

이런 방식들이 직관적이긴 한데, 과연 각각이 진짜 모델의 "좋은 표현력을" 평가하는 데 적합한지는 명확하지 않았다. 어떤 방법은 과적합에 민감하고, 어떤 방법은 데이터셋에 따라 들쭉날쭉했기 때문이다.

대규모 실험, 그리고 놀라운 결과

연구팀은 26개 SSL 모델을 11개 다른 이미지 데이터셋에 적용해 평가했다. 다양한 모델 구조(ResNet, ViT)와 다양한 SSL 방법(대조학습, 생성형 학습 등)을 포함했다. 그리고 각각을 선형 프로빙, kNN, 전체 미세조정, 소수 샷(10%, 1%) 미세조정 등 다양한 방식으로 비교했다.

결론은 이랬다.

- 선형 프로빙과 kNN 프로빙이 평균적으로 가장 좋은 예측력을 가진다.

- 전체 미세조정은 생각보다 예측력이 낮았다.

- 특히, 10% 소수 샷 미세조정이 전이 학습(transfer learning) 성능 예측에 가장 적합했다.

즉, 복잡하고 비싼 전체 미세조정보다 오히려 가벼운 프로빙 방법이 더 신뢰할 만하다는 것이다! 이 얼마나 반전인가.

도메인 이동(domain shift), 얼마나 영향을 받을까?

SSL 모델을 학습시킨 데이터와 실제 적용할 데이터가 다를 때(=도메인 이동) 성능이 떨어지는 문제도 조사했다. 결과는 이랬다.

- 카테고리 변화(예: 강아지 → 고양이)에는 꽤 잘 견딘다.

- 스타일 변화(예: 사진 → 그림)에는 훨씬 민감하다.

또한, 선형 프로빙과 kNN은 도메인 이동 상황에서도 성능 순위를 비교적 잘 예측했다. 반면 전체 미세조정은 도메인 이동에 약했다.

배치 정규화, 이렇게 중요한 줄 몰랐다

또 하나 흥미로운 발견이 있었다. 임베딩(특징 벡터)을 사용할 때, 배치 정규화(batch normalization)를 적용하느냐에 따라 성능이 크게 달라진다는 것이다.

특히 MaskFeat 같은 생성형 SSL에서는 배치 정규화를 해야 선형 프로빙과 kNN 성능이 제대로 나왔다. 반면 DINO 같은 대조학습 모델에서는 별 차이가 없었다. 작은 디테일이 결과를 크게 바꿀 수 있다는 사실을 다시금 일깨워준다.

'생성형' vs '대조학습' 논쟁, 그게 아니었다

기존에는 생성형 SSL(예: 마스크드 오토인코더)이 표현력은 좋지만 선형 분리가 잘 안 된다고 알려져 있었다. 반대로 대조학습 기반 SSL(예: SimCLR, MoCo)은 선형 분리가 잘 된다고 여겨졌다.

그런데 이번 연구는 다른 관점을 제시했다. 모델의 차이는 "SSL 방법" 때문이 아니라, 백본(backbone) 아키텍처 — 즉, ResNet이냐, Vision Transformer(ViT)이냐 — 때문일 가능성이 높다는 것이다.

같은 SSL 방법이라도 백본을 ResNet에서 ViT로 바꾸면 선형 프로빙 성능이 확 떨어진다. 이는 학습 방법이 아니라 네트워크 구조 자체가 영향을 미친다는 뜻이다.

요약: SSL 모델 평가, 이렇게 하자

- 가볍고 빠른 선형 프로빙 또는 kNN 프로빙을 기본 평가로 삼자.

- 전이 학습을 염두에 둘 때는 10% 소수 샷 미세조정 결과를 참고하자.

- 배치 정규화를 신경 쓰자, 특히 생성형 SSL에서는 필수!

- 단순히 SSL 방법 종류만 볼 게 아니라 백본 구조도 함께 고려하자.

SSL이 앞으로 AI의 핵심 기둥이 될 것이라는 점은 분명하다. 그렇다면 그 성능을 어떻게 "공정하고 정확하게" 측정할지 고민하는 일도 필수다.

"평가 기준이 바뀌면, 연구의 방향도 달라진다."

우리가 무엇을 기준으로 삼느냐에 따라, 미래 SSL의 모습은 크게 달라질지 모른다.

---

#셀프슈퍼바이즈드러닝 #SSL #이미지분류 #AI모델평가 #전이학습

---

출처 논문

- 이미지 분류를 통한 셀프 슈퍼바이즈드 사전학습 벤치마킹 재조명

- A Closer Look at Benchmarking Self-supervised Pre-training with Image Classification

- 저자: Markus Marks (California Institute of Technology) 외 6인

- 발행 일자: 2025년 2월 17일

- 저널 이름: International Journal of Computer Vision