MoCoOp 모델의 구성도: 라우팅 모듈을 사용하여 다양한 소프트 프롬프트를 선택하고, 하드 프롬프트와의 유사성을 유지하며 텍스트 특징을 얻는다.

CLIP을 뛰어넘는 프롬프트 혁명:

서론: 프롬프트 학습의 진화와 도전 과제

AI 모델이 점점 더 강력해짐에 따라, 사전학습된 비전-언어 모델(VLM)의 활용도가 높아지고 있다. 특히 텍스트와 이미지를 연결하는 CLIP 같은 모델은 이미지 분류, VQA, 생성 모델 등 다양한 분야에서 활용되고 있다. 그런데 이 강력한 모델들을 다양한 실제 응용에 맞게 조정하려면 어떻게 해야 할까? 최근 부각되고 있는 방법이 바로 '프롬프트 학습(prompt learning)'이다.

프롬프트 학습은 원래 언어 모델의 문맥 설정에서 출발했지만, 비전-언어 모델에서도 탁월한 효과를 보이고 있다. 특히 CoOp(2022) 모델은 고정된 하드 프롬프트를 벗어나, 학습 가능한 소프트 프롬프트로 유연하게 성능을 향상시켰다. 그러나 여전히 두 가지 근본적인 문제가 남아 있었다:

하나의 소프트 프롬프트로는 다양한 이미지 스타일을 포괄하기 어렵다.
소수 샘플 학습 시 과적합이 심화된다.

이러한 문제를 극복하기 위해 새롭게 등장한 모델이 바로 이번 글에서 소개할 'MoCoOp(Mixture of prompts learning with CoOp)'이다.

본론 1: MoCoOp은 왜 혁신적인가?

MoCoOp의 핵심 아이디어는 단순하다. "프롬프트도 다양화하자."

기존 CoOp은 모든 이미지에 동일한 소프트 프롬프트를 적용했다. 그러나 MoCoOp은 상황에 맞는 프롬프트를 선택하기 위해 라우팅 모듈을 도입했다. 다양한 스타일의 소프트 프롬프트를 미리 준비해두고, 이미지 특성에 맞춰 가장 적합한 것들을 골라 조합하는 방식이다.

여기서 주목할 점은, 단순히 선택만 하는 것이 아니라, 하드 프롬프트로부터의 지식을 유지하면서 선택 정확도를 높이기 위한 '게이팅 손실(gating loss)'까지 도입했다는 것이다.

본론 2: 의미론적 프롬프트 그룹화와 일반화 성능 향상

MoCoOp은 또 하나의 혁신으로, 의미론적으로 그룹화된 텍스트 수준 감독을 도입했다. 예를 들어, "a photo of a {class}" 와 "an image showing a {class}" 같은 하드 프롬프트들을 같은 그룹으로 묶고, 이들을 기반으로 소프트 프롬프트를 초기화한다.

이러한 기법은 베이스 클래스와 뉴 클래스 간 일반화를 테스트하는 base-to-new 실험에서 뚜렷한 성능 향상으로 이어졌다.

본론 3: 실험 결과로 보는 MoCoOp의 성능

MoCoOp은 총 11개 데이터셋에서 기존 CoOp, ProGrad, CoCoOp, KgCoOp 등을 압도하며 뛰어난 성능을 보여줬다. 특히 베이스 클래스와 새로운 클래스 모두에서 높은 정확도를 유지했고, 하모닉 평균(H)에서도 평균 80.14%라는 뛰어난 수치를 기록했다.

실생활 응용 가능성

자동차 번호판 인식, 의료 영상 분류와 같은 다양한 스타일의 이미지가 혼재된 환경에서 큰 효과
이미지 생성 프롬프트 자동화: 스타일을 자동 분석하고 가장 어울리는 문장을 생성

비판적 시각: 앞으로의 과제는?

컴퓨팅 비용: CoOp보다는 연산량이 많음
프롬프트 그룹화의 수작업 의존성: LLM을 활용한 자동화가 가능
하이퍼파라미터 민감성: λ₁, λ₂ 등의 조절이 성능에 큰 영향

결론: 프롬프트의 다양화는 곧 인공지능의 적응력이다

MoCoOp은 단순한 성능 향상을 넘어서, 프롬프트를 다변화하고 자동으로 조정하는 방향이 향후 비전-언어 모델의 진화 방향임을 보여준다. 다양한 이미지 문맥을 이해하고 적절한 텍스트를 매칭하는 능력은 실생활 응용에서 큰 잠재력을 지닌다.

앞으로 MoCoOp과 같은 기술이 발전한다면, 우리는 더 적은 데이터로도 더 정교한 AI 응용을 구현할 수 있을 것이다.

출처:
Du Y, Niu T and Zhao R (2025) Mixture of prompts learning for vision-language models. Front. Artif. Intell. 8:1580973. doi: 10.3389/frai.2025.1580973

AI-World-Story

MoCoOp이 여는 비전-언어 모델의 새 시대