AI가 판사라고? 검색 시스템도 이제 '판단'받는다
— 대규모 언어 모델을 활용한 검색 쿼리 평가 자동화의 시대
온라인에서 뭔가를 검색할 때, 우리는 생각보다 복잡한 의도를 담는다. 예를 들어 "5천만 원 이하 중고 빨간 BMW" 같은 검색어에는 예산, 차량 상태, 브랜드, 색상 등 다양한 정보가 포함된다. 이런 검색어를 잘게 쪼개어 정확한 결과를 보여주는 기술이 바로 '검색 쿼리 파싱'이다. 문제는 이 기술이 잘 작동하는지를 어떻게 평가하느냐는 것. 기존에는 사람이 일일이 평가하거나, 간단한 규칙으로 확인했지만, 이제 인공지능이 그 역할을 맡기 시작했다.
최근 발표된 연구 ‘LLM-as-a-Judge’는 대규모 언어 모델(LLM)을 ‘판사’처럼 활용해 검색 쿼리 파싱의 정확도를 자동으로 평가하는 방법을 제안했다. 마치 AI가 학생의 답안을 채점하듯, 검색 시스템의 출력을 꼼꼼하게 판단해주는 것이다.
평가하는 AI, 그것도 꽤 똑똑하게
이 연구의 주인공은 ‘LLM-as-a-Judge’, 즉 "판사로서의 대규모 언어 모델"이다. 이름만 보면 마치 법정 드라마 같지만, 실제로는 매우 실용적인 기술이다. 예를 들어 중고차나 부동산 같은 분류광고 플랫폼에서 사용자가 입력한 검색어를 정확히 해석하고 결과를 잘 보여주는 시스템이 제대로 작동했는지를 AI가 평가해주는 방식이다.
이 AI 판사는 세 가지 방식으로 평가를 진행한다:
- Pointwise 평가: 단일 출력에 대해 0~4점까지 점수를 매긴다.
- Pairwise 평가: 두 개의 결과를 비교해 더 나은 쪽을 고른다.
- Pass/Fail 평가: 합격/불합격 여부만 판정한다.
각 방식에는 명확한 기준표와 예시가 함께 제공된다. 예를 들어 ‘위치 정보가 제대로 추출되었는가’, ‘키워드와 동의어가 정확한가’ 등 세부 기준에 따라 점수가 매겨진다.
또한 이 모델은 맥락도 고려한다. 예컨대 “급매 아파트”라는 검색어에서 "급매"가 의미하는 가격 조건을 추론해낼 수 있는 식이다. 단순히 단어 일치 여부를 확인하는 기존 방식보다 훨씬 정교하다.
사람처럼 평가하는 AI, 진짜 사람과 얼마나 닮았을까?
그렇다면 이 ‘AI 판사’는 실제 사람의 판단과 얼마나 비슷할까? 연구팀은 소규모 실험과 대규모 테스트를 거쳐 인간 평가자와 LLM의 판단 일치율을 분석했다. 결과는 꽤 놀랍다.
- 90% 가까운 일치율: 특히 Pass/Fail 평가에서는 AI와 인간 평가자 간 일치율이 90%에 달했다.
- 문맥 라우팅 전략 도입: 검색어의 주제가 ‘부동산’인지 ‘자동차’인지에 따라 평가 기준을 다르게 적용하는 전략도 추가되었고, 이로 인해 평가 정확도가 더욱 향상됐다.
게다가 이 프레임워크는 특정 도메인(예: 중고차, 부동산)에 맞춘 평가 기준을 유연하게 적용할 수 있어 실제 산업에 바로 활용할 수 있다는 장점이 있다. 평가 기준이 고정된 기존 시스템과 달리, 이 AI는 다양한 문맥과 분야에 맞춰 "생각을 바꿀" 수 있다.
이 연구가 던지는 메시지: 평가도 자동화될 수 있다
이번 연구는 검색 시스템뿐 아니라, 더 넓은 범위의 AI 시스템 평가에도 시사점을 준다. AI가 만든 결과물을 다시 AI가 평가한다는 구조는 미래의 다양한 분야에서 응용될 수 있다. 예를 들어 교육 분야에서 AI가 학생의 답안을 평가하거나, 법률 분야에서 문서 자동 검토에 활용되는 것도 가능하다.
물론 아직 한계도 있다. 평가의 일관성을 확보하기 위해 여러 번 실행하고 평균을 내야 하고, 특정 문맥에서의 오판 가능성도 존재한다. 하지만 이런 한계마저도 모델이 반복 학습을 통해 점차 개선되고 있다는 점에서 미래는 꽤 밝아 보인다.
결국 이 연구가 보여준 가장 큰 가능성은 이것이다. “평가마저도 자동화될 수 있다”는 것. 그것도 사람만큼, 어쩌면 그 이상으로 정밀하게.
📚 출처
Baysan, M. S., Uysal, S., İşlek, İ., Çığ Karaman, Ç., & Güngör, T. (2025). LLM-as-a-Judge: Automated evaluation of search query parsing using large language models. Frontiers in Big Data, 8, Article 1611389. https://doi.org/10.3389/fdata.2025.1611389