GRPO의 최적 그룹 크기는 왜 64가 아닐까? RLHF 학습 비용을 70% 이상 줄인 새로운 최적화 연구

최근 한국전자기술연구원(KETI)의 김태현·이경택 연구진은 RLHF(Reinforcement Learning from Human Feedback) 학습 과정에서 널리 사용되는 GRPO(Group Relative Policy Optimization)의 핵심 하이퍼파라미터인 그룹 크기(Group Size)를 자동으로 최적화하는 새로운 방법을 발표했다. 이번 연구는 단순히 모델 성능을 높이는 것이 아니라, 제한된 GPU 메모리와 연산 자원 환경에서 어떻게 하면 최대한 효율적으로 대규모 언어모델을 학습시킬 수 있는지에 초점을 맞췄다.

최근 DeepSeek-R1과 같은 추론 모델들이 주목받으면서 GRPO는 PPO를 대체하는 RLHF 학습 방법으로 빠르게 확산되고 있다. 하지만 실제 현장에서는 "그룹 크기를 몇으로 설정해야 하는가?"라는 매우 실용적인 문제가 존재한다. 연구진은 바로 이 문제를 정면으로 다뤘다.

RLHF의 숨겨진 병목, 그룹 크기 문제

GRPO는 기존 PPO와 달리 Critic 모델을 제거해 메모리 사용량을 크게 줄인 강화학습 기법이다. 하나의 프롬프트에 대해 여러 개의 답변을 생성한 뒤, 이들 사이의 상대적 보상을 비교해 학습을 진행한다.

여기서 등장하는 것이 그룹 크기(G)다.

예를 들어 G=2라면 프롬프트마다 2개의 답변을 생성한다. G=64라면 64개의 답변을 생성한다.

문제는 다음과 같다.

그룹 크기가 작으면 메모리는 적게 사용한다.
하지만 보상 추정의 분산이 커져 학습이 불안정해진다.
그룹 크기가 크면 학습 안정성은 높아진다.
대신 GPU 메모리 사용량과 학습 시간이 폭증한다.

실제로 많은 연구와 오픈소스 구현에서는 관행적으로 G=64를 사용한다. 그러나 연구진은 이런 고정값이 모델 규모, 작업 난이도, 하드웨어 환경을 전혀 고려하지 않는다는 점에 주목했다.

그룹 크기를 수학적으로 최적화할 수 있을까

이번 연구의 핵심은 그룹 크기를 경험적 감각이 아니라 최적화 문제로 재정의한 데 있다.

연구진은 먼저 그룹 크기가 커질수록 Advantage 분산이 감소한다는 점을 이론적으로 분석했다. 그룹 크기가 증가하면 분산은 대략 1/G 비율로 감소하지만, 어느 시점 이후에는 추가적인 이득이 매우 작아진다.

쉽게 말하면 다음과 같다.

G=2 → G=8로 늘리면 큰 효과
G=32 → G=64로 늘리면 효과는 미미
그러나 비용은 계속 증가

즉, 무조건 큰 값이 좋은 것이 아니라 "충분히 안정적이면서도 자원을 낭비하지 않는 지점"이 존재한다는 것이다.

베이지안 최적화와 Hyperband를 결합한 BOHB

연구진은 이 문제를 해결하기 위해 BOHB(Bayesian Optimization and Hyperband)라는 최적화 기법을 적용했다.

이 방법은 다음과 같은 요소를 동시에 고려한다.

모델 정확도
Advantage 분산
GPU 메모리 사용량
처리 속도(Throughput)

즉 단순히 성능만 높이는 것이 아니라, 성능과 비용을 함께 고려하는 다목적 최적화(Multi-objective Optimization)를 수행한다.

연구진은 이를 위해

분산 안정성 분석
하드웨어 비용 모델링
정규화된 다목적 함수 구성
BOHB 기반 탐색

이라는 4단계 프레임워크를 구축했다.

수학 문제 데이터셋에서 발견된 최적의 그룹 크기

연구진은 Qwen2.5-7B 모델을 이용해 GSM8K와 MATH 데이터셋에서 실험을 진행했다.

GSM8K 결과

전통적으로 사용되던 G=64에서는 정확도 70.73%, VRAM 129.4GB가 필요했다.

반면 BOHB가 찾은 최적값은 G=12였다.

결과는 다음과 같았다.

정확도 66.62%
VRAM 35.6GB
처리속도 762 tokens/sec

정확도는 G=64 대비 약 5.8% 정도만 낮았지만, GPU 메모리는 72.5% 절감됐다. 또한 처리속도는 약 4배 가까이 향상됐다.

이는 실제 서비스 환경에서는 매우 큰 차이다.

어려운 문제일수록 더 큰 그룹이 필요했다

흥미로운 점은 문제 난이도에 따라 최적 그룹 크기가 달라졌다는 사실이다.

고난도 수학 벤치마크인 MATH에서는 최적값이 G=14로 증가했다.

연구진은 어려운 문제일수록 보상 분포가 불안정해지고 첨도(kurtosis)가 높아지기 때문이라고 설명한다. 즉 학습 안정성을 확보하려면 더 많은 샘플이 필요하다는 의미다.

이는 모든 작업에 동일한 그룹 크기를 사용하는 현재 관행이 비효율적일 수 있음을 보여준다.

멀티모달 AI에서는 오히려 더 작은 그룹이 최적이었다

연구진은 텍스트 모델뿐 아니라 비전-언어 모델(VLM)에도 같은 방법을 적용했다.

Qwen2.5-VL-3B와 RefCOCO 데이터셋을 사용한 실험에서는 최적 그룹 크기가 G=8로 나타났다.

그 이유는 이미지 토큰 때문이다.

고해상도 이미지는 수천 개의 비주얼 토큰으로 변환되며, 이는 시퀀스 길이를 크게 증가시킨다. 결과적으로 동일한 그룹 크기라도 메모리 사용량이 훨씬 빠르게 증가한다.

실제로 G=64에서는 188.5GB의 VRAM이 필요했다. 이는 대부분의 단일 GPU 환경에서는 사실상 불가능한 수준이다.

학습 중에도 최적 그룹 크기는 변할 수 있다

연구진은 여기서 한 걸음 더 나아갔다.

모델이 학습될수록 보상 분포 자체가 바뀌기 때문에 처음 찾은 최적값이 끝까지 최적이라고 보장할 수 없다는 점에 주목했다.

그래서 주기적으로 그룹 크기를 다시 탐색하는 Online Adaptation 기법을 추가했다.

실험 결과는 다음과 같다.

전략	최종 보상	VRAM 사용 비용
고정 G=64	0.682	145.2
고정 G*=12	0.678	42.8
적응형 G*	0.689	38.5

적응형 방식은 오히려 성능을 높이면서도 연산 비용을 더 줄였다. 학습 후반부에 안정성이 높아지면 G를 12에서 8로 낮춰 자원을 절약할 수 있었기 때문이다.

이번 연구가 갖는 의미

이번 연구의 가장 중요한 메시지는 "좋은 하이퍼파라미터는 고정값이 아니다"라는 점이다.

지금까지 많은 RLHF 연구는 그룹 크기를 단순한 설정값 정도로 취급했다. 하지만 이번 연구는 그룹 크기가 다음 요소에 따라 달라져야 함을 보여준다.

모델 규모
작업 난이도
시퀀스 길이
멀티모달 여부
GPU 자원

즉 앞으로 RLHF 시스템은 모델마다, 작업마다, 하드웨어마다 서로 다른 그룹 크기를 사용해야 할 가능성이 높다.

특히 기업 환경에서는 GPU 비용이 모델 개발 비용의 상당 부분을 차지한다. 따라서 정확도를 거의 유지하면서 메모리를 70% 이상 절감할 수 있다는 결과는 매우 실용적인 의미를 가진다.

아직 남아 있는 과제

물론 이번 연구에도 한계는 존재한다.

첫째, 실험이 Qwen 계열 모델 중심으로 수행됐다. 다른 아키텍처에서도 동일한 결과가 나오는지 추가 검증이 필요하다.

둘째, 주로 수학 추론과 비전-언어 과제에 집중했다. 코드 생성, 에이전트 작업, 장문 추론 등에서도 비슷한 패턴이 나타나는지 확인해야 한다.

셋째, BOHB 탐색 자체도 추가 비용이 발생한다. 연구진은 랜덤 탐색 대비 약 74% 비용을 절감했다고 보고했지만, 실제 산업 환경에서는 더욱 경량화된 방식이 필요할 수 있다.

그럼에도 이번 연구는 RLHF 최적화 분야에서 중요한 방향을 제시한다. 앞으로는 "얼마나 큰 모델을 학습할 것인가"뿐 아니라 "얼마나 효율적으로 학습할 것인가"가 경쟁력이 되는 시대가 오고 있기 때문이다.

출처

Kim, T., & Lee, K.-T. (2026). Efficiency-Aware Group Size Optimization for GRPO via Multi-Fidelity Bayesian Optimization. AI, 7(7), 234. https://doi.org/10.3390/ai7070234