복잡한 결정 구조도 똑소리 나게 학습하는 인공지능 알고리즘의 등장
다양한 선택 조합이 중간 결과를 거쳐 최종 보상으로 이어지는 과정 |
“무작위 실험, 더 똑똑해지다!” –
“이 가격이 맞을까? 광고 예산은 이 정도면 충분할까?”
온라인 마케터라면 매일 부딪히는 고민이다. 가격을 낮추면 많이 팔릴 것 같지만, 수익은 줄어들고, 광고를 더 하면 더 팔릴지 모르지만 돈이 남을지는 미지수다. 인공지능도 이런 상황에서는 비슷한 딜레마에 빠진다.
최근 이탈리아 밀라노 공대(Politecnico di Milano)의 연구진은 이처럼 복잡한 선택 구조에서 효율적으로 ‘최고의 선택’을 찾아내는 새로운 인공지능 학습 기법을 제안했다. 이름하여 Factored-Reward Bandits(FRB). 직역하자면 ‘요소별 보상 구조를 갖는 슬롯머신 모델’쯤 된다. 연구는 AI 분야 국제 저널 Artificial Intelligence에 게재되었다.
단순한 선택은 끝났다, 이제는 ‘조합’의 시대
우리가 흔히 아는 슬롯머신(또는 ‘멀티 암드 밴딧’) 문제는 간단하다. 여러 개의 버튼(팔) 중 하나를 눌러보고 보상이 좋은 버튼을 찾아내는 게임이다. 하지만 현실은 그렇게 단순하지 않다.
논문에서는 예로, 전자상거래 마케팅을 든다. 제품을 판매할 때 우리는 두 가지 결정을 동시에 내려야 한다:
- 가격을 얼마로 정할 것인가
- 광고에 얼마를 투자할 것인가
이 두 가지 결정은 각각 구매 전환율과 광고 노출 수라는 중간 결과를 낳는다. 그리고 최종 보상, 즉 수익은 이 두 중간 결과의 곱셈 결과에 의해 결정된다.
“중간 결과까지 학습에 활용하라!”
기존 방법은 최종 수익(보상)만을 보고 어떤 결정 조합이 좋은지 학습해왔다. 하지만 이렇게 하면 중요한 정보를 놓치게 된다. 예를 들어, 광고 예산을 바꿨을 때 노출 수가 얼마나 달라지는지를 직접 관찰할 수 있다면, 가격이나 다른 변수와 관계없이 그 ‘부분 효과’를 더 빨리 파악할 수 있지 않을까?
연구진은 이런 통찰을 바탕으로, ‘중간 관찰값(intermediate observations)’도 활용하는 새로운 학습 방법을 제안했다. 이를 통해 인공지능은 훨씬 적은 시행착오로도 최고의 조합을 찾아낼 수 있다.
두 개의 똑똑한 알고리즘: F-UCB와 F-Track
논문에서는 두 가지 주요 알고리즘을 제안했다.
- F-UCB: 각 결정 요소마다 따로 낙관적인 확률 추정을 적용하는 간단하고 빠른 방식
- F-Track: 각 요소 간 상호작용을 정밀하게 추적하여 장기적으로 최고의 성능을 보장
F-Track은 더 정교하지만 계산량이 많고, F-UCB는 빠르면서도 적당한 성능을 낸다.
가장 좋은 조합을 ‘확신’ 있게 고르기
광고 캠페인을 실행하기 전, 예산 내에서 최고의 가격-광고 조합을 선택해야 한다면 어떻게 해야 할까? 이를 위해 연구진은 F-SR이라는 알고리즘도 설계했다. 정해진 시간 내에서 거의 틀리지 않고 최고의 조합을 선택하게 해준다.
왜 이 연구가 중요한가?
현실 세계의 문제는 대부분 복합적인 선택으로 이뤄져 있다. 이 논문은 바로 그런 복합 구조의 결정 문제를 효율적으로 학습할 수 있는 새로운 틀을 제시한다.
또한 이 연구는 ‘정보를 얼마나 똑똑하게 활용하느냐’가 AI의 성능에 얼마나 큰 영향을 주는지를 잘 보여준다. 인간의 판단에서도 통하는 교훈이다.
앞으로의 가능성
이 기법은 향후 마케팅 최적화, 로봇의 행동 조합 결정, 의료 분야의 약물 조합 실험 등 다양한 분야에 적용될 수 있다.
출처 논문
Mussi, M., Drago, S., Restelli, M., & Metelli, A. M. (2025). Factored-Reward Bandits with Intermediate Observations: Regret Minimization and Best Arm Identification. Artificial Intelligence, 104362. https://doi.org/10.1016/j.artint.2025.104362