“변덕스러운 시장도 이젠 걱정 없다?”

주식 시장은 살아 숨 쉬는 유기체다. 매 순간 변화하고, 예측이 어렵다. 바로 이 '비예측성' 때문에 투자자들은 돈을 잃고, 시스템은 불안정해진다. 그런데, 이런 비정상적인 환경에서도 똑똑하게 적응하며 거래를 이어가는 새로운 인공지능 시스템이 등장했다. 이름하여 ‘POW-dTS’. 길고 복잡한 이름 뒤엔 어떤 기술이 숨어 있을까?

시장조성자(Market Maker), 그들은 누구인가

먼저 ‘시장조성자(Market Maker)’라는 존재부터 살펴보자. 이들은 말 그대로 시장을 ‘조성’한다. 거래가 활발하지 않은 주식이나 자산에서 스스로 매수·매도 주문을 올려 거래 상대방이 없어도 거래가 이루어지도록 돕는다. 이런 활동 덕분에 시장은 유동성을 유지하고, 가격은 급변하지 않게 된다.

하지만 시장조성자는 늘 위험을 감수해야 한다. 자신이 갖고 있는 자산(=재고)의 가치가 갑자기 떨어지거나 시장이 급변하면 큰 손실로 이어질 수 있기 때문이다. 때문에 이들은 늘 수익성과 함께 재고 리스크를 잘 조절해야 하는 이중 과제를 안고 있다.

그런데 이 시장, 평온하지 않다. 뉴스, 투자자 심리, 거래 시간, 경쟁자의 등장 등 온갖 요인으로 시장은 끊임없이 ‘변한다’. 이처럼 조건이 계속 바뀌는 환경을 ‘비정상(non-stationary)’ 시장이라 부르는데, 기존 인공지능은 이런 환경에서 제대로 대응하지 못했다.

"계속 바뀌는 시장, 고정된 전략으론 안 된다!"

기존의 인공지능은 대부분 ‘정적인 환경’에서 훈련된다. 즉, 한 번 잘 작동하는 전략을 찾으면 끝이다. 하지만 현실 시장은 시시각각 변한다. 오늘 통했던 전략이 내일은 통하지 않는다. 그래서 등장한 것이 바로 ‘POW-dTS(Policy Weighting via discounted Thompson Sampling)’라는 새로운 알고리즘이다.

이 기술은 간단히 말하면, 여러 개의 전략(정책)을 미리 준비해두고, 시장 상황에 따라 그 전략들의 가중치를 실시간으로 조절한다. 마치 다양한 무기를 가진 기사처럼, 시장 상황에 따라 어떤 무기를 꺼내들지를 AI가 판단하는 셈이다.

놀라운 건, 이 과정에 특별한 변화 탐지기(change-point detector)나 복잡한 환경 모델도 필요 없다는 점이다. 오직 과거 경험과 현재 성과만으로 전략을 조합하고, 다시 조절한다. 간단하지만 똑똑한 방식이다.

전략을 바꾼다고요? 그냥 ‘섞습니다’

POW-dTS의 핵심은 '섞기'다. 미리 훈련된 전략들을 놓고, 어떤 전략이 현재 시장에서 더 잘 작동하는지를 보고 그 비중을 조절한다. 이때 사용하는 방식이 '할인된 톰슨 샘플링(Discounted Thompson Sampling)'이다.

이 방식은 단순한 확률 모델을 기반으로 하되, 최근의 성과를 더 크게 반영한다. 그래서 시간이 지나면서도 ‘최근 시장에 잘 맞는 전략’이 자연스럽게 중심에 서게 된다. 마치 '요즘 가장 잘나가는 전략'을 뽑아내는 추천 시스템 같다고 보면 된다.

이때 각 전략은 ‘수익성’과 ‘재고 관리’라는 두 가지 목표를 동시에 고려한다. 이를 위해 연구팀은 멀티목표 강화학습(Multi-Objective Reinforcement Learning) 기법을 사용했다. 말이 어렵지만, 쉽게 말하면 두 마리 토끼를 동시에 잡을 수 있도록 설계한 것이다.

실험해보니… 기대 이상!

그렇다면 이 멋진 알고리즘이 실제로 효과가 있을까?

연구팀은 이를 검증하기 위해 가상 주식 시장 시뮬레이터 ‘ABIDES’를 활용해 테스트했다. 이 환경은 실제 시장처럼 다양한 투자자들이 존재하고, 매 순간 변동성이 일어나는 구조다.

여기서 POW-dTS는 경쟁 상황이 계속 바뀌는 여러 시장 시나리오에서 수익률과 안정성 모두에서 기존 방법보다 우수한 성과를 냈다. 특히 과거 전략을 맹목적으로 고수하거나, 단순히 최신 데이터에만 반응하는 다른 방법들에 비해 훨씬 유연하게 적응했다.

심지어 어떤 경우에는 ‘무작위로 전략을 섞은 것’보다도 더 잘 작동했다! 이는 POW-dTS가 단순히 전략을 바꾸는 것이 아니라, '지능적으로' 조합하고 평가했다는 증거다.

단점은 없을까?

물론 모든 기술이 그렇듯 완벽하지는 않다.

POW-dTS는 사전에 다양한 전략을 ‘훈련’해두어야 한다. 즉, 처음부터 여러 상황을 시뮬레이션할 수 있어야 한다는 점에서 준비 비용이 든다.
또, 전략을 평가하는 과정이 너무 자주 일어나면 오히려 성과가 떨어질 수 있다. 이 ‘빈도’를 잘 조절하는 게 중요하다.
마지막으로, 실제 시장에 적용하려면 상당한 인프라와 연산 자원이 필요하다. GPU나 고속 서버가 필수적이다.

하지만 이런 단점에도 불구하고, POW-dTS는 ‘변화하는 환경’에 적응해야 하는 모든 상황에 강력한 도구가 될 수 있다.

금융을 넘어, 어디든 적용 가능하다

이 알고리즘의 매력은 단지 금융에 국한되지 않는다. 실시간으로 조건이 바뀌는 에너지 거래, 스마트 빌딩의 공조 시스템, 심지어 자율주행차의 판단 시스템까지, 변화가 많은 모든 분야에 응용할 수 있다.

이미 알고리즘은 ‘시장이 바뀔 것을 전제로 설계’되어 있다. 앞으로는 ‘정해진 정답’보다, ‘변화에 대응할 줄 아는 유연함’이 더 중요한 시대다. POW-dTS는 그 변화를 읽는 법을 인공지능에게 가르친 첫걸음이다.

출처

Fernández Vicente, Ó., García, J., & Fernández, F. (2025). Policy weighting via discounted Thompson sampling for non-stationary market-making. Artificial Intelligence Review, 58, 318. https://doi.org/10.1007/s10462-025-11312-9

AI-World-Story

AI가 만든 똑똑한 시장조성자, 불확실성 속 수익을 낚다