인공지능, 인도 증시 NIFTY 50 공략에 나서다

― 10년치 고빈도 데이터로 검증한 ‘딥 강화학습’ 전략

인도 주식시장이 폭발적으로 성장하고 있다. 불과 10여 년 전 2천만 개 남짓이던 계좌 수가 이제는 2억 개를 훌쩍 넘어섰고, 개인 투자자 비중은 현물 거래의 절반 가까이로 커졌다. 펀드 자산 규모도 몇 배로 불어났다. 이런 변화 속에서, 단순한 ‘감’이나 전통적 기술 분석에 의존하는 투자 방식은 한계를 보이고 있다. 바로 여기서 **딥 강화학습(Deep Reinforcement Learning, DRL)**이 등장한다.

이번 연구는 인도 주식시장의 대표 지수인 NIFTY 50에 특화된 자동매매 전략을 개발했다. 연구팀은 단순한 알고리즘이 아니라, 스스로 시장과 상호작용하며 장기적인 수익을 극대화하는 자율형 AI 트레이더를 만들고자 했다. 사용된 AI 모델은 세 가지 ― DQN(Deep Q-Network), DDQN(Double DQN), Dueling DDQN ― 로, 모두 ‘시장을 보며 배우는’ 강화학습 계열이다.

데이터, 그리고 준비 과정

연구팀은 2015년부터 2024년까지 약 10년간의 15분 단위 OHLC(시가·고가·저가·종가) 데이터를 수집했다. 여기에 200일 지수이동평균(EMA), 피벗 포인트, 그리고 서로 다른 매개변수의 슈퍼트렌드(Supertrend) 지표를 추가해 ‘사람 트레이더’가 참조할 법한 기술적 신호를 학습 데이터로 제공했다.

훈련 데이터는 9년치, 테스트 데이터는 최근 1년치(2024년 5월~2025년 4월)로 나눴다. 초기 투자금은 20만 루피(약 230만 원)로 설정했고, NIFTY 선물 규격에 맞춘 75주 단위 거래와 현실적인 증거금·수수료 조건을 반영했다.

세 가지 AI 트레이더

DQN: 기본형. 과거 상태를 입력받아 다음에 ‘매수·보유·매도’ 중 하나를 선택한다.
DDQN: 과대평가 오류를 줄이기 위해 ‘행동 선택’과 ‘가치 평가’를 다른 신경망이 맡는다.
Dueling DDQN: ‘현재 상태의 가치’와 ‘행동의 상대적 우위’를 분리해 평가, 학습 효율을 높인다.

각 모델은 버전 1~3으로 세분화됐다. 버전이 올라갈수록 탐험·활용 균형과 보상·패널티 구조가 정교해졌다. 예를 들어 V3 버전들은 ‘소프트맥스(softmax) 샘플링’과 ‘쿨다운(cooldown) 로직’을 도입해, 연속 거래를 줄이고 질 높은 기회를 노렸다.

성적표: 누가 가장 잘했나?

결과는 흥미로웠다.

DQN V1: 거래 38건, 승률 65.8%, 샤프 비율 0.097. 단순하지만 안정적이었다.
DDQN V3: 거래 15건, 승률 73.3%, 샤프 비율 0.739. 거래 횟수는 줄었지만 질이 높았다.
Dueling DDQN V3: 단 3건의 거래로 전부 승리, 샤프 비율 1.228. 하지만 표본이 너무 적어 신뢰성은 낮다.

전통적 ‘사서 오래 보유’ 전략이나 50일·200일 EMA 골든크로스 전략과 비교했을 때, 모든 DRL 모델이 위험 대비 수익률 면에서 우위를 보였다. 특히 DDQN V3는 수익 안정성과 승률, 거래 횟수 간 균형이 뛰어나 ‘실전 배치 가능성’이 가장 높았다.

왜 이런 차이가 났을까?

DQN은 구조가 단순해 빠르게 학습했지만, Q값 과대평가 문제로 위험 조정 성과가 떨어졌다. DDQN은 이를 개선해 변동성 높은 장에서도 더 안정적으로 학습했고, V3에서 도입한 탐험 전략 재설정과 쿨다운이 불필요한 거래를 걸러냈다. Dueling DDQN은 이론상 가장 정교하지만, 이번 설정에서는 지나치게 보수적으로 움직여 기회를 놓쳤다.

연구팀의 메시지

이 연구의 핵심은 단순히 “AI가 돈 벌었다”가 아니다.

아키텍처 개선: 단순 DQN보다 DDQN·Dueling DDQN이 위험 대비 수익에서 유리하다.
탐험 전략: 무작정 많이 거래하는 것보다, 기회를 선별하는 전략이 효과적이다.
시장 맞춤형 설계: 인도처럼 신흥·고변동성 시장에서는 데이터 특성과 규제를 반영한 모델이 필요하다.

연구팀은 실전 배치 전, 슬리피지·호가 스프레드·실시간 지연 같은 현실 요소를 고려한 추가 검증이 필요하다고 강조했다.

앞으로의 의미

이번 연구는 인도 증시 고빈도 데이터에 특화된 DRL 프레임워크를 제시했다는 점에서 가치가 크다. DDQN V3처럼 균형 잡힌 모델은 장기적으로 안정적 수익을 기대할 수 있으며, 향후 개별 종목·다른 자산군으로 확장할 수 있다. 궁극적으로는 AI가 단순 ‘예측자’가 아니라, 스스로 전략을 세우고 리스크를 관리하는 투자자로 진화할 가능성을 보여줬다.

출처:
Mishra, R. G., Sharma, D., Gadhavi, M., Pant, S., & Kumar, A. (2025). A deep reinforcement learning framework for strategic Indian NIFTY 50 index trading. AI, 6(8), 183. https://doi.org/10.3390/ai6080183