축구장에 들어온 인공지능, 승부를 읽다
“감”의 시대는 끝났을까
경기장 밖의 노트북과 서버가 경기장 안의 흐름을 바꾸고 있다. 최근 발표된 한 체계적 문헌 맵핑 연구는 2019~2024년 사이 출판된 172편의 논문을 모아, 머신러닝(ML)이 프로 축구에서 무엇을 바꾸고 있는지 큰 그림을 그렸다. 결론부터 말하면, ML은 두 축에서 가장 강하게 작동한다. 하나는 선수·팀의 퍼포먼스 향상, 다른 하나는 경기 결과 예측이다. 알고리즘은 결정나무·XGBoost 같은 앙상블, 인공신경망(ANN)과 합성곱신경망(CNN) 등 딥러닝이 주연으로 등장했고, 여러 기법을 섞는 하이브리드 모델이 급격히 늘었다. 데이터 공개성과 센서 통합의 한계 같은 숙제도 분명히 드러났다. 하지만 그 빈틈조차 ML의 기회로 읽힌다니, 흥미롭지 않은가!
데이터가 축구를 읽는 법
1) 무엇을 어떻게 측정했나
연구진은 스코퍼스 데이터베이스에서 ‘Machine Learning’과 ‘Football/Soccer’를 핵심어로 걸고 458편을 1차 수집한 뒤, 포함·제외 기준을 수차례 토론으로 다듬어 최종 172편을 분석했다. 범주는 두 갈래다. 퍼포먼스(선수 위치·이동 궤적·개별/팀 행동·패스/슛 같은 게임 액션·선수/팀 퍼포먼스 지표)와 예측(경기 결과, 시즌 승리 가능성)이다. 이 과정에서 지도학습이 가장 널리 쓰였고, 딥러닝과 하이브리드가 뒤를 이었다. 주 알고리즘은 결정나무, 랜덤포레스트, SVM, KNN, 로지스틱 회귀, 그리고 부스팅의 강자 XGBoost였다.
2) 퍼포먼스 향상: ‘잘 뛰는 법’을 가르치는 모델들
선수 개인을 보면, 패스 성공률·가속도·심박·스프린트 빈도 같은 지표가 ML의 먹잇감이다. 팀 차원에서는 포메이션 유지도, 라인 간 간격, 압박 타이밍이 함께 분석된다.
- 지도학습은 라벨이 분명한 과제—예컨대 “좋은 패스/나쁜 패스” 분류, “슈팅 성공 확률” 회귀—에서 강력했다. 기대득점(xG)을 비롯해, 위치·각도·수비수와의 거리 같은 맥락 변수를 함께 넣으면 전술 피드백이 즉시 가능해진다.
- 비지도학습은 ‘스타일’을 뽑아낸다. K-평균이나 GMM으로 선수 유형을 묶고, PCA·LDA로 차원을 줄여 전술 보드를 단순화한다. “이 팀은 전환 속도가 빠른 하이프레스형” 같은 라벨이 이렇게 만들어진다.
- 딥러닝은 비디오·트래킹 데이터에서 힘을 발휘한다. CNN이 프레임 속 패턴을, RNN이 시간 흐름을 잡아내 ‘컷백 상황에서 2선 침투가 늦다’ 같은 템포 문제를 짚어낸다.
3) 결과 예측: 스코어보드에 닿는 숫자들
경기 결과 예측 연구는 생각보다 ‘정교한 상식’을 쌓아왔다. 홈/원정, 최근 득실, 유효슈팅, 카드와 파울, 코너킥, 베팅 오즈 등 전통 변수가 여전히 핵심이고, 여기에 실시간 퍼포먼스 지표를 더해 분류(승/무/패) 혹은 회귀(득점 수)로 푼다. 특히 XGBoost 같은 앙상블은 다차원 변수의 비선형 상호작용을 잘 주워 담아 높은 정확도를 냈다. ANN 기반 모델은 경기 막판 15분 데이터의 가치를 강조하기도 했다. ‘클러치 타임’이 실제로 존재한다는 뜻이다!
4) 현장의 성공·한계, 그리고 진짜 데이터
실무 도입 사례도 등장한다. 리버풀 FC와 협업한 TacticAI는 코너킥 전술 추천을, 상업 솔루션은 부상 위험 탐지와 워크로드 관리, 포지션 최적화를 지원한다. 반면 데이터 공개성은 발목을 잡는다. 검토된 172편 중 약 42%만이 URL 등으로 데이터 접근 경로를 명시했고, 공개 데이터 상당수가 실제 경기 로그가 아닌 FIFA 게임 기반 속성에 기대고 있었다. 재현성과 벤치마크 문화가 약해지는 지점이다. 그럼에도 Football-Data 같은 오픈 소스와 웨어러블의 보급이 점차 균형을 맞추는 중이다.
5) 케이스 스터디: 숫자가 만드는 이야기
논문은 두 가지 사례로 ML의 ‘스토리텔링 능력’을 보여줬다.
- 크리스티아누 호날두 1000골 달성 시점 예측: 개인 득점 추세, 연령 변수, 리그 환경 등을 학습해 “언제”라는 질문에 답한다. 물론 이적·부상 같은 외생 변수가 커서, 예측은 ‘확률적 주사위’에 가깝다. 그럼에도 프런트가 계약·마케팅 시나리오를 짤 때 유의미한 참고선이 된다.
- 승부차기 예측: 킥의 방향·속도, 키퍼의 선호 반응, 직전 킥의 심리 효과 같은 맥락을 반영해 성공 확률을 갱신한다. 벤치가 실시간으로 키커 순서를 조정할 근거를 얻는 셈이다. “이번엔 왼발을 먼저?” 같은 결정을 데이터가 거들었다.
6) 왜 아직 완벽하지 않을까
연구는 세 가지 병목을 꼽는다.
- 데이터 접근 비용과 제한: 트래킹·이벤트 로그는 비싸고 폐쇄적이다.
- 고급 시각화의 제약: 분석이 현장의 ‘의사결정 인터페이스’로 충분히 번역되지 못한다.
- 센서 통합 미흡: GPS·IMU·심박계·영상의 동기화가 느슨해, 모델 학습에 노이즈가 낀다.
해결책의 방향은 분명하다. 표준화된 공개 데이터셋, 모델-설명-시각화가 한 화면에 결합된 도구, 그리고 멀티모달 동기화 파이프라인. 이 셋이 맞물리면, 분석은 ‘리포트’에서 ‘결정 보조’로 완전히 넘어간다.
축구는 더 “읽히는” 스포츠가 된다
이 맵핑 연구의 의미는, ML이 이미 전술의 실험실과 프런트의 계산기가 되었다는 사실을 체계적으로 문서화했다는 데 있다. 퍼포먼스 개선과 결과 예측은 더 촘촘해지고, 하이브리드·딥러닝은 계속 파고든다. 다음 과제는 명확하다. ① 공개 벤치마크로 재현성 확보, ② 멀티모달 데이터 통합으로 컨텍스트 보강, ③ 코치가 바로 쓰는 설명가능·실시간 도구. 그날이 오면, 감독의 ‘촉’은 사라지지 않겠지만—데이터의 등 뒤에서 훨씬 더 날카롭게 빛날 것이다.
출처:
Moya, D., Tipantuña, C., Villa, G., Calderón-Hinojosa, X., Rivadeneira, B., & Álvarez, R. (2025). Machine Learning Applied to Professional Football: Performance Improvement and Results Prediction. Machine Learning and Knowledge Extraction, 7, 85. https://doi.org/10.3390/make7030085