LLM 기반 시계열 데이터 특징 엔지니어링, 데이터 누수를 막으면서 예측 성능을 높인 새로운 AI 프레임워크

시간 정보를 고려한 특징 생성으로 주가와 스포츠 경기 예측 정확도를 개선한 최신 연구

최근 호주 Australian Catholic University와 Sydney International School of Technology and Commerce 연구진이 발표한 연구에 따르면, 대규모 언어모델(LLM)을 활용한 자동 특징 엔지니어링(feature engineering)에 시간 정보(Temporal Information)를 명시적으로 반영하면 시계열 데이터 예측의 정확도를 높이면서도 데이터 누수(Data Leakage)를 효과적으로 방지할 수 있는 것으로 나타났다. 이번 연구는 MDPI 학술지 AI에 게재됐으며, 주가 예측과 스포츠 경기 결과 예측이라는 서로 다른 분야에서 제안한 프레임워크의 성능을 검증했다.

인공지능 모델의 성능은 알고리즘 자체보다 입력 데이터의 품질에 더 크게 영향을 받는 경우가 많다. 특히 금융시장, 의료, 에너지, 스포츠처럼 시간이 흐르면서 데이터가 축적되는 시계열 데이터(Time Series Data)에서는 어떤 정보를 모델에 입력하느냐가 예측 결과를 크게 좌우한다.

문제는 기존의 자동 특징 생성 기술들이 시간의 흐름을 충분히 고려하지 못했다는 점이다. 미래에만 알 수 있는 정보를 현재 예측에 사용하면 실제 환경에서는 절대 얻을 수 없는 정보를 학습하게 되고, 이로 인해 모델 성능이 과대평가되는 문제가 발생한다. 연구진은 이러한 한계를 해결하기 위해 LLM이 시간의 순서를 이해하도록 설계한 새로운 특징 엔지니어링 프레임워크를 제안했다.

시계열 데이터에서는 왜 데이터 누수가 발생하는가

머신러닝에서 Feature Engineering은 원본 데이터를 그대로 사용하는 대신 예측에 도움이 되는 새로운 변수를 만드는 과정이다. 예를 들어 주가 데이터를 이용한다면 최근 5일 평균 가격, 지난 20일 최고가, 이동평균선 같은 새로운 변수를 만들어 모델에 입력한다.

하지만 시계열 데이터에서는 단순히 새로운 변수를 만드는 것만으로는 충분하지 않다.

예를 들어 오늘 장이 끝난 뒤의 종가를 예측한다고 가정해 보자.

예측 시점에는 시가(Open)는 이미 알고 있지만, 고가(High), 저가(Low), 거래량(Volume), 종가(Close)는 아직 발생하지 않았다.

그런데 이러한 값을 그대로 입력 변수로 사용하면 모델은 미래 정보를 미리 알고 학습하게 된다. 이것이 바로 데이터 누수(Data Leakage)다.

데이터 누수가 발생하면 테스트에서는 매우 높은 정확도를 보이지만 실제 서비스에서는 동일한 성능을 재현할 수 없다. 따라서 시계열 머신러닝에서는 데이터 누수를 막는 것이 가장 중요한 과제 가운데 하나다.

기존 자동 특징 생성 도구는 시간 정보를 충분히 이해하지 못했다

최근에는 GPT와 같은 LLM을 활용해 자동으로 특징을 생성하는 연구가 활발하다.

대표적인 예로 CAAFE와 OCT-Tree 같은 LLM 기반 자동 특징 생성 기법이 등장했다.

또한 tsfresh, Featuretools, sktime 같은 라이브러리도 다양한 통계적 특징을 자동으로 생성한다.

하지만 대부분의 방법은 데이터의 각 행(Row)을 독립적인 샘플로 취급한다.

즉 "이 변수는 예측 전에 알 수 있는가", "예측 이후에만 확인 가능한 정보인가"를 구분하지 않는다.

일부 AutoML 플랫폼은 시차(lag) 변수나 달력(Calendar) 정보를 추가하는 기능을 제공하지만, 변수의 의미를 이해하고 시간적 제약까지 고려하는 수준에는 이르지 못했다.

연구진은 바로 이 지점을 기존 연구의 핵심 한계로 지적했다.

연구진은 변수를 세 가지 종류로 구분했다

이번 연구에서 가장 중요한 아이디어는 변수의 시간적 성격을 먼저 분류하는 것이다.

연구진은 모든 변수를 다음 세 가지로 구분했다.

첫 번째는 선행 변수(Antecedent Feature)다.

예측 시점 이전에 이미 관측 가능한 변수로, 모델 입력에 바로 사용할 수 있다.

두 번째는 후행 변수(Consequent Feature)다.

예측 이후에야 생성되는 정보이므로 현재 예측에는 직접 사용할 수 없다.

세 번째는 과거 집계 특징(Historical Aggregated Feature)이다.

후행 변수라도 과거 데이터는 이미 존재하는 정보이므로, 이전 시점의 평균이나 최대값, 최소값, 이동평균 등으로 변환하면 안전하게 사용할 수 있다.

즉 연구진은 후행 변수를 단순히 삭제하지 않았다.

대신 과거 기록만 활용하도록 변환해 유용한 정보를 최대한 보존하는 전략을 선택했다.

이 접근 방식은 기존의 단순 필터링보다 더 많은 예측 정보를 유지하면서도 데이터 누수를 방지할 수 있다는 점에서 차별화된다. 논문의 그림 3은 이러한 흐름을 도식화해 보여주며, 후행 변수는 직접 모델에 전달되지 않고 반드시 과거 집계 파이프라인을 거치도록 설계됐다.

LLM이 단계적으로 새로운 특징을 생성하도록 설계했다

이번 프레임워크는 GPT-4o를 이용해 특징을 생성했다.

연구에서는 GPT-4o API를 사용했으며, 재현성을 높이기 위해 temperature 값을 0으로 설정했다.

LLM은 한 번에 모든 특징을 만드는 것이 아니라 세 단계에 걸쳐 작업한다.

먼저 선행 변수에서 직접 생성 가능한 특징을 만든다.

그 다음 후행 변수에서 사용할 수 있는 변환 규칙을 생성한다.

마지막으로 과거 데이터만 이용하는 집계 특징을 생성한다.

생성된 결과는 사람이 읽는 문장이 아니라 JSON 형태의 구조화된 설정(Configuration)으로 반환된다.

이후 별도의 엔진이 이 설정을 실제 데이터에 적용해 새로운 특징을 생성한다.

이처럼 LLM은 직접 데이터를 수정하는 것이 아니라 어떤 특징을 만들지 설계하는 역할을 수행한다. 논문의 그림 5는 이러한 3단계 프롬프트 흐름을 자세히 설명하고 있다.

과거 데이터만 사용하는 엄격한 누수 방지 절차를 적용했다

연구진은 데이터 누수를 막기 위해 알고리즘 수준에서 엄격한 절차를 적용했다.

가장 먼저 시간순으로 데이터를 정렬한다.

이후 동일한 개체(예를 들어 동일 종목이나 동일 팀)끼리 묶는다.

각 시점의 특징은 현재 행이 아니라 이전 시점 데이터만 사용해 계산한다.

예를 들어 최근 5일 평균을 계산할 때도 오늘 데이터는 제외하고 어제까지의 데이터만 포함한다.

이후 특징 생성이 모두 끝난 다음에야 학습, 검증, 테스트 데이터를 시간 순서대로 분리한다.

또한 특징 선택은 검증 데이터에서만 수행하고, 테스트 데이터는 최종 평가까지 전혀 사용하지 않는다.

이 절차를 통해 미래 정보가 학습 과정에 유입될 가능성을 최소화했다. 논문에는 이러한 과정을 'Leakage-Safe Historical Aggregation' 알고리즘으로 제시하고 있다.

테슬라 주가와 프리미어리그 경기 예측에서 성능 향상을 확인했다

연구진은 서로 다른 두 개의 시계열 데이터셋으로 프레임워크를 검증했다.

첫 번째는 약 3,473개의 거래일을 포함한 테슬라 주가 데이터다.

두 번째는 잉글랜드 프리미어리그(EPL) 경기 결과 예측 데이터다.

테슬라 실험에서는 XGBoost를 사용해 400개 이상의 후보 특징을 생성한 뒤 검증 성능을 기준으로 유용한 특징만 선택했다.

평가 결과 기존 원본 변수만 사용한 모델보다 평균절대오차(MAE)가 감소했으며, 기존 LLM 기반 특징 생성 기법인 OCT-Tree에서 보고된 성능보다도 더 낮은 MAE를 기록했다.

EPL 경기 결과 예측에서도 단순 배당률 기반 모델과 Azure AutoML 전처리 결과보다 더 높은 정확도를 보였다.

연구진은 이러한 결과가 특정 분야에 국한되지 않고 금융과 스포츠처럼 서로 다른 시계열 문제에서도 동일한 접근법이 효과적일 수 있음을 보여준다고 설명했다.

시간 정보를 이해하는 LLM이 AutoML의 다음 단계가 될 가능성을 보여줬다

이번 연구는 LLM을 단순한 코드 생성 도구가 아니라 시간적 제약을 이해하는 특징 설계자로 활용했다는 점에서 의미가 크다.

특히 미래 정보를 무조건 제거하는 대신 과거 기록으로 재활용하는 전략은 기존 자동 특징 엔지니어링의 활용 범위를 넓힐 수 있는 접근이다.

향후에는 금융시장뿐 아니라 의료 예후 예측, 전력 수요 예측, 제조 설비 이상 탐지, 교통량 예측, 스포츠 분석 등 다양한 시계열 문제에서 활용 가능성이 기대된다.

다만 연구진도 한계를 함께 제시했다.

실험은 테슬라 주가와 EPL이라는 두 개의 데이터셋에서만 수행됐으며, 다양한 산업과 대규모 실시간 환경에서 추가 검증이 필요하다. 또한 변수의 시간적 특성을 사용자가 직접 설정(JSON 구성 파일)해야 하므로, 완전한 자동화까지는 아직 개선의 여지가 있다.

그럼에도 이번 연구는 생성형 AI와 시계열 머신러닝을 결합할 때 가장 큰 문제였던 데이터 누수를 체계적으로 해결하려 했다는 점에서 의미 있는 진전으로 평가할 수 있다.

출처

Najafabadi, M. K., Naeem, B., Khodadadi, T., Chaeikar, S. S., & Shah, Z. (2026). LLM-Guided Automated Feature Engineering for Time Series Data with Temporal Leakage Control. AI, 7(7), 245. https://doi.org/10.3390/ai7070245