숨겨진 데이터의 흐름을 포착하다: 희소 부분 주기 패턴 마이닝의 최전선

 

희소 부분 주기 패턴 마이닝을 시각화한 개념 이미지 — 다양한 주기를 가지는 데이터 흐름을 슬라이딩 윈도우로 추적하는 모습을 그래프로 표현


서론: 우리가 놓치고 있는 '드문 주기성'의 세계


데이터는 끊임없이 흐른다. 우리가 사용하는 스마트폰, 금융 거래, 온라인 쇼핑, 심지어 교통 센서까지 — 모든 것이 실시간으로 방대한 데이터를 생성한다. 하지만 이런 데이터 속에서 정말 중요한 패턴, 특히 '희소하지만 주기적으로 나타나는' 패턴을 포착하는 것은 결코 쉬운 일이 아니다. 지금까지 대부분의 데이터 마이닝 연구는 자주 발생하는 패턴에 초점을 맞췄지만, 실제로는 드물게 발생하더라도 정기적으로 반복되는 이벤트들이 오히려 더 중요한 의미를 가질 수 있다. 예를 들어, 특정 약물에 대한 드문 부작용이나 특정 시간대에 반복적으로 발생하는 트래픽 체증 등이 그 예다.


이번에 소개할 연구는 바로 이 '희소 부분 주기 패턴(Rare Partial Periodic Patterns, R3Ps)'을 고속 데이터 스트림에서 효율적으로 탐지하기 위한 혁신적인 알고리즘을 제안하고 있다. 인도 마니팔공과대학의 연구팀은 두 가지 새로운 슬라이딩 윈도우 기반 알고리즘 — R3PStreamSW-Growth와 R3P-StreamSWBitVectorMiner — 을 통해 이 문제를 해결하고자 했다.


 본론


 1. 연구 배경: 왜 희소 주기 패턴이 중요한가?


'희소 패턴 마이닝(Rare Pattern Mining, RPM)'은 드문 이벤트의 조합을 발견하려는 시도로, 특히 금융 사기, 의료 이상반응, 사이버 보안 분야에서 각광받아왔다. 그러나 대부분의 희소 패턴 마이닝 연구는 단순한 빈도에만 초점을 맞추었고, 이벤트가 언제 발생했는지 — 즉, 시간적 정보는 간과해왔다. 하지만 현실은 다르다. 예를 들어, 특정 도시의 도로가 매주 금요일 오후에만 막히는 경향이 있다면 이는 중요한 '주기적' 신호다.


이번 연구는 '시간 정보'와 '희소성', 그리고 '부분적 주기성'이라는 세 가지 요소를 동시에 고려하여, 기존의 분석 방법들이 놓치고 있는 중요한 인사이트를 포착하고자 했다.


 2. 핵심 알고리즘: R3PStreamSW-Growth vs R3P-StreamSWBitVectorMiner



 R3PStreamSW-Growth: 트리 기반 패턴 성장 접근


이 알고리즘은 기존 3P-Growth의 단점을 개선한 것으로, 데이터 스트림 환경에서 단 한 번의 스캔만으로 트리(R3PStreamSW-Tree)를 구축하고, 그 안에서 희소 부분 주기 패턴을 추출한다. 트리 구조는 시간 정보와 아이템 조합을 효과적으로 저장하며, 슬라이딩 윈도우를 통해 오래된 데이터를 제거하고 새로운 데이터를 추가함으로써 지속적으로 '최신' 패턴을 분석할 수 있다.


 R3P-StreamSWBitVectorMiner: 리스트 기반 비트 벡터 방식


트리 기반 방법이 조건부 패턴 트리를 다수 생성함에 따라 성능 저하가 발생하는 문제를 해결하기 위해, 연구팀은 비트 벡터와 깊이 우선 탐색을 결합한 R3P-StreamSWBitVectorMiner를 개발했다. 이 방식은 각 항목의 발생 여부를 비트 벡터로 저장하고, 효율적인 논리 연산을 통해 희소 부분 주기 패턴을 빠르게 탐지한다. 실험 결과, 이 알고리즘은 트리 기반 방식보다 최대 93% 빠른 성능을 보였다.


 3. 실험과 결과: 무엇이 더 뛰어났나?


연구진은 실제 사고 데이터(Accidents, 밀집형)와 인공 생성된 희박한 데이터(T10I4D100K, 희박형)를 포함한 다양한 데이터셋에서 두 알고리즘의 성능을 비교 분석했다. 그 결과, R3P-StreamSWBitVectorMiner는 희소성과 밀집성을 가리지 않고 일관되게 높은 성능을 보여주었으며, 특히 실시간성이 중요한 스트리밍 환경에서의 활용 가능성을 입증했다.


흥미롭게도, 본 연구의 결과는 최근 '비정형 이상 탐지' 트렌드와도 맞닿아 있다. 예를 들어, IoT 센서를 활용한 스마트 홈에서 희소 주기적 이상 행동을 탐지하거나, 교통 시스템에서 드물지만 반복적으로 발생하는 사고 구간을 사전에 경고할 수 있는 가능성이 열렸다.


 결론: 데이터 속 '희소한 규칙성'을 잡아내는 기술의 진화


이 연구는 단순히 새로운 알고리즘을 제안하는 데 그치지 않는다. 희소하면서도 주기적인 패턴이라는, 기존 알고리즘이 놓쳤던 정보의 흐름을 효과적으로 포착함으로써, 향후 다양한 응용 가능성을 열어놓았다는 점에서 의미가 깊다.


개인적으로 이 연구에서 인상 깊었던 점은 비트 벡터 기반 방식의 효율성이었다. 이는 메모리 사용이 제한적인 엣지 컴퓨팅 환경이나, 실시간 응답이 중요한 금융 보안 시스템 등에 매우 적합한 방식으로 보인다. 또한, 사용자가 직접 주기성과 희소성 기준값을 조정할 수 있기 때문에, 매우 유연한 적용이 가능하다는 점도 큰 장점이다.


향후 연구에서는 다양한 도메인 데이터에의 적용 가능성과 함께, 시각화 도구와의 통합을 통해 더욱 직관적인 이상 패턴 탐지가 가능해질 것으로 기대된다. 궁극적으로는, 데이터를 단순히 '보는' 것에서 '이해하고 대응하는' 수준으로 끌어올리는 데 기여할 수 있을 것이다.


 출처

Upadhya KJ, Lobo R, Chhabra MS, Paleja A, Rao BD, M. G, Sisodia P and Reddy BA (2025) Sliding window based rare partial periodic pattern mining algorithms over temporal data streams. Front. Big Data 8:1600267.