세션 기반 추천 시스템은 왜 사용자의 진짜 의도를 놓쳤을까: MoHyNet이 하이퍼그래프 모티프로 해결한 방법

클릭 순서보다 중요한 것은 사용자가 무엇을 하려 했는가다

온라인 쇼핑몰의 추천 시스템은 사용자가 다음에 어떤 상품을 클릭할지 예측한다. 지금까지 많은 추천 알고리즘은 사용자의 행동을 시간순으로 나열한 뒤 그 순서를 학습하는 데 집중해 왔다.

하지만 실제 사람의 쇼핑 행동은 생각보다 훨씬 복잡하다.

예를 들어 어떤 사용자가 모니터, 키보드, 마우스를 차례로 살펴봤다고 하자. 또 다른 사용자는 마우스, 모니터, 키보드 순서로 상품을 탐색했다. 기존의 순차 기반 추천 모델은 이 두 행동을 서로 다른 패턴으로 인식할 가능성이 높다.

그러나 사람의 관점에서 보면 두 사용자의 목적은 사실상 동일할 수 있다. 둘 다 홈오피스를 구축하기 위해 필요한 장비를 비교하고 있었을 가능성이 높기 때문이다.

2026년 발표된 MoHyNet(Motif-guided Hypergraph Network) 연구는 바로 이 지점에 주목했다. 연구진은 사용자의 클릭 순서 자체보다 여러 상품이 함께 나타나는 구조와 반복되는 행동 패턴이 사용자의 의도를 더 잘 설명할 수 있다고 보았다. 이를 위해 하이퍼그래프, 하이퍼그래프 모티프, 그리고 대조학습을 결합한 새로운 추천 모델을 제안했다.

기존 추천 시스템이 놓친 것은 '가짜 순차 정보'다

세션 기반 추천 시스템은 일반적으로 사용자의 행동을 하나의 시퀀스로 처리한다. 예를 들어 노트북, 모니터, 키보드, 마우스 순으로 상품을 클릭했다면 모델은 노트북→모니터→키보드→마우스라는 이동 관계를 학습한다.

문제는 실제 쇼핑 행동이 반드시 논리적인 순서를 따르지 않는다는 점이다. 사용자는 광고를 눌러보기도 하고, 화면에 먼저 보이는 상품을 클릭하기도 하며, 단순한 호기심으로 관련 없는 상품을 살펴보기도 한다.

논문은 이러한 현상을 Pseudo-Sequential Noise(가짜 순차 노이즈)라고 설명한다. 사용자의 실제 목적과는 무관한 클릭 순서가 모델 학습에 포함되면서 추천 정확도를 떨어뜨릴 수 있다는 의미다.

하이퍼그래프는 여러 상품을 하나의 의도로 묶어낸다

기존 그래프 기반 추천 모델은 주로 두 상품 사이의 관계만 표현한다. 예를 들어 카메라와 렌즈, 렌즈와 삼각대처럼 상품 쌍 단위의 연결을 학습한다.

하지만 실제 사용자의 관심사는 개별 상품이 아니라 상품 조합인 경우가 많다. 카메라, 렌즈, 삼각대 전체가 하나의 촬영 장비 세트라는 의도를 나타낼 수 있다.

이를 표현하기 위해 연구진은 하이퍼그래프를 사용했다. 하이퍼그래프에서는 하나의 연결선인 하이퍼엣지가 여러 상품을 동시에 연결할 수 있다. MoHyNet은 하나의 세션 전체를 하나의 하이퍼엣지로 표현해 사용자가 함께 탐색한 상품들을 하나의 관심사 또는 의도 단위로 묶었다.

MoHyNet의 핵심은 하이퍼그래프가 아니라 '모티프'다

이 연구의 가장 중요한 기여는 하이퍼그래프 자체가 아니다. 기존 하이퍼그래프 추천 모델들도 상품의 동시 출현 관계를 학습할 수 있었다. 하지만 대부분은 세션을 단순히 함께 등장한 상품의 집합 정도로만 취급했다.

연구진은 세션들 사이에서 반복적으로 나타나는 행동 구조 자체를 학습하기 위해 하이퍼그래프 모티프를 도입했다.

모티프는 네트워크에서 반복적으로 등장하는 작은 구조 패턴을 의미한다. MoHyNet은 세 개의 하이퍼엣지, 즉 세션이 서로 겹치는 방식을 분석해 총 30개의 연결된 하이퍼그래프 모티프를 정의했다.

모티프는 사용자의 잠재적 의도를 추출하는 의미 필터가 된다

논문은 모티프를 단순한 연결 구조가 아니라 의미 필터로 설명한다. 기존 모델이 모든 상품 관계를 동일하게 취급했다면, MoHyNet은 반복적으로 나타나는 구조 패턴을 우선적으로 학습한다.

그 결과 모델은 우연한 클릭, 무작위 탐색, 화면 배치 때문에 발생한 이동 같은 노이즈를 줄이고, 반복되는 비교 행동, 보완재 탐색 패턴, 공통 관심사 구조와 같은 안정적인 행동 신호를 강조한다.

즉 MoHyNet은 사용자의 실제 구매 의도를 직접 관찰하는 것이 아니라, 여러 세션에 반복적으로 나타나는 구조를 통해 잠재적 사용자 의도를 추론하는 방식으로 동작한다.

현재 세션만으로 부족할 때는 다른 세션의 정보를 활용한다

현실의 사용자 세션은 매우 짧다. 두세 번 클릭한 뒤 사이트를 떠나는 경우도 많다. 이런 상황에서는 현재 세션만으로 의도를 파악하기 어렵다.

MoHyNet은 이를 해결하기 위해 라인 그래프를 추가로 구축했다. 라인 그래프에서는 세션 자체가 하나의 노드가 된다.

예를 들어 A 사용자가 카메라와 렌즈를 탐색하고, B 사용자가 렌즈와 삼각대를 탐색했다면 두 세션은 공통 상품인 렌즈를 통해 연결된다.

이 구조를 통해 현재 사용자의 행동이 부족하더라도 비슷한 행동을 했던 다른 사용자들의 정보를 활용할 수 있다.

대조학습이 두 개의 관점을 하나로 연결한다

MoHyNet은 두 종류의 정보를 동시에 학습한다. 첫 번째는 현재 세션 내부에서 추출한 구조적 패턴이고, 두 번째는 다른 세션들로부터 얻은 전역적 행동 정보다.

문제는 이 두 정보가 서로 다른 방향으로 학습될 수 있다는 점이다. 이를 해결하기 위해 연구진은 대조학습을 적용했다.

대조학습은 서로 관련 있는 표현은 가깝게, 관련 없는 표현은 멀어지게 만드는 학습 방식이다. MoHyNet은 동일한 세션에서 얻은 두 표현이 같은 의미 공간에 위치하도록 학습함으로써 현재 세션의 구조적 특징과 전체 사용자 집단의 행동 패턴을 정렬시켰다.

세 개의 대형 전자상거래 데이터셋에서 최고 성능을 기록했다

연구진은 Diginetica, Tmall, RetailRocket 세 개의 대표적인 전자상거래 데이터셋을 사용해 MoHyNet을 평가했다.

실험 결과 MoHyNet은 모든 데이터셋에서 기존 최고 수준 모델을 능가했다. 특히 Diginetica에서는 P@10 62.78, MRR@10 30.08, P@20 71.10, MRR@20 30.01을 기록했다.

이는 당시 최고 성능 모델 대비 P@10은 9.97%, MRR@10은 14.37% 향상된 결과였다. Tmall에서는 최대 8.49%, RetailRocket에서는 최대 9.22%의 성능 개선이 확인됐다.

순서 정보를 다시 넣어도 큰 이득은 없었다

연구진은 순서 정보가 정말 덜 중요한지 확인하기 위해 절대 위치 정보, 상대 위치 정보, 방향 그래프를 추가한 여러 변형 모델을 실험했다.

결과는 흥미로웠다. 일부 지표에서 소폭 향상은 있었지만 전체적인 개선 폭은 매우 제한적이었다. 반면 모델 크기와 학습 시간은 크게 증가했다.

즉 연구 결과는 순서 정보가 완전히 불필요하다는 뜻이 아니라, 추천 성능 향상 대비 비용 효율성이 높지 않을 수 있음을 보여준다.

짧은 세션에서도 강한 이유

대부분의 추천 시스템은 클릭 수가 적을수록 성능이 급격히 떨어진다. 하지만 MoHyNet은 1~6개 정도의 짧은 세션에서도 상대적으로 높은 추천 정확도를 유지했다.

그 이유는 현재 세션만 분석하는 것이 아니라 하이퍼그래프 모티프, 유사 세션 정보, 대조학습을 함께 활용하기 때문이다.

사용자가 몇 번 클릭하지 않았더라도 과거의 수많은 유사 행동 패턴을 참고해 의도를 추정할 수 있었다. 이는 익명 사용자나 신규 사용자 환경에서도 강점을 가질 수 있음을 시사한다.

AI-World-Story