협업 필터링의 진화: 비음수/이진 행렬 분해와 이징 머신이 만드는 추천 시스템의 미래



서론: 추천 시스템의 핵심, 협업 필터링

우리가 넷플릭스에서 영화를 고르거나, 아마존에서 제품을 추천받을 때, 그 배후에서 작동하는 핵심 기술이 바로 "협업 필터링(collaborative filtering)"이다. 이 기술은 사용자 간, 아이템 간의 유사성을 분석하여 개인화된 추천을 제공한다. 그러나 이 방식은 본질적으로 대규모 결측값(missing values)을 포함하는 희소(sparse) 행렬 데이터를 다뤄야 하는 과제를 안고 있다.

전통적인 협업 필터링은 비음수 행렬 분해(NMF: Nonnegative Matrix Factorization)를 주로 사용해 왔다. 그러나 최근 일본 오차노미즈대학과 도시바의 공동연구팀은 새로운 방법인 **비음수/이진 행렬 분해(NBMF: Nonnegative/Binary Matrix Factorization)**와 **이징 머신(Ising machine)**을 결합한 모델을 제안하였다. 본 블로그에서는 이 논문의 핵심 내용을 분석하고, 그 의미와 응용 가능성을 깊이 있게 살펴보고자 한다.


비음수/이진 행렬 분해(NBMF)란 무엇인가?

NBMF는 기존의 NMF를 확장한 개념이다. NMF에서는 사용자-아이템 평점 행렬 를 두 개의 비음수 행렬 로 분해하여 로 근사한다. 이 방식은 해석 가능성과 계산 효율성 측면에서 장점이 있다.

반면, NBMF에서는 행렬을 이진(0 또는 1)로 제한한다. 즉, 아이템은 몇 개의 특징(기저 벡터)만을 선택적으로 조합해 표현된다. 이 방식은 모델의 해석력을 높이고 과적합(overfitting)을 방지하는 데 유리하다. 특히, 이진 제약 덕분에 문제를 조합최적화(combinatorial optimization) 형태로 전환할 수 있다는 점이 핵심이다.


이징 머신: 조합최적화를 위한 새로운 계산 패러다임

이징 머신은 본래 스핀 물리학의 에너지 최소화 모델에서 유래된 계산 장치다. 최근에는 조합최적화 문제를 빠르게 해결할 수 있다는 장점 덕분에 머신러닝에도 활용되고 있다. 본 논문에서는 FPGA 기반의 Simulated Bifurcation (SB) 알고리즘을 사용하는 이징 머신을 통해 행렬의 이진값 최적화를 수행한다.

이징 머신의 핵심 장점은 저지연성(low latency)이다. 일반적인 클라우드 기반 솔버에서는 CPU와의 통신 지연이 성능을 제한할 수 있지만, FPGA 기반 시스템은 이를 극복해 실제 계산 시간까지 줄일 수 있다.



희소 행렬에서의 도전과 혁신: 마스킹 기법 도입

협업 필터링에서 평점 데이터는 대부분 결측치다. 단순히 결측값을 0으로 간주하면 왜곡된 예측 결과가 나올 수 있다. 본 연구는 이를 해결하기 위해 마스킹(Masking) 기법을 도입했다. 즉, 실제로 존재하는 평점만을 기준으로 손실함수를 구성하여 학습한다. 이는 예측 정확도 향상에 매우 큰 기여를 한다.

실제로 마스킹을 적용한 경우, 그렇지 않은 경우에 비해 RMSE(Root Mean Square Error)가 세 배 이상 감소하는 효과를 보였다. 이러한 단순하면서도 효과적인 개선은 실제 추천 시스템에 즉각 도입 가능하다는 점에서 특히 주목할 만하다.


실험 결과: 정확도와 속도 모두 잡은 NBMF

연구팀은 4개의 공개 추천 데이터셋(MovieLens, Netflix, Yahoo Music, CiaoDVD)을 사용해 NBMF와 기존 NMF의 성능을 비교했다. 주요 결과는 다음과 같다:

  1. 예측 정확도: 데이터셋에 따라 차이는 있으나, 전반적으로 NBMF가 NMF보다 빠르게 RMSE를 낮췄다.

  2. 계산 속도: NBMF는 행렬 업데이트 시 이징 머신을 사용함으로써 NMF보다 약 6배 빠른 처리 속도를 보였다.

  3. 데이터 특성에 따른 민감성: 평점 분포가 한쪽으로 치우친 데이터(예: 대부분 평점이 4인 경우)에서는 NBMF가 탁월한 성능을 보였으나, 분포가 양극화된 경우(1점과 5점만 있는 경우)에는 성능 저하가 있었다.

이 결과는 단지 알고리즘의 우월성만을 보여주는 것이 아니다. 데이터 특성에 맞춰 모델을 선택하거나 튜닝해야 한다는 중요한 교훈도 던져준다.



독창적 해석: 추천 시스템의 새로운 가능성

이 연구는 단지 알고리즘 성능 개선에 그치지 않는다. 필자는 특히 다음 세 가지 측면에서 큰 가능성을 보았다:

1. 하이브리드 컴퓨팅의 현실화

이징 머신과 CPU를 조합한 하이브리드 방식은 앞으로의 머신러닝 인프라 방향을 제시한다. GPU 독점 시대를 넘어, 특정 작업은 전용 하드웨어에서 수행하는 시대가 오고 있다. 향후 자율주행차의 실시간 판단, 대규모 IoT 네트워크의 엣지 컴퓨팅 등에서 이징 머신은 핵심 기술이 될 수 있다.

2. 설명 가능한 추천 모델

NBMF는 이진 행렬로 구성되므로, 어떤 아이템이 어떤 기저 벡터(사용자 취향)를 기반으로 추천되었는지 명확히 해석할 수 있다. 이는 블랙박스 모델의 문제를 보완할 수 있는 중요한 특성이다.

3. 다분야 응용 가능성

NBMF와 이징 머신 조합은 의료 데이터 해석, 유전자 패턴 분석, 금융 시장 예측 등 고차원의 희소 행렬이 자주 등장하는 분야에도 적용 가능하다. 특히, 빠른 조합최적화가 필요한 환경에서는 경쟁력이 클 것으로 예상된다.


결론: 추천 시스템, 물리학과 수학이 만나다

본 논문은 협업 필터링의 정확도와 계산 효율을 동시에 개선하는 획기적인 방안을 제시했다. NBMF는 마스킹 기법과 이징 머신의 결합을 통해 기존의 한계를 뛰어넘는 성과를 보여주었다. 필자는 이 연구가 단지 추천 시스템에 국한되지 않고, 머신러닝 전반에 걸쳐 새로운 가능성을 열어줄 것이라 확신한다.

AI와 물리 기반 컴퓨팅이 만나는 시대, 이제 우리는 더 빠르고 정확하며, 해석 가능한 지능형 시스템을 구현할 수 있는 기반을 갖추게 되었다.



출처논문: Terui, Y., Inoue, Y., Hamakawa, Y., Tatsumura, K., & Kudo, K. (2025). Collaborative filtering based on nonnegative/binary matrix factorization. Frontiers in Big Data, 8, 1599704. https://doi.org/10.3389/fdata.2025.1599704