라우팅 어텐션으로 지식 그래프 링크 예측을 가속하다

서론: 불완전한 지식 그래프와 링크 예측의 중요성

지식 그래프(Knowledge Graph, KG)는 노드(개체)와 에지(관계)로 구성된 삼중항(triplet) 구조를 통해 방대한 지식을 표현한다. 하지만 대부분의 대규모 KG는 여전히 빈틈이 많아, 누락된 관계를 추론하지 못하면 추천 시스템·질의응답·의료 진단 등 다양한 응용에서 성능 저하를 겪는다. 링크 예측(link prediction)은 이런 누락된 관계를 자동으로 채워 넣는 핵심 과제다. 기계적으로 모든 가능한 에지를 대입해 확인하는 것은 비효율적이므로, 인접 노드 간 의미적 연관성을 잘 포착할 수 있는 경량화된 모델 설계가 절실하다.

배경: 기존 KGC 방법들의 한계와 PLM의 약속

전통적 임베딩 기법과 한계

초기 KGC는 TransE, TransH, TransD 같은 번역 기반 임베딩 모델을 활용했다. 이들은 삼중항 (h, r, t)에 대해 h + r ≈ t를 만족하도록 학습해, 단순·빠르게 노드 관계를 모델링했다. 하지만 복잡한 다대다 관계나 위상(topology)을 다루기에는 표현력이 부족했다.

PLM 기반 KGC의 부상

최근 PLM(사전 학습된 언어 모델)인 BERT, RoBERTa 등은 텍스트 내 의미론적 맥락을 정교하게 포착할 수 있어 KGC에도 적용되기 시작했다. KG-BERT, KGLM 같은 프레임워크는 KG 삼중항을 텍스트 시퀀스로 변환해 PLM의 강력한 언어 이해 능력을 끌어온다. 그러나 PLM은 방대한 파라미터 수와 연산량으로 인해 리소스 제약 상황에서는 효율적 학습과 실제 적용에 한계를 보인다.

연구 목표: 인간 두뇌에서 착안한 경량화 어텐션

이 논문은 “제한된 핵심 특징만으로도 결론을 유추하는” 인간의 인지 방식을 모방해, KG 링크 예측 전용 Bi-Level Routing Attention (BRA) 모듈을 제안했다. 핵심 아이디어는 다음과 같다:

경량 모듈 설계: 기존 PLM의 핵심 파라미터는 그대로 유지하면서, 추가 파라미터는 100만여 개 미만으로 억제했다.
Top-k 경량화 라우팅: 모든 토큰에 대한 전역 self-attention 대신, 의미적으로 유의미한 상위 k개 토큰만 선택해 집중한다.
모듈 플러그인 방식: KGLM 내부의 기존 피처 추출 블록을 대체하지 않고 병렬로 작동해, 안정적인 수렴을 보장한다.

방법론: BRA-LP 모듈 구조와 통합

BRA-LP 아키텍처 개요

입력 토큰 임베딩을 Q, K, V로 선형 투영 후, Q와 K의 평균을 통해 관계 행렬을 계산한다.
관계 행렬에서 상위 k개 위치를 추출해, 해당 토큰의 K, V를 정제해 특징을 얻는다.
표준 Transformer 블록 출력과 BRA 출력을 요소별 합산해 최종 피처를 완성한다.

KGLM과의 통합

BRA-LP는 KGLM의 BERT 기반 피처 추출 레이어에 플러그인 형태로 삽입되어, downstream fine-tuning 시 기존 scoring 함수를 그대로 활용한다. 이렇게 하면 모델 수정 없이 추가 성능 개선을 얻을 수 있다.

실험 설정: 데이터셋과 평가 지표

데이터셋: WN18RR, FB15K-237
평가 지표: Mean Rank (MR), Mean Reciprocal Rank (MRR), Hits@K (K=1, 3, 10)
베이스라인: KGLM, PLM 기반 최신 기법
훈련 환경: GPU 가속, max sequence 길이 128, 학습률 2e-5, 에폭 5, 배치 크기 32

주요 결과: 유의미한 성능 향상

BRA-LP를 통합한 모델은 Hits@10에서 평균 3.5%p, MRR에서는 2.8%p 상승해, 단일 모듈 추가만으로도 링크 예측 정확도를 크게 높였다.

독창적 해석과 시사점

선별적 집중으로 효율 극대화: 전역 어텐션 대신 상위 k개 핵심 토큰에 집중함으로써 의미론적 신호를 증폭했다.
인지 과학과 모델 설계의 접목: 인간 두뇌의 핵심 특징 주목 방식을 모방해, 추론 속도와 정확도를 동시에 개선했다.
범용성 있는 플러그인 모듈: BERT·RoBERTa 등 다양한 PLM에 바로 적용 가능해, 다른 NLP 태스크에도 응용 여지가 크다.

비판적 시각과 한계

k 값의 고정성: 최적 k를 태스크별로 재조정해야 한다.
텍스트 길이 제약: 긴 시퀀스에서는 top-k 선정 오버헤드가 증가할 수 있다.
구현 복잡도 증가: GPU 집약적인 gather 연산으로 경량화 환경에서 성능 저하 가능성도 존재한다.

향후 연구 제언

동적 k 선택 메커니즘: 토큰 중요도 분포에 따라 k를 자동 조절해 더 유연한 어텐션 설계 연구
하이브리드 라우팅: 그래프 구조 정보(GNN)와 라우팅 어텐션을 결합해 구조적·문맥적 신호를 동시 활용
멀티모달 확장: 텍스트 외 이미지·수치 데이터 등 다양한 노드 속성을 라우팅 어텐션으로 처리해 복합 KG 예측 성능 향상

출처논문:

Wang, Y., Xu, S., Ding, Z., Liu, C., & Yang, X. (2025). Link Predictions with Bi-Level Routing Attention. AI, 6(7), 156. https://doi.org/10.3390/ai6070156