대형 언어모델, 지식그래프도 만든다고?

인공지능이 요즘 못 하는 게 뭘까? 시를 쓰고, 코드를 짜고, 의학 논문까지 요약해주는 이 똑똑한 언어모델이 이제는 지식그래프까지 만든다고 한다. 최근 프랑스 부르고뉴 대학 연구팀이 발표한 논문에 따르면, 대형 언어모델(LLM)을 활용해 ‘텍스트를 지식그래프로 변환(Text-to-Knowledge Graph, T2KG)’하는 기술이 한층 진화하고 있다고 한다.

지식그래프는 데이터의 바다에서 숨은 정보를 뽑아내고 연결해주는 일종의 ‘지식 지도’다. 구글이 2012년에 처음 상용화 개념을 내놓은 뒤, 아마존, 페이스북 같은 IT 공룡들이 경쟁적으로 따라붙었다. 그 덕에 우리는 검색창에 이름만 쳐도 ‘누구와 어디에 살고 무슨 상을 받았는지’까지 한눈에 볼 수 있다. 하지만 이런 지식그래프를 만드는 일은 생각보다 만만치 않다.

텍스트를 그래프로… 사람 대신 LLM이?

연구팀은 인간이 수작업으로 일일이 정보를 뽑아 구조화하던 방식 대신, LLM에게 자연어 문장을 삼키게 하고 그 안에 담긴 사실을 ‘삼중 구조(주어-관계-목적어)’로 뽑아내는 방식을 실험했다. 이를 위해 대표적인 공개 LLM인 Llama2, Mistral, Starling을 테스트했다.

방법은 크게 세 가지였다. 하나는 LLM에게 그냥 명령만 주고 결과를 뽑게 하는 ‘제로샷(Zero-Shot Prompting)’. 두 번째는 몇 가지 예시를 같이 보여주며 패턴을 익히게 하는 ‘퓨샷(Few-Shot Prompting)’. 마지막은 아예 모델을 해당 작업에 맞게 다시 학습시키는 ‘파인튜닝(Fine-Tuning)’이다.

간단히 말해 제로샷은 “알아서 해봐!”, 퓨샷은 “이런 식으로 해봐”, 파인튜닝은 “아예 제대로 배워!” 정도로 비유할 수 있겠다.

어떤 방법이 더 똑똑했나

연구팀은 영어 문장 데이터셋(WebNLG+2020)과 KELM-sub라는 두 가지 자료를 사용해 LLM이 얼마나 정확히 삼중 구조를 뽑아내는지 비교했다. 평가 기준도 까다로웠다. 주어진 문장에서 빠뜨린 정보(누락), 없는 정보를 지어낸 것(환각), 중복된 정보까지 따져봤다.

결과는? 예상대로 파인튜닝한 모델이 가장 뛰어났다. 특히 Mistral과 Starling 모델은 제로샷이나 퓨샷보다 파인튜닝했을 때 누락률과 환각률이 크게 줄었다. 단순히 정확도만 높아진 게 아니다. 삼중 구조끼리 의미가 얼마나 비슷한지도 측정했는데, 파인튜닝 모델이 가장 일관된 결과를 보였다.

하지만 모든 게 장밋빛은 아니었다. 파인튜닝은 특정 데이터셋에 맞춰진 덕분에 새로운 분야로 넘어가면 성능이 떨어졌다. 이를테면 WebNLG로 학습한 모델은 KELM-sub 같은 다른 자료에선 성능이 뚝 떨어졌다. ‘너무 한 우물만 팠다’는 얘기다.

그래도 사람이 해야 할 일은 남았다

그렇다면 앞으로 인간은 손 놓고 LLM이 알아서 지식그래프를 만들어줄까? 아직은 아니다. 논문은 분명히 말한다. 파인튜닝으로 성능은 올랐지만, 모델이 원문에 없는 정보를 ‘지어내는’ 현상(환각)과 누락 문제는 여전히 완벽하지 않다. 특히 복잡한 문맥에서 시제나 추론까지 정확히 뽑아내려면 추가 기술 개발이 필요하다.

연구팀은 ‘동의어 처리’ 같은 세부 평가 지표를 더 정교하게 만들고, LLM으로 데이터셋을 확장하는 방법도 제안했다. 간단히 말해, LLM이 LLM을 더 똑똑하게 만든다는 얘기다. 향후에는 인간 전문가가 LLM이 만든 결과를 검수하면서, 더 정확하고 풍부한 지식그래프를 완성할 수 있을 거라는 전망이다.

LLM과 지식그래프, 함께 진화하다

이 연구는 대형 언어모델과 지식그래프가 서로에게 어떤 역할을 할 수 있는지 잘 보여준다. LLM은 복잡한 텍스트를 구조화해 그래프로 만들고, 지식그래프는 LLM이 뱉은 결과를 검증해 신뢰도를 높인다.

한마디로, LLM과 지식그래프는 서로의 부족한 점을 채워주는 파트너가 될 가능성이 크다. 앞으로 검색 엔진, 추천 시스템, 자동 요약 같은 기술 뒤에는 더 정교한 지식그래프가 숨겨져 있을 것이다. 그리고 그걸 만드는 건 이제 인간만이 아니라, 똑똑한 LLM의 몫이기도 하다.

출처 논문
Ghanem H and Cruz C (2025) Fine-tuning or prompting on LLMs: evaluating knowledge graph construction task. Front. Big Data 8:1505877. https://doi.org/10.3389/fdata.2025.1505877