“AI가 설명서를 읽다가 길을 잃는 이유”… 한국 연구진이 찾아낸 충격적인 원인

 



자동차 설명서를 펼쳐본 적 있는가. 어떤 버튼은 12페이지 그림을 보라고 하고, 경고 문구는 또 다른 표를 참고하라고 한다. 문제는 AI도 이 설명서를 읽을 때 똑같이 헤맨다는 점이다. 아니, 어쩌면 인간보다 더 심각하게 길을 잃는다.


최근 공개된 한 연구는 바로 이 문제를 정면으로 파고들었다. 그리고 놀라운 결론을 내놨다. 지금까지의 AI 검색 시스템은 “문서를 읽는 척만 하고 있었다”는 것이다. 연구진은 AI가 기술 문서를 제대로 이해하지 못하는 이유가 단순히 성능 부족이 아니라, 문서 속 “관계”를 잃어버리기 때문이라고 분석했다.


그리고 그 해결책으로 등장한 것이 바로 TechDocRAG다.


AI는 왜 설명서를 읽다가 엉뚱한 답을 할까

요즘 AI 챗봇은 웬만한 질문에는 척척 답한다. 하지만 제품 설명서나 공학 문서처럼 복잡한 자료가 등장하면 이야기가 달라진다.


예를 들어 이런 질문을 한다고 가정해보자.


“센서 Y를 재보정하려면 어떻게 해야 하나요?”


인간은 보통 이렇게 읽는다.

  1. 절차 단계 확인
  2. 경고 문구 확인
  3. 관련 그림 확인
  4. 온도 조건 표 확인

하지만 기존 AI는 이 모든 정보를 따로따로 잘라서 읽는다. 문서를 “조각난 텍스트”로만 처리하기 때문이다. 그러다 보니 경고 문구는 놓치고, 그림 설명은 잃어버리고, 표와 문장의 연결도 끊어진다. 결국 AI는 문맥 없이 일부 문장만 읽고 대답하게 된다.


연구진은 이것을 “증거 사슬 붕괴”라고 설명했다.


쉽게 말하면, 답을 만드는 데 필요한 정보들이 서로 연결돼 있어야 하는데 AI가 그 연결선을 끊어버린다는 뜻이다.


지금까지의 RAG는 왜 한계가 있었나

최근 AI 업계에서 가장 주목받는 기술 중 하나가 바로 RAG다. Retrieval-Augmented Generation, 즉 “검색 기반 생성” 기술이다.


쉽게 설명하면 AI가 답을 만들기 전에 외부 문서를 검색해서 참고하는 방식이다.

예를 들어 AI에게 “USB 포트 최대 전압은?”이라고 물으면 AI는 설명서에서 관련 내용을 찾아 읽고 답한다.


문제는 기존 RAG가 문서를 “텍스트 덩어리”로만 본다는 점이다.


하지만 실제 기술 문서는 전혀 다르다.

  • 표 안에 핵심 값이 숨어 있음
  • 그림 캡션에 중요한 설명이 있음
  • 조항 번호끼리 연결돼 있음
  • 절차 순서가 중요함
  • 버전마다 조건이 달라짐

즉, 기술 문서는 “관계의 문서”다.

그런데 기존 AI는 이 관계를 거의 이해하지 못했다.


한국 연구진이 만든 새로운 방식… 문서를 그래프로 바꿨다

한양대학교 연구진은 완전히 다른 접근을 시도했다.

문서를 그냥 텍스트로 보지 않고 “그래프”로 바꾼 것이다.

그래프란 쉽게 말해 “연결 구조”다.


예를 들어 문서 안에서:

  • 문장 → 표를 참조
  • 그림 → 캡션과 연결
  • 절차 단계 → 다음 단계와 연결
  • 조항 → 다른 조항 참조

이런 관계를 모두 저장한다.

연구진은 이를 “이질적 요소 그래프”라고 불렀다.


문서 안의 모든 요소를 노드(node)로 만들고, 연결 관계를 엣지(edge)로 저장한 것이다.


즉 AI가 문서를 읽을 때:

“이 문장은 저 표와 연결돼 있고, 이 그림은 이 절차 설명과 관련 있으며, 이 경고 문구는 다음 단계와 이어진다”

라는 사실을 기억하게 만든 것이다.

이게 바로 TechDocRAG의 핵심이다.


AI는 먼저 “단서”를 찾는다

TechDocRAG의 가장 흥미로운 점은 AI가 인간처럼 문서를 탐색한다는 점이다.

예를 들어 사람이 설명서를 읽을 때 가장 먼저 찾는 것은 무엇일까.


“4.2절”
“표 7”
“에러 코드 E-204”


같은 단서들이다.


연구진은 AI도 똑같이 행동하게 만들었다.


AI는 질문을 받으면 먼저:

  • 조항 번호
  • 파라미터 이름
  • 버전 태그
  • 표 번호
  • 그림 번호

같은 기술 식별자를 찾아낸다.

그 다음 관련된 연결 구조를 따라가며 필요한 증거를 모은다.


마지막에는:

  • 관련 표
  • 그림 캡션
  • 이전 절차 단계
  • 다음 절차 단계
  • 경고 문구

까지 묶어서 하나의 “증거 패키지”로 만든다.

이 방식 덕분에 AI는 단순 검색이 아니라 “문맥 연결”을 하게 된다.


성능 결과는 충격적이었다

연구진은 제품 설명서, 엔지니어링 문서, 긴 PDF 문서 등 7500개 이상의 질의응답 데이터를 이용해 실험했다.

결과는 예상보다 훨씬 극적이었다.


기존 최고 수준의 일반 RAG보다 평균 성능이 무려 20.3점 높게 나왔다.

특히 놀라운 것은 “정확한 증거 회수율”이었다.


기존 시스템은 실제 정답 근거를 정확히 찾는 비율이 0.510이었다.

하지만 TechDocRAG는 무려 0.942를 기록했다.


거의 두 배 가까운 차이다.


이건 단순히 AI가 말을 더 잘 꾸민 수준이 아니다.

진짜로 “올바른 근거”를 찾아낸다는 의미다.


특히 어려운 문제에서 압도적이었다

흥미로운 점은 쉬운 질문에서는 차이가 상대적으로 작았다는 점이다.


예를 들어:

  • 단순 조항 찾기
  • 파라미터 정의 찾기

같은 문제는 기존 AI도 어느 정도 잘했다.

하지만 다음과 같은 문제에서는 격차가 엄청나게 벌어졌다.

  • 절차 설명
  • 표 해석
  • 그림 기반 질문
  • 교차 참조
  • 버전 비교

특히 “5.2절에서 표 7은 무엇을 설명하나?” 같은 질문에서 TechDocRAG는 압도적 성능을 보였다.


왜일까.


이런 질문은 단순 검색으로는 절대 해결되지 않기 때문이다.

AI는 문서 안의 관계망을 이해해야 한다.


그런데 의외의 약점도 있었다

연구진은 일부러 문서를 망가뜨리는 실험도 했다.


예를 들어:

  • 조항 번호 오타
  • OCR 인식 오류
  • 표 번호 깨짐
  • 관계 연결 삭제

같은 문제를 인위적으로 넣어본 것이다.

결과는 흥미로웠다.


관계 일부가 사라져도 시스템은 꽤 버텼다.

하지만 조항 번호나 표 번호가 심하게 망가지면 성능이 급격히 무너졌다.


즉 이 시스템은 “정확한 식별자”에 크게 의존한다는 뜻이다.


연구진도 이를 인정했다.


결국 기술 문서를 잘 읽으려면 OCR과 문서 파싱 기술 자체도 매우 중요하다는 이야기다.


이 기술이 진짜 무서운 이유

겉보기에는 단순한 검색 기술처럼 보인다.

하지만 실제로는 AI의 사고 방식 자체를 바꾸는 접근이다.

지금까지 AI는 문서를 “문장 모음”으로 봤다.


하지만 인간은 문서를 그렇게 읽지 않는다.


우리는:

  • 제목을 보고
  • 그림을 보고
  • 표를 비교하고
  • 이전 문단을 기억하고
  • 경고 문구를 연결한다

즉 “관계”를 읽는다.


TechDocRAG는 AI에게 바로 그 능력을 일부 가르친 셈이다.


앞으로 가장 크게 바뀔 산업은 어디일까

이 기술은 단순 챗봇 개선 수준에서 끝나지 않을 가능성이 높다.

특히 다음 분야에서 엄청난 파급력이 예상된다.

  • 항공 정비 매뉴얼
  • 반도체 공정 문서
  • 의료 장비 설명서
  • 자동차 수리 가이드
  • 군사 기술 문서
  • 법률 및 규제 문서

왜냐하면 이런 분야는 “문장 하나”보다 “관계 구조”가 훨씬 중요하기 때문이다.

잘못 연결하면 사고가 난다.


실제로 연구진은 “기술 문서 QA의 핵심은 더 많은 문장을 찾는 것이 아니라, 증거 관계를 보존하는 것”이라고 강조했다.


이 한 문장이 이번 연구의 핵심이다.


AI는 이제 단순 검색을 넘어 “문서 구조”를 배우기 시작했다

이번 연구는 단순 성능 경쟁 이상의 의미가 있다.

지금까지 AI는 인터넷 텍스트를 대량으로 학습하며 성장했다.


하지만 현실 세계의 중요한 정보는 생각보다 훨씬 복잡한 구조 안에 숨어 있다.

표 안에 있고, 그림 안에 있고, 절차 순서 안에 있다.

그리고 그 정보들은 서로 연결돼 있다.


TechDocRAG는 바로 그 연결 구조를 AI가 이해하게 만들려는 시도다.

어쩌면 이것은 AI가 “진짜 문서를 읽기 시작한 첫 단계”인지도 모른다.


출처 

Lee, S., & Choi, M. (2026). TechDocRAG: Relation-Preserving Retrieval-Augmented Generation (RAG) for Technical Documents. AI, 7(161). https://doi.org/10.3390/ai7050161