“AI가 설명서를 읽다가 길을 잃는 이유”… 한국 연구진이 찾아낸 충격적인 원인

이미지
  자동차 설명서를 펼쳐본 적 있는가. 어떤 버튼은 12페이지 그림을 보라고 하고, 경고 문구는 또 다른 표를 참고하라고 한다. 문제는 AI도 이 설명서를 읽을 때 똑같이 헤맨다는 점이다. 아니, 어쩌면 인간보다 더 심각하게 길을 잃는다. 최근 공개된 한 연구는 바로 이 문제를 정면으로 파고들었다. 그리고 놀라운 결론을 내놨다. 지금까지의 AI 검색 시스템은 “문서를 읽는 척만 하고 있었다”는 것이다. 연구진은 AI가 기술 문서를 제대로 이해하지 못하는 이유가 단순히 성능 부족이 아니라, 문서 속 “관계”를 잃어버리기 때문이라고 분석했다. 그리고 그 해결책으로 등장한 것이 바로  TechDocRAG 다. AI는 왜 설명서를 읽다가 엉뚱한 답을 할까 요즘 AI 챗봇은 웬만한 질문에는 척척 답한다. 하지만 제품 설명서나 공학 문서처럼 복잡한 자료가 등장하면 이야기가 달라진다. 예를 들어 이런 질문을 한다고 가정해보자. “센서 Y를 재보정하려면 어떻게 해야 하나요?” 인간은 보통 이렇게 읽는다. 절차 단계 확인 경고 문구 확인 관련 그림 확인 온도 조건 표 확인 하지만 기존 AI는 이 모든 정보를 따로따로 잘라서 읽는다. 문서를 “조각난 텍스트”로만 처리하기 때문이다. 그러다 보니 경고 문구는 놓치고, 그림 설명은 잃어버리고, 표와 문장의 연결도 끊어진다. 결국 AI는 문맥 없이 일부 문장만 읽고 대답하게 된다. 연구진은 이것을 “증거 사슬 붕괴”라고 설명했다. 쉽게 말하면, 답을 만드는 데 필요한 정보들이 서로 연결돼 있어야 하는데 AI가 그 연결선을 끊어버린다는 뜻이다. 지금까지의 RAG는 왜 한계가 있었나 최근 AI 업계에서 가장 주목받는 기술 중 하나가 바로 RAG다. Retrieval-Augmented Generation, 즉 “검색 기반 생성” 기술이다. 쉽게 설명하면 AI가 답을 만들기 전에 외부 문서를 검색해서 참고하는 방식이다. 예를 들어 AI에게 “USB 포트 최대 전압은?”이라고 물으면 AI는 설명서에서 관련 내용을 찾아 읽고 답...

“사진 한 장과 목소리만 있으면 정체를 알아낸다?”… AI가 ‘처음 보는 사람’까지 구별하기 시작했다

이미지
  공항 보안 검색대, 은행의 생체 인증, 범죄자 추적 시스템, 스마트폰 얼굴 인식까지. 오늘날 AI는 사람을 구별하는 데 점점 더 능숙해지고 있다. 하지만 지금까지의 인공지능에는 치명적인 약점 하나가 있었다. 바로  “처음 보는 사람”  에 대한 판단이었다. 기존 얼굴 인식 AI는 학습한 사람만 잘 알아봤다. 한 번도 본 적 없는 사람이 등장하면 어떻게 될까? 놀랍게도 AI는 종종 그 사람을 “아는 사람 중 하나”라고 착각해버렸다. 마치 처음 보는 학생을 억지로 반 친구 이름 중 하나로 부르는 셈이다. 그런데 최근 스페인 알리칸테 대학 연구진이 이 문제를 해결할 새로운 AI 기술을 공개했다. 이 AI는 단순히 얼굴만 보지 않는다.  목소리와 얼굴을 동시에 분석  한다. 더 놀라운 건, 학습한 적 없는 사람까지도 “이 사람은 처음 보는 인물”이라고 판별해낸다는 점이다.  연구진은 이를 통해 미래의 보안 시스템이 훨씬 더 안전해질 수 있다고 설명했다. AI는 왜 ‘처음 보는 사람’을 구별하지 못했을까 사람은 생각보다 쉽게 타인을 구분한다. 얼굴이 조금 달라도 목소리로 알아보고, 목소리가 달라도 걸음걸이나 분위기로 눈치챈다. 하지만 기존 AI는 그렇지 못했다. 대부분의 얼굴 인식 시스템은 사진 데이터만 사용한다. 예를 들어 AI에게 100명의 얼굴을 학습시키면, AI는 세상에 존재하는 모든 사람을 그 100명 중 하나로 분류하려 한다. 문제는 여기서 발생한다. 전혀 다른 사람이 등장해도 AI는 “이 사람은 아마 37번일 거야”라고 잘못 판단한다. 실제 보안 시스템에서는 이런 오류가 매우 위험하다. 감시 카메라가 낯선 침입자를 기존 직원으로 오인할 수도 있기 때문이다. 연구진은 이런 문제를 해결하기 위해 인간처럼 여러 감각을 동시에 사용하는 방법을 떠올렸다. 얼굴만 보지 말고, 목소리까지 함께 분석하면 어떨까? 얼굴과 목소리를 같은 공간에 넣은 AI 연구진이 만든 시스템의 핵심은  “멀티모달 대조 학습” ...

인공지능의 속마음을 엿보다! 시계열 AI의 비밀을 푸는 열쇠 'ExplainTS' 등장

이미지
  인공지능(AI)이 우리 삶의 깊숙한 곳까지 들어와 있다. 병원에서 심전도 데이터를 분석해 병을 진단하고, 공장에서 기계의 진동을 감지해 고장을 예측하며, 금융 시장에서 주가의 흐름을 파악하기도 한다. 이처럼 시간에 따라 변하는 데이터를 '시계열 데이터'라고 부르는데, 최근의 AI는 이 복잡한 데이터를 척척 분류해낸다. 하지만 문제가 하나 있다. 바로 이 똑똑한 AI가 '왜' 그런 판단을 내렸는지 알기 어렵다는 점이다. 일종의 검은 상자(Black-box)인 셈이다. 만약 AI가 멀쩡한 사람에게 병이 있다고 진단했는데 그 이유를 설명하지 못한다면 누가 그 결과를 믿을 수 있을까? 그래서 등장한 것이 바로 설명 가능한 인공지능, 즉 XAI 기술이다. 이번에 발표된 연구는 시계열 AI가 내린 결론의 이유를 누구나 쉽게 확인하고 비교할 수 있도록 돕는 거대한 보물창고, 'ExplainTS' 벤치마크 데이터셋에 관한 이야기다. AI가 왜 그렇게 생각했을까? 103가지 숙제로 풀어보는 인공지능의 논리 연구팀은 AI의 설명 능력을 제대로 평가하기 위해 아주 특별한 실험실을 만들었다. 지금까지는 연구자들마다 각자 다른 데이터와 모델을 사용해 AI의 설명 방식을 테스트했기 때문에, A라는 설명 방식이 B보다 정말 더 뛰어난지 객관적으로 비교하기가 무척 어려웠다. 마치 수학 문제를 푸는 방식은 제각각인데 문제 자체가 달라서 누가 더 잘 풀었는지 가릴 수 없는 상황과 비슷했다. 연구팀은 이 문제를 해결하기 위해 UCR/UEA 아카이브에서 수집한 103가지의 다양한 시계열 분류 작업(83개의 단변량, 20개의 다변량 데이터)을 한데 모았다. 그리고 이 모든 데이터에 동일하게 적용할 수 있는 표준 AI 모델(ConvLSTM)을 미리 학습시켜 준비했다. 이제 연구자들은 힘들게 AI 모델을 처음부터 가르칠 필요 없이, 이미 준비된 모델이 내놓은 설명 결과물을 즉시 분석하기만 하면 된다. 이번 연구의 핵심은 단순히 데이터만 모은 것이 아니라,...

“말하지 않아도 알아요?” 이제 AI가 당신의 목소리 끝 떨림까지 읽어낸다! 소수 언어 카슈미르어의 기적

이미지
  카슈미르의 아름다운 풍경 속에서 인공지능이 인간의 목소리 파동을 분석하여 감정을 시각화하는 모습. 인공지능은 이제 언어의 장벽을 넘어 마음의 소리까지 듣기 시작했다. 말 한마디에 담긴 진심을 읽는 마법, 인공지능이 카슈미르어의 '목소리 눈치'를 챘다! 우리는 가끔 상대방의 목소리만 듣고도 그 사람이 기쁜지, 아니면 화가 났는지 단번에 알아차린다. "밥 먹었니?"라는 똑같은 문장이라도 다정하게 물을 때와 짜증 섞인 목소리로 물을 때의 느낌은 하늘과 땅 차이다. 그런데 만약 우리가 전혀 모르는 외국어로 누군가 말을 한다면 어떨까? 아마 그 사람의 감정을 파악하기가 무척 어려울 것이다. 컴퓨터도 마찬가지다. 영어처럼 데이터가 많은 언어는 인공지능이 감정을 잘 배우지만, 인도 북부의 아름다운 계곡에서 쓰이는 '카슈미르어'처럼 사용자가 적은 언어는 인공지능에게도 아주 어려운 숙제였다. 하지만 최근 한 연구팀이 이 어려운 숙제를 완벽하게 풀어냈다. 인공지능이 카슈미르어 속에 숨겨진 미세한 감정의 떨림까지 읽어낼 수 있도록 만드는 데 성공한 것이다. 과연 기계는 어떻게 사람의 목소리에서 '기쁨'과 '슬픔'을 구별해내는 것일까? 그리고 왜 하필 카슈미르어였을까? 이 흥미진진한 인공지능의 감정 탐험 이야기를 지금부터 시작한다. 언어의 보물창고 카슈미르어, 인공지능의 새로운 도전이 시작되다 카슈미르어는 인도와 파키스탄 접경 지역인 카슈미르 계곡에서 주로 쓰이는 언어다. 이 언어는 독특한 억양과 리듬을 가지고 있어 아주 매력적이지만, 안타깝게도 인공지능 분야에서는 '소외된 언어'였다. 우리가 흔히 쓰는 시리(Siri)나 빅스비(Bixby) 같은 인공지능 비서들은 영어나 한국어는 기가 막히게 알아듣지만, 카슈미르어 앞에서는 꿀 먹은 벙어리가 되기 일쑤였다. 감정을 읽어내는 기술(SER, Speech Emotion Recognition)은 더더욱 부족했다. 연구진은 이 문제를 해결하...