AI의 미래는 성능 경쟁이 아니다… 신뢰가 승부를 가른다

누구나 한 번쯤은 AI에게 질문을 던져본 경험이 있다.

업무 보고서를 작성할 때도, 공부를 할 때도, 건강 정보를 찾을 때도 AI는 점점 우리 일상 속으로 들어오고 있다. 실제로 많은 사람들은 AI가 제시한 답변을 상당히 신뢰한다. 하지만 한 가지 중요한 의문이 남는다.

과연 AI는 정말 믿을 수 있을까?

최근 발표된 연구는 이 질문에 대해 매우 흥미로운 답을 내놓았다. 연구진은 앞으로의 AI 경쟁이 단순히 "누가 더 똑똑한가"가 아니라 "누가 더 신뢰할 수 있는가"로 바뀔 것이라고 주장했다. 특히 스스로 계획을 세우고 여러 작업을 수행하는 최신 AI 시스템이 등장하면서 신뢰 문제가 AI 발전의 가장 중요한 과제가 됐다고 설명했다.

과학자들은 AI의 능력보다 신뢰를 더 중요하게 보기 시작했다

최근 AI는 단순히 질문에 답하는 수준을 넘어섰다.

이제는 스스로 정보를 검색하고, 데이터를 분석하고, 여러 단계의 작업을 수행하는 이른바 '에이전트형 AI(Agentic AI)'가 등장하고 있다.

쉽게 말해 AI가 단순 계산기가 아니라 비서 역할까지 하기 시작한 것이다.

예를 들어 사용자가 "암 치료 연구를 조사해줘"라고 요청하면 최신 AI는 논문을 검색하고, 핵심 내용을 정리하고, 결과를 비교한 뒤 최종 보고서까지 작성할 수 있다.

겉으로 보면 놀라운 발전처럼 보인다.

하지만 연구진은 여기서 새로운 위험이 발생한다고 지적했다.

처음 단계에서 작은 오류가 발생하면 이후 모든 과정이 잘못된 방향으로 흘러갈 수 있다는 것이다.

마치 내비게이션이 처음 길을 잘못 안내하면 목적지까지 엉뚱한 길로 가게 되는 것과 비슷하다.

더 큰 문제는 AI가 틀린 내용을 매우 그럴듯하게 설명한다는 점이다.

사람들은 자연스럽게 "말을 잘하니까 맞겠지"라고 생각하기 쉽다.

하지만 연구진은 유창한 설명과 정확한 사실은 전혀 다른 문제라고 강조했다.

연구진은 의학 분야에서 해답을 찾았다

흥미로운 점은 연구진이 AI의 미래를 설명하면서 의학을 참고했다는 사실이다.

오늘날 의사들은 단순 경험만으로 치료법을 결정하지 않는다.

대신 수많은 연구 결과와 임상시험 데이터를 검토한 뒤 결론을 내린다.

이를 '근거중심의학(Evidence-Based Medicine)'이라고 부른다.

쉽게 말해 "누가 말했는가"보다 "무슨 증거가 있는가"를 더 중요하게 보는 방식이다.

예를 들어 감기에 좋은 치료법이 있다고 주장하는 사람이 있다고 가정해보자.

근거중심의학에서는 그 사람의 명성보다 실제 임상시험 결과를 먼저 확인한다.

AI에도 같은 원칙이 필요하다는 것이 연구진의 주장이다.

AI가 어떤 결론을 내렸다면 그 결론이 어디에서 나왔는지 추적할 수 있어야 한다는 것이다.

AI는 답을 말하는 것이 아니라 근거를 보여줘야 한다

연구진은 미래 AI가 반드시 갖춰야 할 핵심 원칙을 제시했다.

가장 중요한 것은 '출처 추적'이다.

AI가 "이 약물은 효과가 있다"고 말한다면 어떤 논문과 데이터에 근거한 것인지 확인할 수 있어야 한다.

쉽게 말해 시험 답안만 제출하는 학생이 아니라 풀이 과정까지 공개하는 학생이 되어야 한다는 뜻이다.

여기서 흥미로운 점이 있다.

연구진은 AI가 만든 모든 정보에 출처를 연결해야 한다고 주장했다.

숫자 하나, 문장 하나까지 원래 데이터와 연결돼야 한다는 것이다.

이는 기존 AI와 매우 다른 접근 방식이다.

지금까지는 결과만 보여주는 AI가 많았다.

하지만 앞으로는 "왜 그런 결론이 나왔는가"를 설명하는 AI가 중요해질 것으로 전망된다.

연구진은 AI를 9단계 전문가 팀으로 나누는 방식을 제안했다

논문에서 가장 흥미로운 부분 중 하나는 '증거 기반 에이전트 스택(Evidence-Based Agent Stack)'이다.

연구진은 하나의 거대한 AI가 모든 일을 처리하는 대신 여러 전문 AI가 역할을 분담해야 한다고 제안했다.

예를 들어

질문을 정의하는 AI
자료를 찾는 AI
논문을 선별하는 AI
데이터를 추출하는 AI
오류와 편향을 평가하는 AI
결과를 종합하는 AI
인과관계를 분석하는 AI
불확실성을 평가하는 AI
최종 의사결정을 지원하는 AI

가 각각 따로 존재하는 구조다.

비유하자면 한 명의 만능 직원보다 기획자, 연구원, 회계사, 변호사가 팀을 이뤄 일하는 것과 비슷하다.

이 방식의 장점은 문제가 발생했을 때 어느 단계에서 오류가 생겼는지 쉽게 확인할 수 있다는 점이다.

검증 수준의 향상이 절실하다

많은 사람들이 AI의 가장 큰 문제를 성능 부족이라고 생각한다.

하지만 연구진은 오히려 평가 체계가 더 큰 문제라고 지적했다.

왜냐하면 AI 성능은 매우 좋아지고 있지만 검증 방법은 그 속도를 따라가지 못하고 있기 때문이다.

예를 들어 어떤 AI가 논문 분석 정확도 95%를 기록했다고 발표됐다고 가정해보자.

겉으로는 매우 훌륭해 보인다.

하지만 같은 데이터로 AI를 훈련시키고 평가했다면 실제 성능보다 훨씬 높게 나올 수 있다.

학생이 시험 문제를 미리 보고 시험을 치르는 것과 비슷한 상황이다.

연구진은 이런 문제를 '자동화 함정(Automation Trap)'이라고 설명했다.

AI가 발전할수록 검증 수준도 함께 높아져야 한다는 것이다.

AI는 틀릴 수 있다는 사실을 스스로 말해야 한다

하지만 이야기는 여기서 끝나지 않는다.

연구진은 미래 AI가 반드시 갖춰야 할 또 하나의 능력을 강조했다.

바로 '불확실성 표현'이다.

현재 많은 AI는 확신에 찬 말투로 답변을 제공한다.

문제는 실제로는 확신할 수 없는 정보도 있다는 점이다.

예를 들어 연구 결과가 서로 충돌하거나 데이터가 부족한 경우가 있다.

이때 AI는 억지로 하나의 답을 만드는 대신 "현재 증거만으로는 결론을 내리기 어렵다"고 말할 수 있어야 한다.

놀라운 사실은 이것이 오히려 더 신뢰할 수 있는 AI의 특징이라는 점이다.

모든 질문에 답하는 AI보다 모르는 것을 인정하는 AI가 더 안전하다는 것이다.

인간의 역할은 앞으로도 사라지지 않을 가능성이 크다

AI가 발전하면 인간 전문가가 필요 없어질 것이라는 전망도 많다.

그러나 연구진의 결론은 달랐다.

AI는 최종 결정자가 아니라 '부조종사(Co-pilot)' 역할을 해야 한다고 설명했다.

비행기를 생각해보면 이해하기 쉽다.

최신 여객기에는 강력한 자동조종 장치가 있다.

하지만 중요한 순간에는 결국 인간 조종사가 책임을 진다.

AI도 마찬가지다.

의료 진단, 독성 평가, 정책 결정 같은 중요한 분야에서는 인간 전문가가 최종 판단을 내려야 한다.

AI는 정보를 수집하고 분석하는 강력한 도구가 될 수 있지만 책임까지 대신할 수는 없다는 것이다.

미래의 AI 경쟁은 성능이 아니라 신뢰 경쟁이 될 수 있다

더 흥미로운 결과가 뒤이어 나타났다.

연구진은 앞으로 AI 기업들이 단순히 더 강력한 모델을 만드는 경쟁에서 벗어나게 될 것이라고 전망했다.

대신

출처를 추적할 수 있는가
결과를 재현할 수 있는가
오류를 발견할 수 있는가
불확실성을 설명할 수 있는가
인간 감독 체계를 갖추고 있는가

같은 요소들이 핵심 경쟁력이 될 수 있다고 설명했다.

이는 자동차 산업이 단순히 빠른 차를 만드는 경쟁에서 안전한 차를 만드는 경쟁으로 발전한 것과 비슷하다.

AI 역시 이제는 "얼마나 똑똑한가"보다 "얼마나 믿을 수 있는가"가 중요한 시대에 진입하고 있는 셈이다.

신뢰가 관건이다

이번 연구는 AI 발전의 방향을 보여준다는 점에서 의미가 크다.

많은 사람들은 AI의 미래를 더 강력한 성능에서 찾는다.

그러나 연구진은 진짜 미래가 신뢰성에 있다고 주장한다.

앞으로 우리는 AI가 내놓은 답변을 무조건 믿기보다 근거를 확인하는 습관을 가져야 할지도 모른다.

동시에 AI 개발자들은 더 똑똑한 AI뿐 아니라 더 투명하고 설명 가능한 AI를 만들어야 한다.

미래의 승자는 가장 화려한 AI가 아니라 가장 신뢰받는 AI가 될 가능성이 높다.

여러분은 어떻게 생각하는가?

AI가 내린 결정을 어디까지 믿을 수 있다고 생각하는가?

그리고 앞으로 등장할 AI는 단순히 똑똑한 존재가 되어야 할까, 아니면 믿을 수 있는 존재가 되어야 할까?

출처

Luechtefeld, T., & Hartung, T. (2026). Evidence-based AI: From trailblazer to trustblazer? Frontiers in Artificial Intelligence, 9, 1818128. https://doi.org/10.3389/frai.2026.1818128