“AI가 인간의 마음을 읽을 수 있을까?”… 옥스퍼드 연구진이 밝힌 역강화학습(IRL)의 치명적 한계
인공지능이 인간의 행동을 보고 “이 사람은 무엇을 원하고 있구나”를 추론하는 시대가 왔다.
유튜브 추천 알고리즘, 자율주행차, 로봇 비서, 심지어 AI 동반자 서비스까지… 수많은 시스템이 인간 행동을 분석해 욕구와 목적을 추정한다.
그 중심에 있는 기술이 바로 역강화학습(Inverse Reinforcement Learning, IRL) 이다.
쉽게 말하면 “행동을 보면 목표를 알 수 있다”는 아이디어다.
그런데 최근 옥스퍼드대학교 연구진이 발표한 논문은 이 믿음에 거대한 물음표를 던졌다.
놀랍게도 AI는 인간 행동을 보고도 “진짜 목적”을 정확히 알 수 없을 가능성이 크다는 것이다. 심지어 아주 작은 오해만 있어도 완전히 엉뚱한 결론에 도달할 수도 있다고 경고했다.
같은 행동인데… 이유는 전혀 다를 수 있다
생각해보자.
매일 아침 한 사람이 카페에 간다.
AI는 이를 보고 이렇게 추론할 수 있다.
- “커피를 좋아하는구나”
- “조용한 공간이 필요하구나”
- “출근 전에 습관적으로 들르는구나”
- “사람 만나는 장소로 쓰는구나”
겉으로 보이는 행동은 똑같다.
하지만 진짜 이유는 여러 개일 수 있다.
연구진은 바로 이 문제를 부분 식별성(partial identifiability) 이라고 불렀다.
즉, 행동만으로는 인간의 진짜 보상 체계, 다시 말해 “무엇을 원하는가”를 완전히 특정할 수 없다는 뜻이다.
AI 입장에서는 꽤 치명적이다.
왜냐하면 지금까지 많은 AI 시스템은 “행동을 보면 목표를 추론할 수 있다”는 가정을 바탕으로 설계됐기 때문이다.
인간은 생각보다 비합리적이다
문제는 여기서 끝나지 않는다.
기존 역강화학습은 대체로 인간이 꽤 합리적으로 행동한다고 가정한다.
예를 들어:
- 가장 좋은 선택을 한다
- 손해를 최소화한다
- 보상을 최대화한다
하지만 현실 인간은 어떤가?
- 피곤하면 이상한 선택을 한다
- 스트레스 받으면 충동구매를 한다
- 미래보다 당장 편한 걸 고른다
- 분명 손해인데도 익숙한 행동을 반복한다
연구진은 이런 현실과 AI 모델 사이의 차이를 모델 오지정(misspecification) 이라고 설명했다.
쉽게 말해 AI가 인간을 너무 단순하게 이해하고 있다는 뜻이다.
그리고 더 충격적인 건…
이 오해가 아주 조금만 생겨도 AI의 추론 결과가 크게 틀어질 수 있다는 점이다.
작은 오류 하나가 AI를 완전히 속인다
논문은 특히 두 가지 요소가 위험하다고 지적했다.
- 할인율(discount factor)
- 환경 전이 함수(transition dynamics)
이름은 어렵지만 의미는 단순하다.
할인율은 “미래를 얼마나 중요하게 생각하느냐”다.
예를 들어 어떤 사람은 지금 당장 행복한 걸 중요하게 생각하고, 어떤 사람은 미래를 위해 참고 견딘다.
AI가 이 값을 조금만 잘못 이해해도 인간의 진짜 목적을 완전히 다르게 해석할 수 있다는 것이다.
예를 들어:
- 야근하는 사람 → “일을 사랑한다”
- 실제 이유 → “해고가 두렵다”
AI는 행동만 보고 “열정적인 사람”이라고 착각할 수 있다.
“좋아 보이는 행동”이 진짜 행복은 아니다
이 연구가 중요한 이유는 앞으로 AI가 인간을 대신해 결정을 내리는 시대와 연결되기 때문이다.
예를 들어 AI가 이런 판단을 한다고 상상해보자.
- “이 사람은 SNS를 오래 하네 → SNS를 좋아하는구나”
- “계속 야근하네 → 업무량을 더 줘도 되겠네”
- “배달음식을 자주 먹네 → 건강보다 편의를 선호하네”
하지만 인간 행동은 종종 상황의 결과일 뿐이다.
- 중독 때문일 수도 있고
- 스트레스 때문일 수도 있고
- 선택지가 없어서일 수도 있다
그런데 AI가 행동만 보고 “진짜 선호”라고 착각하면 어떻게 될까?
바로 여기서 위험이 시작된다.
AI 추천 알고리즘도 같은 문제를 안고 있다
사실 이 문제는 이미 우리 주변에서 벌어지고 있다.
유튜브 추천 알고리즘을 보자.
사람이 자극적인 영상을 오래 본다고 해서
정말 그것을 “원한다”고 말할 수 있을까?
틱톡, 인스타그램, 쇼츠도 마찬가지다.
AI는 클릭과 시청 시간을 보상으로 해석한다.
하지만 인간은 항상 자신의 장기적 행복을 위해 행동하지 않는다.
연구진은 이런 상황에서 AI가 인간의 “진짜 목표” 대신 “겉으로 드러난 반복 행동”만 학습할 위험이 있다고 설명한다.
자율주행차와 로봇에도 연결되는 문제
이 논문은 단순한 이론 연구가 아니다.
자율주행차나 로봇 분야에서도 매우 중요하다.
예를 들어 로봇이 인간 행동을 따라 배우는 상황을 생각해보자.
간호사가 환자를 빠르게 이동시킨다.
AI는 이를 보고 “속도가 중요하구나”라고 학습할 수 있다.
하지만 실제 이유는 응급상황 때문이었을 수도 있다.
맥락을 이해하지 못한 AI는 완전히 잘못된 행동을 일반화할 수 있다.
즉, 인간 행동은 단순한 데이터가 아니라 “상황이 포함된 신호”라는 것이다.
연구진이 제안한 핵심 메시지
이번 연구의 핵심은 단순하다.
“행동만으로 인간의 진짜 의도를 완벽하게 알 수는 없다.”
이건 단순한 기술적 한계가 아니라
AI 시대 전체의 철학적 문제에 가깝다.
AI는 인간 행동을 숫자로 바꾸는 데는 뛰어나다.
하지만 인간의 감정, 맥락, 후회, 충동, 사회적 압력까지 완전히 이해하진 못한다.
연구진은 앞으로의 AI 시스템이 단순 행동 데이터만이 아니라:
- 심리학
- 행동경제학
- 인지과학
- 인간 피드백
등을 함께 고려해야 한다고 강조했다.
AI는 인간을 “관찰”할 뿐, 아직 “이해”하진 못한다
사람들은 종종 AI가 인간보다 인간을 더 잘 이해하게 될 거라고 말한다.
하지만 이번 논문은 정반대 가능성을 보여준다.
AI는 인간 행동을 엄청나게 많이 수집할 수 있다.
하지만 데이터가 많다고 해서 진짜 의도를 자동으로 이해하는 건 아니다.
어쩌면 인간이라는 존재는
겉으로 드러나는 행동보다 훨씬 복잡한지도 모른다.
바로 그 지점에서,
현재 AI의 가장 큰 한계가 시작된다.
출처: Skalse, J., & Abate, A. (2026). Partial identifiability and misspecification in inverse reinforcement learning. Artificial Intelligence, 356, 104525. https://doi.org/10.1016/j.artint.2026.104525
