“사진 한 장과 목소리만 있으면 정체를 알아낸다?”… AI가 ‘처음 보는 사람’까지 구별하기 시작했다

공항 보안 검색대, 은행의 생체 인증, 범죄자 추적 시스템, 스마트폰 얼굴 인식까지. 오늘날 AI는 사람을 구별하는 데 점점 더 능숙해지고 있다. 하지만 지금까지의 인공지능에는 치명적인 약점 하나가 있었다. 바로 “처음 보는 사람” 에 대한 판단이었다.

기존 얼굴 인식 AI는 학습한 사람만 잘 알아봤다. 한 번도 본 적 없는 사람이 등장하면 어떻게 될까? 놀랍게도 AI는 종종 그 사람을 “아는 사람 중 하나”라고 착각해버렸다. 마치 처음 보는 학생을 억지로 반 친구 이름 중 하나로 부르는 셈이다.

그런데 최근 스페인 알리칸테 대학 연구진이 이 문제를 해결할 새로운 AI 기술을 공개했다. 이 AI는 단순히 얼굴만 보지 않는다. 목소리와 얼굴을 동시에 분석 한다. 더 놀라운 건, 학습한 적 없는 사람까지도 “이 사람은 처음 보는 인물”이라고 판별해낸다는 점이다.

연구진은 이를 통해 미래의 보안 시스템이 훨씬 더 안전해질 수 있다고 설명했다.

AI는 왜 ‘처음 보는 사람’을 구별하지 못했을까

사람은 생각보다 쉽게 타인을 구분한다. 얼굴이 조금 달라도 목소리로 알아보고, 목소리가 달라도 걸음걸이나 분위기로 눈치챈다. 하지만 기존 AI는 그렇지 못했다.

대부분의 얼굴 인식 시스템은 사진 데이터만 사용한다. 예를 들어 AI에게 100명의 얼굴을 학습시키면, AI는 세상에 존재하는 모든 사람을 그 100명 중 하나로 분류하려 한다.

문제는 여기서 발생한다.

전혀 다른 사람이 등장해도 AI는 “이 사람은 아마 37번일 거야”라고 잘못 판단한다. 실제 보안 시스템에서는 이런 오류가 매우 위험하다. 감시 카메라가 낯선 침입자를 기존 직원으로 오인할 수도 있기 때문이다.

연구진은 이런 문제를 해결하기 위해 인간처럼 여러 감각을 동시에 사용하는 방법을 떠올렸다. 얼굴만 보지 말고, 목소리까지 함께 분석하면 어떨까?

얼굴과 목소리를 같은 공간에 넣은 AI

연구진이 만든 시스템의 핵심은 “멀티모달 대조 학습” 이라는 기술이다. 이름은 어렵지만 원리는 의외로 단순하다.

AI는 사람의 얼굴 사진과 목소리를 각각 숫자 벡터로 바꾼다. 얼굴은 구글의 유명 얼굴 인식 모델인 FaceNet 을 사용했고, 목소리는 음성 특징을 추출하는 MFCC 기술을 사용했다.

그리고 AI는 이렇게 묻는다.

“이 얼굴과 이 목소리는 같은 사람일까?”

같은 사람이라면 두 데이터가 가까워지도록 학습하고, 다른 사람이라면 멀어지도록 반복 훈련한다. 마치 사람끼리 비슷한 친구는 같은 반에 앉히고, 전혀 다른 친구는 멀리 떨어뜨리는 것과 비슷하다.

논문에서는 이 과정을 대조 학습(Contrastive Learning) 이라고 설명했다.

쉽게 말하면 AI는 “얼굴과 목소리가 서로 얼마나 잘 어울리는가”를 배우는 셈이다.

훈련 전 AI는 거의 아무것도 몰랐다

연구에서 가장 흥미로운 장면 중 하나는 AI 훈련 전후의 변화였다.

처음 상태의 AI는 얼굴과 목소리의 관계를 거의 이해하지 못했다. 같은 사람의 얼굴과 목소리를 줘도 유사도 점수가 0 근처에 몰렸다. 즉, “누가 누구인지 전혀 연결하지 못한 상태”였다.

하지만 대조 학습 이후 상황이 완전히 달라졌다.

같은 사람의 얼굴과 목소리는 거의 완벽하게 일치하는 값에 가까워졌다. 반면 다른 사람의 조합은 멀리 떨어졌다. AI가 드디어 “이 얼굴과 이 목소리는 같은 사람이다”라는 감각을 익힌 것이다.

논문 속 그래프에서는 학습 이후 유사도가 1에 가까워지는 모습이 나타났다. 이는 얼굴과 음성이 같은 공간에서 강하게 연결되었다는 의미다.

가장 놀라운 결과… “처음 보는 사람입니다”

연구의 핵심은 여기서 시작된다.

AI는 단순히 사람을 맞히는 데서 끝나지 않았다. 학습하지 않은 사람 을 발견하는 능력까지 보여줬다.

연구진은 이를 OOD(Out-of-Distribution) 탐지라고 불렀다. 쉽게 말하면 “AI가 처음 보는 사람을 처음 본다고 인정하는 능력”이다.

실험 결과는 꽤 충격적이었다.

작은 데이터셋에서는 얼굴 인식 AI와 새 시스템 모두 좋은 성능을 보였다. 하지만 사람 수가 수백 명 이상으로 늘어나자 차이가 극적으로 벌어졌다.

기존 얼굴 인식 시스템은 성능이 거의 무너졌다.

특히 대규모 실험인 VoxCeleb Big 환경에서 기존 FaceNet 기반 시스템은 정확도가 20% 아래로 추락했다. 반면 새로운 멀티모달 AI는 90% 이상의 정확도를 유지했다.

이 차이는 왜 발생했을까?

기존 얼굴 인식 AI는 등록된 사람 목록 전체와 계속 비교해야 한다. 사람이 많아질수록 서로 비슷한 얼굴도 늘어나고, 경계가 흐려진다.

하지만 이번 AI는 다르다.

“이 얼굴과 이 목소리가 서로 잘 맞는가?”

오직 그것만 본다.

즉, 수천 명의 얼굴 데이터베이스를 뒤질 필요가 없다. 그래서 규모가 커져도 성능이 안정적이었다.

계산량까지 적다… 스마트폰에도 들어갈 수 있다

흥미로운 건 성능만이 아니다.

보통 AI가 똑똑해질수록 계산량은 폭발적으로 증가한다. 하지만 이번 시스템은 오히려 계산이 단순했다.

연구진에 따르면 이 AI는 얼굴 벡터 하나, 음성 벡터 하나를 비교한 뒤 코사인 유사도 계산 한 번만 수행하면 된다. 복잡한 데이터베이스 검색 과정이 필요 없다.

이 말은 곧 스마트폰, CCTV, 로봇, 차량 같은 작은 기기에서도 충분히 실시간 작동이 가능하다는 뜻이다.

영화 속 기술이 현실이 되는 순간

이 기술이 실제로 사용되면 어떤 일이 벌어질까?

예를 들어 공항 보안 시스템이 있다고 가정해보자.

기존 AI는 얼굴이 조금 비슷하면 다른 사람을 동일 인물로 착각할 수 있었다. 하지만 새로운 AI는 얼굴과 목소리를 동시에 확인한다.

얼굴은 비슷하지만 목소리가 다르면?

AI는 즉시 “등록되지 않은 사람”이라고 판단할 수 있다.

반대로 얼굴이 마스크 때문에 잘 안 보여도 목소리가 보완해줄 수 있다. 시끄러운 환경에서는 얼굴 데이터가 도움을 줄 수도 있다. 서로 약점을 보완하는 셈이다.

연구진은 이 기술이 앞으로 보안, 감시 시스템, 인간-컴퓨터 상호작용 분야에서 큰 역할을 할 것이라고 전망했다.

그런데 무섭기도 하다

물론 이런 기술에는 윤리 문제도 따라온다.

얼굴과 목소리를 동시에 분석하는 AI는 엄청난 개인정보를 다룬다. 만약 악용된다면 개인 추적 시스템으로 변질될 위험도 있다.

논문에서도 연구진은 향후 연구에서 윤리적 고려와 대규모 실제 환경 검증 이 필요하다고 언급했다.

기술은 점점 인간을 더 정확하게 이해하기 시작했다. 하지만 동시에 우리는 어디까지 AI에게 사람을 판단하게 허용할 것인지 고민해야 하는 시대에 들어서고 있다.

인간처럼 “낯선 사람”을 알아보는 AI의 시대

사실 인간에게 가장 자연스러운 능력 중 하나는 “처음 보는 사람”을 알아보는 것이다.

우리는 친구를 기억하고, 낯선 사람을 구별한다. 그런데 AI는 지금까지 그 단순한 능력을 제대로 하지 못했다.

이번 연구는 AI가 처음으로 인간처럼 “이 사람은 내가 아는 사람이 아니다”라고 판단하는 방향으로 나아가고 있음을 보여준다.

그리고 그 핵심에는 얼굴이 아니라, 얼굴과 목소리의 관계 가 있었다.

미래의 AI는 단순히 사람을 외우는 기계가 아니다. 사람을 “이해”하기 시작한 것이다.

출처: Garcia, S., Gomez-Donoso, F., & Cazorla, M. (2026). Multimodal Recognition of Out-of-Distribution Individuals Using Contrastive Learning. AI, 7(5), 162. https://doi.org/10.3390/ai7050162