보행 인식 스푸핑은 어떻게 막을까? GaitSpoofNet 연구가 제시한 새로운 비전 기반 탐지 기술

보행(Gait) 생체인식은 사람의 걸음걸이만으로 신원을 확인할 수 있는 비접촉식 생체인식 기술이다. 하지만 옷을 바꾸거나 가방을 드는 것처럼 외형을 의도적으로 바꿔 인증 시스템을 속이는 '프레젠테이션 공격(Presentation Attack)'에는 취약하다는 한계가 있었다.

이번 연구에서는 이 문제를 해결하기 위해 GaitSpoofNet이라는 비전 기반 보행 스푸핑 탐지 프레임워크를 제안하고, GRU·LSTM·Mamba 등 최신 시공간 딥러닝 모델을 비교 평가했다. 연구 결과 공개 환경에서는 GRU 기반 모델이 검증 정확도 98.40%, ROC-AUC 0.9983을 기록했고, 제한된 출입 환경에서는 LSTM 기반 모델이 가장 우수한 일반화 성능을 보였다. 이러한 결과는 보행 생체인식 시스템의 보안성을 높이는 실질적인 기준을 제시했다.

왜 보행 생체인식은 스푸핑 공격에 취약할까?

보행 생체인식은 얼굴이나 지문과 달리 멀리 떨어진 거리에서도 사람을 식별할 수 있다는 장점이 있다. CCTV만으로도 인식이 가능하기 때문에 공항, 공공시설, 스마트시티, 국방 분야에서 활용 가능성이 높다.

하지만 공격자가 두꺼운 외투를 입거나 가방을 들고 걷는 등 외형을 의도적으로 변경하면 실루엣이 달라지면서 인증 시스템을 속일 수 있다. 이러한 공격은 Presentation Attack(PA)으로 분류되며, 기존 연구에서는 얼굴이나 지문 분야에서는 활발히 연구됐지만 보행 인식에서는 상대적으로 연구가 부족했다.

특히 기존 보행 스푸핑 연구 대부분은 스마트폰 센서나 웨어러블 장치의 가속도 데이터를 활용했으며, 실제 CCTV 영상처럼 카메라 기반 환경을 대상으로 한 딥러닝 기반 스푸핑 탐지 모델은 거의 존재하지 않았다. 이번 연구는 이러한 공백을 메우는 것을 목표로 했다.

연구진은 어떤 방식으로 보행 스푸핑을 탐지했을까?

이번 연구는 기존 보행 인식 데이터셋인 CASIA-B를 스푸핑 탐지용으로 재구성했다.

총 124명의 보행 데이터를 이용했으며, 정상 보행(NM)을 정상 데이터로, 가방을 든 보행(BG)과 옷을 변경한 보행(CL)을 스푸핑 데이터로 정의하여 이진 분류 문제를 구성했다.

연구진은 실루엣 이미지를 CNN으로 특징을 추출한 뒤 시간 정보를 학습하기 위해 다음과 같은 모델들을 비교했다.

LSTM
GRU
공식 Mamba(State Space Model)
연구진이 구현한 Inspired Mamba

모든 모델은 동일한 CNN 기반 특징 추출기를 사용해 순수하게 시간 정보 처리 능력의 차이를 비교할 수 있도록 설계했다.

왜 두 가지 평가 환경을 따로 구성했을까?

이번 연구의 특징 가운데 하나는 실제 운영 환경을 반영해 두 가지 평가 시나리오를 설계했다는 점이다.

첫 번째는 공개 출입 환경(Open Access)이다. 학교나 회사처럼 동일 인물이 여러 번 등장할 수 있는 환경을 가정했으며 학습 데이터와 검증 데이터에 동일 인물이 포함될 수 있도록 무작위 분할(Random Split)을 사용했다.

두 번째는 제한 출입 환경(Restricted Access)이다. 군사시설이나 중요 보안시설처럼 학습에 사용되지 않은 사람이 등장하는 상황을 가정했다. 이를 위해 연구진은 Leave-N-Subjects-Out Cross Validation(LNSOCV)을 적용하여 학습과 검증 데이터에 동일 인물이 동시에 포함되지 않도록 구성했다.

이러한 평가는 실제 생체인식 시스템이 운영되는 환경을 보다 현실적으로 반영한다는 점에서 의미가 있다.

어떤 모델이 가장 뛰어난 성능을 보였을까?

가장 눈에 띄는 결과는 공개 출입 환경에서 GRU 기반 GaitSpoofNet-F 모델이었다.

연구에서는 다음과 같은 성능을 보고했다.

최종 검증 정확도 98.40%
ROC-AUC 0.9983

이는 연구진이 비교한 여러 시공간 모델 가운데 가장 높은 수준이었다.

반면 제한 출입 환경에서는 LSTM 기반 모델이 가장 우수한 일반화 성능을 보였다.

연구진은 그 이유로 LSTM이 장기적인 시간 정보를 저장하는 메모리 셀(Cell State)을 가지고 있어 처음 보는 사람의 보행 패턴에서도 스푸핑 여부를 더 안정적으로 구분할 수 있었기 때문이라고 설명했다.

반대로 공개 환경에서는 구조가 단순한 GRU가 계산 효율성과 정확도 모두에서 더 유리한 결과를 나타냈다.

Mamba 모델은 기대만큼 성능을 보였을까?

최근 긴 시퀀스를 효율적으로 처리하는 모델로 Mamba(State Space Model)가 주목받고 있다.

이번 연구에서도 공식 Mamba 구현과 연구진이 설계한 Inspired Mamba를 함께 비교했다.

Mamba는 순환신경망(RNN)보다 병렬 처리가 가능하고 계산 효율이 높다는 장점이 있다. 그러나 이번 보행 스푸핑 탐지에서는 GRU와 LSTM이 실제 탐지 성능에서는 더 우수한 결과를 보였다.

이는 최신 구조라고 해서 항상 특정 문제에서 최고의 성능을 보장하는 것은 아니라는 점을 보여준다. 특히 보행 스푸핑처럼 제한된 길이의 시계열 데이터에서는 검증된 순환신경망 구조가 여전히 강력한 경쟁력을 가진다는 점을 시사한다.

이번 연구가 갖는 의미는 무엇일까?

이번 연구는 단순히 새로운 딥러닝 모델을 제안한 것이 아니라 비전 기반 보행 스푸핑 탐지를 위한 표준 평가 기준을 제시했다는 점에서 의미가 크다.

연구진은 기존 CASIA-B 데이터셋을 활용해 스푸핑 탐지 벤치마크를 구축했으며, 공개 환경과 제한 환경을 구분한 평가 프로토콜을 제안했다. 또한 동일한 CNN 백본 위에서 여러 시공간 모델을 체계적으로 비교함으로써 실제 운영 환경에 적합한 모델 선택 기준을 제공했다.

향후에는 실제 스푸핑 전용 데이터셋 구축, 다양한 공격 방식 적용, 복잡한 환경에서의 검증이 추가된다면 보행 생체인식의 실용성이 더욱 높아질 것으로 기대된다.

이번 연구의 한계는 무엇일까?

이번 연구는 CASIA-B를 활용해 스푸핑 탐지를 수행했지만, 해당 데이터셋은 원래 스푸핑 연구를 위해 제작된 데이터셋은 아니다.

연구진은 옷 변경(CL)과 가방(BG) 조건을 스푸핑 상황으로 재해석해 사용했으며, 실제 공격자가 다양한 방식으로 외형을 위장하는 환경까지는 모두 반영하지 못했다.

또한 실제 CCTV 환경의 조명 변화, 군중 환경, 다양한 카메라 품질 등은 충분히 고려되지 않았기 때문에 후속 연구에서 보다 현실적인 데이터셋 검증이 필요하다.

자주 묻는 질문

Q. 보행 스푸핑(Presentation Attack)이란 무엇인가?
A. 보행 스푸핑은 공격자가 옷을 바꾸거나 가방을 드는 등 외형을 의도적으로 변경해 보행 생체인식 시스템을 속이려는 공격을 의미한다.

Q. GaitSpoofNet은 어떤 데이터를 사용했나?
A. 연구진은 CASIA-B 데이터셋의 정상 보행(NM)과 옷 변경(CL), 가방(BG) 조건을 활용해 정상과 스푸핑을 구분하는 이진 분류 문제를 구성했다.

Q. 공개 환경에서는 어떤 모델이 가장 우수했나?
A. 공개 출입 환경에서는 GRU 기반 모델이 검증 정확도 98.40%, ROC-AUC 0.9983을 기록하며 가장 뛰어난 성능을 보였다.

Q. 제한 출입 환경에서는 왜 LSTM이 더 좋은 결과를 보였나?
A. LSTM은 장기 기억(Cell State)을 유지하는 구조를 가지고 있어 학습에 등장하지 않은 사람의 보행 패턴에서도 일반화 성능이 높게 나타났다.

Q. 이번 연구가 중요한 이유는 무엇인가?
A. 이번 연구는 비전 기반 보행 스푸핑 탐지 분야에서 표준화된 평가 환경과 벤치마크를 제안하고, 실제 운영 환경에 적합한 딥러닝 구조를 비교 분석했다는 점에서 의미가 있다.

출처

Mohamed, I., Salah, A., Debie, E., Abdellah, M., & Abdellatif, A. (2026). GaitSpoofNet: Advanced spatio-temporal architectures for vision-based presentation attack detection. Frontiers in Artificial Intelligence, 9, 1821341. https://doi.org/10.3389/frai.2026.1821341