AI 모델의 치명적 약점, 테스트 중 독살 공격?!

“테스트 중에 조용히 무너지는 인공지능”

AI 모델이 ‘현장 투입 후’ 점점 더 똑똑해지는 시대가 열렸다. 하지만 그만큼 허술한 ‘틈’도 함께 생겼다. 최근 중국 충칭사범대 연구팀은 이 틈을 교묘히 파고드는 새로운 공격 방식을 고안했고, 이는 AI의 치명적 허점으로 떠올랐다. 연구진은 "AI가 테스트 중에 공격당하면 돌이킬 수 없을 수도 있다"고 경고한다. 무슨 이야기일까?

AI는 테스트 중에도 ‘학습’을 한다

일반적으로 인공지능은 훈련이 끝난 후 테스트 환경에서 실행된다. 하지만 현실은 그렇게 단순하지 않다. 실제 서비스에 투입된 AI는 새로운 환경에서 기존 훈련과는 다른 데이터를 마주하게 된다. 이를 해결하려고 등장한 것이 ‘테스트 시점 학습(Test-Time Training, TTT)’이다.

쉽게 말해, AI가 실제 상황에서 맞닥뜨리는 데이터를 이용해 ‘스스로 적응’해 나가는 방식이다. 기존 데이터가 필요 없이 테스트 시점에서만 학습하기 때문에 빠르고 유연하다. 특히 최근에는 ‘열린 세계(Open-World)’에서도 유용한 기법으로 주목받고 있다. 하지만...

"문제는 그 열린 문틈이다"

열린 세계에서의 테스트 시점 학습(OWTTT, Open-World Test-Time Training)은 완전히 새로운 종류의 위험을 만든다. 모델이 실제 운영 중에도 스스로를 조정하는 기능이 공격자에게 ‘입구’를 제공하기 때문이다.

기존의 공격 방식은 훈련 데이터에 독을 섞는 식이었다. 하지만 OWTTT에서는 훈련은 이미 끝났다. 공격자는 단지 테스트 데이터만 건드려도 모델의 성능을 떨어뜨릴 수 있다. 즉, 운영 중인 AI를 조용히 무너뜨리는 ‘테스트 시점 독살 공격(Test-time Poisoning Attack)’이 가능하다는 것이다.

연구진이 만든 독약, “SQDP”

중국 충칭사범대의 슈 피(Shu Pi) 연구팀은 이와 같은 새로운 공격 방식인 “단일 단계 질의 기반 데이터 독살(SQDP, Single-step Query-based Data Poisoning)”을 고안했다. 이름만 들으면 복잡해 보이지만 원리는 명확하다.

공격자는 모델이 테스트 중 받는 입력 중 일부에 ‘미세한 교란’을 준다.
이 교란은 모델이 틀린 판단을 하도록 유도하는 ‘독소’다.
공격자는 실제로 모델에게 질문을 던지며 반응을 살피고, 이를 바탕으로 교란을 조정해 나간다.
놀랍게도 단 100번 정도의 질의만으로도 성능이 급락했다!

이 방식의 무서운 점은 ‘모델의 내부 구조나 훈련 정보 없이도’ 가능하다는 것이다. 실제 실험에서 CIFAR10-C 데이터셋에서는 정확도가 88% → 24%로 급감하기도 했다.

단순한 장난이 아니다… 되돌릴 수 없다?

연구진은 단순히 공격이 성공하는 것에 그치지 않고, 공격 이후 정상 데이터를 다시 넣어도 모델이 회복하지 못하는 경우도 관찰했다. 특히 일부 조합에서는 회복률이 거의 0에 가까웠다.

이는 자율주행차나 의료진단처럼 ‘실시간 적응’이 필수적인 AI 시스템에 심각한 위협이 될 수 있다. “테스트 중에 스스로 고치려고 하다가 오히려 병을 키우는 셈”이라는 지적이다.

얼마나 현실적인 공격일까?

연구진은 공격을 위해 특별한 조건이 필요 없다고 강조한다. 공격자는 단지 ‘질의’를 날릴 수 있으면 된다. 이는 인터넷에 연결된 AI 서비스에 충분히 가능하다는 뜻이다.

또한 실험은 가벼운 CIFAR-10부터, 실제 이미지 인식 AI가 사용하는 ImageNet까지 다양한 데이터셋에서 이뤄졌다. 결과는 모두 충격적이었다. 독살된 모델은 회복이 어렵고, 피해는 누적된다.

앞으로는 "적응"이 아닌 "방어"가 핵심

이번 연구는 단순히 “공격이 가능하다”는 것을 넘어서, 현재의 OWTTT 방식이 근본적으로 취약할 수 있음을 보여준다. 연구진은 향후 OWTTT 기법을 설계할 때, 보안 기능을 필수적으로 통합해야 한다고 강조했다.

특히 테스트 중 발생할 수 있는 악의적 입력에 대한 방어 메커니즘은 더 이상 선택이 아니라 필수다. 그렇지 않으면, AI는 외부에서 쉽게 무너질 수 있다.

마지막 한마디

AI가 점점 인간의 삶 깊숙이 들어오고 있는 지금, "운영 중인 AI도 공격당할 수 있다"는 이번 연구의 경고는 결코 가볍게 들리지 않는다. 우리가 믿고 맡긴 AI가 조용히 무너진다면, 그 피해는 우리 모두의 몫이 될지도 모른다.

출처:

Pi, S., Wang, X., & Pi, J. (2025). Research on the robustness of the open-world test-time training model. Frontiers in Artificial Intelligence, 8, 1621025. https://doi.org/10.3389/frai.2025.1621025