PCA와 트랜스포머가 만난 최강 침입 탐지 시스템 등장




“해커여, 이젠 안 통한다”

사이버 공격은 점점 더 똑똑해지고 있다. 단순한 바이러스에서 랜섬웨어, 봇넷, 분산서비스거부(DDoS)까지, 이제 해킹은 국가 안보를 위협하는 수준에 이르렀다. 과연 이 복잡하고 다양한 공격들을 한 번에 탐지할 수 있는 방법은 없을까?

이 질문에 두 명의 연구자가 새로운 답을 내놨다. 이집트 카이로 정보공학기술대학(GUC) 소속 헤샴 카말과 매기 마샬리는 전통적인 침입 탐지 시스템(IDS)이 갖는 한계를 뛰어넘기 위해 PCA(주성분 분석)와 트랜스포머(Transformer)를 결합한 하이브리드 모델을 개발했다. 이름부터 강력한 이 모델은, 단지 정교하기만 한 게 아니라 현실적인 문제들—불균형한 데이터, 높은 처리량, 실시간 탐지 등—을 하나하나 풀어내며 주목받고 있다.


“해커의 얼굴은 하나가 아니다”

기존의 IDS는 보통 한두 종류의 공격에 특화되어 있다. 문제는 현실은 그렇지 않다는 점이다. 오늘은 포트스캔 공격, 내일은 웹 브루트포스, 그다음엔 SQL 인젝션. 마치 시시각각 변하는 해커의 얼굴처럼, 공격의 종류도 끊임없이 바뀐다.

연구팀은 이 문제를 해결하기 위해 먼저 데이터부터 바꿨다. 기존 IDS 연구들은 대부분 하나의 데이터셋에만 의존했는데, 이들은 CSE-CIC-IDS2018CICIDS2017 두 개의 대형 공개 네트워크 침입 데이터셋을 세밀하게 전처리하고 결합했다. 이 과정을 통해 무려 21개 클래스(1개의 정상, 20개의 서로 다른 공격 유형)를 탐지할 수 있게 됐다. ‘다양성’ 면에서 게임 체인저가 된 셈이다.



PCA와 트랜스포머, 두 천재의 협업

데이터가 준비됐다면 이제 똑똑한 분석 도구가 필요하다. 이때 등장한 것이 바로 PCA–Transformer 하이브리드 모델이다.

  • PCA는 데이터를 요약하는 데 탁월하다. 수많은 네트워크 특징 중 진짜 중요한 것들만 골라서 차원을 줄여준다.
  • Transformer는 원래 자연어 처리에 혁신을 불러온 기술이다. 여기서는 데이터의 복잡한 관계를 이해하는 데 사용됐다.

둘의 협업은 놀라운 성능으로 이어졌다. 이진 분류에서는 최고 99.98% 정확도, 다중 클래스 분류에서도 99.28% 정확도를 기록했다. 그야말로 거의 틀리지 않는 수준이다.


“작지만 중요한 공격도 놓치지 않는다”

모델이 정확하다는 건 단지 평균적으로 잘 맞췄다는 뜻이 아니다. 이 모델의 진짜 가치는 희귀한 공격도 놓치지 않는다는 점에 있다.

연구팀은 여기에 클래스 가중치ADASYN(소수 클래스 오버샘플링), ENN(잡음 제거) 등의 기법을 병행해 사용했다. 마치 드문 병을 정확히 진단할 수 있는 의사처럼, 소수 클래스에 대해 민감하게 반응하도록 모델을 훈련시킨 것이다.



현실에서 쓸 수 있을까? “YES!”

기술이 아무리 좋아도 현실에서 쓸 수 없다면 의미가 없다. 연구팀은 단지 성능 수치만 보여주는 데서 멈추지 않았다. 데이터 전처리 속도, 훈련 시간, 메모리 사용량 등을 정량적으로 평가해 모델이 실제 운영 환경에서도 문제없이 돌아갈 수 있음을 입증했다.

특히, IoT 환경에서의 테스트(NF-BoT-IoT-v2)에서는 99.98% 정확도로 공격을 탐지했다. 고속 환경에서도 무너지지 않는 성능을 입증한 것이다.


IDS의 미래를 바꾸다

이 연구는 단지 성능 좋은 모델을 만든 데서 끝나지 않는다. IDS의 전체적인 접근 방식을 바꿨다는 데 의미가 있다.

이 하이브리드 모델은 다양한 공격을 한 번에 탐지하고, 현실에서도 충분히 돌아갈 수 있으며, 새로운 상황에도 일반화 가능한 기반을 마련했다. 앞으로 금융, 군사, 의료 등 고보안 환경에서 사용될 가능성이 높다.



📚 출처

Kamal, H., & Mashaly, M. (2025). Combined Dataset System Based on a Hybrid PCA–Transformer Model for Effective Intrusion Detection Systems. AI, 6(8), 168. https://doi.org/10.3390/ai6080168