침입자를 잡아내는 인공지능, 똑똑하고 빨라졌다

― 복잡한 데이터를 다듬는 ‘두 단계 기능 선택 프레임워크(2P-FSID)’ 등장

보이지 않는 전쟁터가 있다. 데이터가 넘실거리는 인터넷 세상 속, 악성 해커들과 그것을 막으려는 시스템 간의 숨 막히는 전쟁이다. 기업, 병원, 정부 기관, 어느 곳이든 데이터가 있다면 그 데이터는 곧 타깃이 된다. 문제는 이 싸움에서 방어 측이 점점 더 힘에 부치고 있다는 것이다.

왜일까? 해커들이 더 똑똑해졌기 때문일까? 그것도 있지만, 사실 이유는 더 단순하다. 너무 많은 데이터를 다뤄야 하기 때문이다. 그 안에서 ‘이상 징후’를 포착하기란 찾기 힘든 바늘을 찾는 일과도 같다.

여기, 이 문제를 정확히 짚어낸 연구가 있다. 인도 벨로르공대의 C. Rajathi와 Rukmani Panjanathan 연구팀이 제안한 ‘2P-FSID’ 프레임워크가 바로 그것이다. 말 그대로 두 단계(2-Phase)의 기능 선택(Feature Selection) 시스템인데, 복잡한 데이터를 줄이면서도 침입 탐지 성능을 끌어올린 획기적인 접근법이다.

이상 징후를 가려내는 기술, 그런데 ‘기능’이 너무 많다?

오늘날 대부분의 네트워크 보안 시스템은 **기계학습(Machine Learning)**에 기반해 이상 징후를 찾아낸다. 특정한 패턴을 학습해서, 평소와 다른 행동이 감지되면 경고를 울리는 식이다.

하지만 이런 시스템의 가장 큰 약점은 ‘데이터 차원’이 너무 크다는 것이다. 예컨대 하나의 연결에 대해 40가지, 50가지의 특징(속성)을 분석해야 하는데, 그 중 상당수는 사실상 의미 없는 정보일 수 있다.

이렇게 불필요한 정보까지 모두 처리하면 속도는 느려지고 정확도는 떨어지며, 거짓 경고도 늘어난다. 특히 새로운 유형의 공격에 대해서는 효과적으로 대응하지 못한다. 따라서 진짜 중요한 정보만 골라내는 '기능 선택(feature selection)' 과정이 중요해졌다.

그래서, 연구팀은 어떻게 했을까?

Rajathi와 Panjanathan는 기존의 단순한 필터(Filter), 래퍼(Wrapper), 임베디드(Embedded) 방식에 만족하지 않았다. 대신 두 단계에 걸쳐 정보를 선별하는 정교한 프로세스를 만들었다.

1단계는 통계 기반 선별 → 정보 평가 → 하이브리드 가지치기

먼저 데이터의 모든 기능들을 통계적으로 분석해 쓸모 있는 정보만 걸러낸다.
여기서 중요한 세 가지 기준을 썼다.
- 상호 정보량(MI): 특정 기능이 얼마나 많은 예측 정보를 담고 있는가?
- 상관관계(Corr): 기능끼리 얼마나 겹치는가?
- 중요도(FI): 실제로 모델이 얼마나 해당 기능을 활용하는가?
이 기준들을 바탕으로 동적(Dynamic)과 정적(Static) 가지치기를 한다. 즉, 통계적으로 기준 이하인 기능은 제거!

2단계는 SHAP 기반 영향도 분석

남은 기능에 대해 SHAP(Shapley Additive Explanations) 값을 계산한다.
이 값은 "이 기능이 얼마나 예측 결과에 영향을 줬는가?"를 말해준다.
연구팀은 이 기능들을 **긍정적 영향(PI)**과 **부정적 영향(NI)**으로 나눈다.
PI만으로 모델을 먼저 학습시킨 뒤, NI를 하나씩 추가하며 성능을 개선할 수 있는지 실험한다.
마지막으로 정말 효과적인 기능만 남긴 최적 조합이 완성된다.

진짜 성능은 어땠을까?

이 프레임워크는 유명한 NSL-KDD와 UNSW-NB15 데이터셋에서 테스트됐다.

NSL-KDD에서는 41개의 기능 중 19개만 사용했는데도 95.18% 정확도를 달성했다.
UNSW-NB15에선 44개 중 17개만으로도 92.79% 정확도를 보였다.

기능 개수는 절반 이상 줄이고도 정확도는 유지하거나 오히려 높인 것이다. 이는 곧 모델은 가벼워졌지만 똑똑해졌다는 뜻이다. 그뿐 아니라 어떤 기능이 예측에 얼마나 영향을 주는지도 명확해졌다.

왜 이 연구가 중요한가?

단순히 침입 탐지 정확도가 높아졌기 때문만은 아니다. 이 연구는 "왜 이 경고가 떴는지"를 설명할 수 있게 해준다는 점에서 중요하다.

요즘 AI 모델들은 너무 복잡해서 사람이 이해하기 어렵다는 문제가 많다. 특히 보안 분야에서는 투명성과 설명 가능성(Explainability)이 핵심인데, 이 프레임워크는 SHAP 분석을 통해 그 해답을 제시했다.

또한, 이 구조는 다른 분야에도 적용 가능하다. 예를 들어 의료 AI에서 진단의 이유를 설명하거나, 금융 모델에서 어떤 요소가 대출 거절에 영향을 미쳤는지를 분석하는 데도 쓸 수 있다.

마지막으로

해커들은 점점 더 교묘해지고 있다. 우리가 신뢰할 수 있는 방어선은 더 빠르고, 더 똑똑하고, 더 설명 가능한 시스템이어야 한다.

Rajathi와 Panjanathan의 연구는 단순한 보안 기술 향상을 넘어, AI 모델이 “왜 그렇게 판단했는지”까지 말할 수 있는 시스템의 가능성을 보여준다.

앞으로 우리가 마주할 수많은 데이터 전쟁 속에서, 이 두 단계의 작지만 똑똑한 필터는 결정적인 역할을 할지도 모른다.

참고 문헌
Rajathi, C., & Panjanathan, R. (2025). A Two-Phase Feature Selection Framework for Intrusion Detection System: Balancing Relevance and Computational Efficiency (2P-FSID). Applied Artificial Intelligence, 39(1), e2539396. https://doi.org/10.1080/08839514.2025.2539396