하늘을 나는 비행기, 사실은 계속 “나 여기 있어!”라고 말한다

 






공항 근처 하늘을 올려다보면 비행기는 조용히 지나가지만, 그 안에서는 아주 시끄러운 ‘데이터 방송’이 계속 나온다. 비행기가 스스로 자기 위치(위도·경도), 고도, 속도, 방향, 식별 정보 같은 걸 실시간으로 뿌리는 기술이 있다. 이름은 ADS-B(Automatic Dependent Surveillance–Broadcast). 항공 관제의 눈과 귀가 되는 핵심 장치라, 비행 안전과 효율을 크게 끌어올린다.

문제는 “Broadcast”, 즉 ‘방송’이라는 단어에 숨어 있다. 방송은 원래 누구나 들을 수 있다.


ADS-B도 마찬가지다. 암호화 없이 공개로 흘러나오는 데이터가 많아, 마음만 먹으면 가로채기(도청)가 가능하다. 그리고 여기서부터 이야기가 무서워진다. 비행기 식별 코드 하나만 보면 별일 아닐 수 있지만, 거기에 초정밀 위치·시간·고도·속도 같은 값이 강하게 묶이면 ‘한 대의 비행기가 언제 어디로 어떻게 움직였는지’가 한눈에 그려진다. 이게 쌓이면 비행기의 의도, 임무 성격, 특정 지역 접근 패턴까지 추정될 수 있다. 개인의 이동과 연결될 수도 있고, 국가·항공 보안 이슈로도 번진다. 논문은 이 지점을 “민감한 정보가 결합될 때 위험이 커진다”는 식으로 정의하고, 보호해야 할 프라이버시 데이터를 ‘모든 필드’가 아니라 ‘식별자+상태를 정확히 찍는 동적 정보의 조합’으로 잡았다.



AI가 ‘잠글 것만’ 골라내고, 잠금은 초고속으로 끝낸다


이 논문이 내놓은 해법은 한마디로 “전부 잠그지 말고, 정말 위험한 것만 골라서 잠그자”다. 여기서 주인공이 둘이다. 첫째는 딥러닝(CNN), 둘째는 대칭키 암호다.


먼저 AI가 ‘민감한 조각’을 찾아낸다. 연구팀은 ADS-B 데이터를 시간에 따라 이어지는 ‘연속 기록’으로 보고, 이를 일종의 1차원 이미지처럼 다뤘다. 예를 들어 50개의 연속 시점(time step) 동안 위도·경도·고도·속도·방향 같은 5개 특징을 묶어 하나의 입력으로 만든다. 그러면 CNN이 시간축을 따라 작은 필터(커널)를 미끄러뜨리며 패턴을 잡아낸다. “급상승-수평비행-선회”처럼 연속 변화가 만드는 특징은, 표로만 보면 놓치기 쉽지만 CNN은 잘 잡는다.


여기서 또 하나의 장치가 들어간다. 실제 데이터에서는 ‘프라이버시 데이터’가 ‘일반 데이터’보다 훨씬 적다. 이런 상황에서 AI는 대충 학습하면 “그냥 다 일반이야”라고 말해도 점수가 잘 나와 버린다. 그래서 연구팀은 비용 민감(cost-sensitive) 학습을 넣었다. 쉽게 말해 “민감한 걸 민감하지 않다고 놓치면 벌점을 크게 주겠다”는 규칙이다. 덕분에 AI가 소수 클래스(프라이버시 데이터)를 더 진지하게 보게 된다.


다음은 잠금 단계다. 흥미로운 포인트는 ‘암호화의 범위’다. 기존 비교 방법들은 안전을 위해 ‘전체 데이터를 통째로’ 암호화하는 경우가 많다. 하지만 이 연구는 AI가 골라낸 ‘프라이버시로 판정된 부분만’ 암호화한다. 그래서 빠르다. 논문은 AES 기반의 GCM 모드(무결성까지 같이 챙기는 방식)를 대칭키 암호로 채택했고, 키는 HSM(하드웨어 보안 모듈)에 넣어 안전하게 관리하는 시나리오를 제시했다. 다만 본문에는 AES-128 GCM 언급이 있고, 실험 설명과 토론에서는 AES-256-GCM 표현이 나와 키 길이 표기가 다소 엇갈린다. 그래도 핵심은 “고속 대칭키 암호(AES-GCM 계열) + 키는 안전한 하드웨어에 보관”이라는 구조다.



숫자가 말해주는 장면, “도둑이 훔쳐 간 데이터 0GB”


연구팀은 실제 운영 환경에서 나온 대규모 ADS-B 데이터로 실험했다고 적었다. 총 1,250,000개의 연속 메시지 기록을 쓰고, 전문가 3명이 규칙을 만들어 프라이버시 여부를 라벨링했다. 그중 프라이버시 샘플은 250,000개, 비프라이버시는 1,000,000개였다. 데이터는 30일 동안 서로 다른 3개 지상국에서 수집했다고 한다. 학습/검증/테스트는 70/15/15로 나눴다.


공격 시나리오도 꽤 ‘기사감’이다. 72시간 넘게 숨어서 천천히 파고드는 APT(지능형 지속 공격)를 Metasploit로 흉내 내고, Scapy로 패킷 도청·탐지 트래픽을 대량 생성해 봇넷 감시 상황을 만들고, 악성코드가 메모리에서 데이터를 훔치는 상황까지 시뮬레이션했다. 그리고 결과는 이렇게 요약된다.

  • 세 가지 공격 상황에서도 프라이버시 보호 수준이 모두 95% 이상 유지됐다.
  • “불법으로 훔친 프라이버시 데이터”와 “악성으로 손상시킨 데이터”가 0GB로 보고됐다.
  • 무엇보다 속도. 10GB, 20GB, 30GB, 40GB 규모에서 암호화 시간이 각각 20.36ms, 30.56ms, 40.35ms, 50.36ms로 제시됐다. 비교 방법들은 최소가 150ms대, 200ms대까지도 나왔다고 한다. 빠른 이유는 단순하다. 10GB 중 약 5~7%만 프라이버시로 걸러서 그 부분만 암호화했기 때문이다.

“정확히 골라 잠근다”는 전략이 정말 좋은지 따져보려고, 연구팀은 구성 요소를 하나씩 떼어 보는 ‘절단(abltion) 실험’도 했다. 완성형 모델은 테스트에서 정밀도(Precision) 0.918, 재현율(Recall) 0.895, F1 0.906을 기록했다. 비용 민감 학습을 넣으면서 F1이 꾸준히 올라가는 흐름도 표로 제시했다. 그리고 전체 처리 시간(분류+암호화)을 보면, “전부 암호화”하는 구성은 아무리 분류가 좋아도 시간이 더 걸리고, “찾은 것만 암호화”하는 완성형이 2초 미만으로 내려갔다고 설명한다.



그런데 이 방식, 완벽할까?


논문은 장점만 말하고 끝내지 않았다. 약점도 인정했다. 이 방식의 강점은 “민감한 걸 잘 찾아내서, 잠글 양을 줄인다”는 데 있다. 반대로 말하면 AI가 놓치면 큰일 난다. 프라이버시 데이터를 ‘일반’으로 오판하면 그 구간은 암호화되지 않은 채로 흘러나갈 수 있다. 암호 알고리즘이 아무리 강해도, 애초에 잠그지 않은 문은 뚫린 문이다. 그래서 연구팀은 비정상 비행(긴급 회피, 특이 기동)이나 악의적으로 꾸민 데이터(적대적 샘플) 같은 현실 변수에서 모델이 얼마나 버티는지 더 넓은 검증이 필요하다고 했다. 키 관리, 난수, 초기화 벡터 같은 구현 실수도 실제 배포에선 치명적이라고 경고했다.


그래도 방향은 분명하다. 관제 데이터는 앞으로 더 커지고 더 빨라질 가능성이 높다. 그때 “다 잠가서 느려지는 안전”과 “빠르지만 구멍이 나는 안전” 사이에서, 이 연구가 던진 선택지는 꽤 현실적이다. AI로 정확히 분류하고, 꼭 필요한 것만 암호화한다. 하늘의 데이터 방송을 ‘필요한 만큼만’ 조용히 만드는 방식이다.



출처: Ma, C., Jia, R., Lou, J., & Wang, M. (2025). Privacy protection method for ADS-B air traffic control data based on convolutional neural network and symmetric encryption. Frontiers in Big Data, 8, 1683027. https://doi.org/10.3389/fdata.2025.1683027