데이터가 너무 많다고요? '쓸모없는 데이터'부터 덜어냅시다!

 

쓸데없는 데이터를 덜어냅시다
센서 데이터 감소 개념 - 초과 데이터를 트리밍(휴지통)하여 성능을 최적화하는 개념(상승 그래프).


인공지능이 세상을 바꾸고 있다지만, 그 뒤에 숨은 진짜 문제는 "데이터 과잉"일지도 모른다.

런던 브루넬대학교의 연구진은 기발한 질문 하나에서 출발했다.

“정말 모든 데이터가 필요할까?”


이 물음에서 시작된 이번 연구는 특히 ‘시계열 데이터(time-series data)’—시간에 따라 측정된 센서 데이터 등—를 다룰 때, 전체의 절반 이상을 버려도 성능은 그대로라는 충격적인 결과를 내놨다. 이쯤 되면 AI의 훈련 방식 자체를 다시 생각해봐야 할지도 모르겠다.


---


왜 이런 연구가 필요했을까?


스마트 빌딩에서 흔히 사용되는 ‘실내 점유 감지 시스템(occupancy detection)’은, 사람의 존재 여부에 따라 냉·난방을 조절해 에너지를 아끼는 기술이다.

이를 위해 센서들이 온도, 습도, CO₂ 수치 등을 초 단위로 기록하며 어마어마한 데이터를 수집한다.


문제는 이런 데이터가 너무 많다는 것.

일반적인 AI 훈련 방식은 이 데이터를 모두 집어넣고 학습을 시키는데,


 연산 시간이 오래 걸린다

 에너지를 많이 쓴다

 성능 향상도 어느 순간 정체된다


그래서 나온 질문: 정말 이 모든 데이터가 필요할까?


---


 어떻게 데이터 ‘다이어트’를 했을까?


연구진은 실제 건물 6곳에서 수집된 센서 데이터(HPDMobile 데이터셋)를 활용해,

AI 모델에 데이터를 주기 전 미리 “덜어낼 데이터”를 찾아내는 실험을 했다.


이때 활용한 개념이 바로 ‘클래스 밀도(class density)’와 ‘센트로이드 거리(centroid distance)’다.

말은 어렵지만 쉽게 말해,


 센트로이드 거리: 각 데이터가 ‘전형적인 데이터’에서 얼마나 떨어져 있는지를 수치로 나타낸 것

 클래스 밀도: 한 분류(예: 사람이 있는 상태 vs 없는 상태) 안에 데이터들이 얼마나 비슷한지를 나타내는 값


이 정보를 바탕으로, 다섯 가지 방식으로 데이터를 줄여봤다:


1. 랜덤 삭제 – 무작위로 데이터를 지운다

2. 중앙 삭제 – 평균에 가까운, 즉 ‘너무 전형적인’ 데이터를 지운다

3. 외곽 삭제 – 평균에서 너무 먼 데이터를 지운다

4. 밀도 컷 – 너무 몰려있는 구간에서 데이터를 일정량 덜어낸다

5. 균등 스쿼시 – 밀도 분포에 따라 비율로 데이터를 줄인다


---


결과는 어땠을까?


놀랍게도, 전체 데이터의 최대 50%를 삭제해도 성능은 거의 그대로였다.

심지어 일부 경우에는 정확도와 AUC(모델 예측력 평가 지표)가 더 좋아지기도 했다.


 클래스 간 밀도 균형이 1:1에 가까워질수록 모델 성능이 좋아졌다

 너무 많은 데이터가 오히려 과적합(overfitting)을 유발하거나, 연산만 낭비

 가장 효과적인 데이터 축소 방법은 ‘외곽 삭제(lateral exclusion)’와 ‘스쿼시 방식(data squash)’로 나타났다


그리고 여기서 끝이 아니다.

서로 다른 6개 건물의 데이터를 합쳐(fusion) 훈련에 써도 성능이 유지됐고, 오히려 범용성은 더 좋아졌다.

즉, 기존 데이터를 ‘재활용’해 새 환경에 맞춘 모델을 만들 수 있는 가능성도 확인된 것이다.


---


 “데이터가 적은 게 오히려 이롭다”


이번 연구가 던지는 메시지는 단순하다.

무조건 많이 모으고, 많이 학습시키는 것이 능사가 아니라는 것.


환경을 위한 ‘그린 AI’를 실현하려면,


 데이터 수집부터 ‘선택과 집중’이 필요하고

 AI 훈련도 ‘데이터 다이어트’를 염두에 둬야 한다


이제 AI 분야도 슬슬 ‘양보다 질’을 따져야 할 때가 된 듯하다.


---


키워드:

#데이터축소 #시계열데이터 #클래스밀도 #그린AI #점유감지


---


출처 논문:

Sanderson, D.; Kalganova, T. Identifying Suitability for Data Reduction in Imbalanced Time-Series Datasets. AI 2025, 6, 98.