다양한 산업 현장에서 ‘연기 한 줄기’를 놓치지 않는 눈…실시간 화재·연기 감지 AI가 나왔다

 



늦게 울리는 경보 대신, 먼저 보는 카메라

공장 라인, 창고, 발전소, 야외 적재장처럼 공간이 넓거나 배경이 복잡한 곳에서는 전통적인 연기·열 감지 센서만으로는 초기를 붙잡기 어렵다. 작은 불씨가 연기로 번지는 그 ‘몇 십 초’가 운명을 가른다. 이번에 공개된 연구는 CCTV 영상만으로 불꽃과 연기를 동시에 찾아내는 컴퓨터 비전 기반 감지 시스템을 제안했다. 핵심은 엔비디아의 DetectNet_v2(백본 ResNet-18)에 전이학습을 얹고, 가지치기(pruning)와 정량화 인지 학습(QAT)까지 밀어붙여 엣지 장치에서도 끊김 없이 돌아가게 한 점이다. 연구진은 3,000장의 실제·합성 이미지를 섞은 데이터셋으로 모델을 훈련했고, 불꽃 95.6%, 연기 92%의 정확도를 보고했다. 평균 추론 시간은 프레임당 약 42ms로, 사실상 실시간 처리 수준이다.


어떻게 만들었고, 무엇이 달랐나

연구팀은 먼저 산업 환경의 복잡성을 데이터로 끌어왔다. 공개 데이터와 온라인 소스에서 모은 이미지 1,420장에, 영상 합성으로 만든 증강 샘플 1,580장을 더해 총 3,000장을 확보했다. 합성은 색상 매칭, 스케일 조정, 모션 트래킹을 써서 산업 현장 배경과 자연스럽게 섞었고, 모든 샘플을 1280×720으로 정규화했다. 라벨링은 LabelImg로 진행했고, 엔비디아 TAO 도구 흐름에 맞춰 KITTI 포맷으로 변환했다.


훈련은 전이학습을 전제로 했다. COCO·KITTI로 사전학습된 DetectNet_v2를 가져와 입력 해상도를 3×720×1280으로 높이고(얇은 연기, 초깃불을 잡기 위함), TAO로 미세조정(fine-tuning)했다. 최적화는 여기서 끝나지 않는다. 불필요한 가중치를 줄이는 가지치기 후, INT8 정밀도의 QAT를 적용해 모델 크기를 43MB→37.5MB(12.7% 감소)로 낮추면서도 mAP@0.5:0.95를 85%대 이상 유지했다.


학습 설정은 비교적 보수적으로 짰다. Adam 옵티마이저, 에폭 120, 배치 4, 코사인형 스케줄로 러닝레이트를 5e-06→5e-04→5e-06으로 천천히 올렸다 내렸다. 이는 TAO 권고와 경험적 튜닝을 혼합해 안정적으로 수렴하도록 한 선택이다.


데이터 분할은 9:1. 훈련 2,600장, 테스트 400장으로 완전히 분리해 중복을 막았다. 훈련셋 안에서는 불꽃·연기에 대해 실제·합성 비율을 균형 있게 섞어, 합성에만 길들여지거나 특정 배경에 과적합되는 일을 피했다.



결과: 정확도만이 전부가 아니다

검증 결과는 숫자가 말해준다. 불꽃 95.6%, 연기 92.0%의 정확도, 정밀도·재현율도 균형 있게 높았고(불꽃 P/R≈0.948/0.953, 연기 P/R≈0.93/0.92), 전체 오경보율은 3.5%에 머물렀다. 프레임당 평균 지연은 42.5ms(표준편차 ±3.8ms)로 안정적이었다. ROC와 PR 커브의 AUC 또한 불꽃 0.95대, 연기 0.92대 수준으로 구간 전반에 걸친 판별력이 확인됐다.


비교 평가도 흥미롭다. 동일 조건에서 재학습한 SSD MobileNet_v2, Faster R-CNN(Inception_v2), 외부 보고된 YOLOv8s 대비 본 모델이 정확도·F1에서 우세했다. 이는 하나의 데이터셋에만 특화되지 않고 다양한 조도·질감·배경 잡음에서 일반화가 잘 됐다는 방증이다.


현장 배치 가능성도 따져봤다. Jetson Xavier NX(16GB), Orin Nano(8GB)에서 DeepStream·TensorRT(8.6.1)로 단일 스트림(1280×720) 추론을 구동한 결과, 각각 22.3 FPS(평균 지연 45ms), 19.4 FPS(52ms)를 기록했다. 소비전력은 대략 12.8W와 9.2W 수준. 요컨대, 엣지에서 ‘보는 즉시 알리는’ 감시가 가능하다는 뜻이다.


물론 한계가 없다면 거짓말이다. 용접 스파크, 스팀, 강한 반사광, 안개·먼지 같은 시각적 혼동 요인은 여전히 어려운 적이다. 연구팀은 이런 낮은 신뢰도 상황에서 사람 검증(HITL)을 끼워 넣는 2단계 안전 구조를 제안했다. 기존 방재 설비와 포트·클라우드 릴레이로 연계해 ‘AI가 알리고, 사람이 재확인’하는 흐름을 만든다. 안전이 걸린 상황에서는 너무나 상식적인—하지만 종종 잊히는—해법이다.



왜 DetectNet_v2였나: 설계 선택의 맥락

이 연구는 “가볍지만 단단한” 설계를 일관되게 택했다. 단일 단계 검출기인 DetectNet_v2는 분리된 후보영역 생성 단계를 갖는 2단계 검출기보다 지연이 작고, 격자 기반 예측과 잔차 네트워크(ResNet-18)의 특성 덕분에 배경이 어지러운 산업 현장에서도 경계상자를 안정적으로 그려낸다. 또한 TAO·TensorRT 파이프라인과의 궁합이 좋아 엣지 배치까지 한 호흡으로 밀어붙일 수 있다.


가지치기와 QAT를 통해 정밀도를 유지하며 모델을 ‘다이어트’한 것도 포인트다. FP32→INT8 전환에서 mAP@0.5:0.95가 85%대를 유지했고 정확도 하락은 1.5%p 미만이었다. 그 대가로 얻은 건 더 작은 모델, 더 낮은 지연, 더 적은 전력이다. 산업 현장에서 ‘전원만 켜면 도는’ AI가 되기 위한 현실적 선택이었다.


결론: 현장 친화형 ‘보이는 경보’의 출발선

결과를 요약하면 이렇다. 데이터는 현장을 닮았고, 모델은 현장을 견뎠다. 정확도와 지연, 전력과 크기 사이의 줄다리기에서 균형점을 찾아 엣지 배치가 가능한 수준으로 다듬었다. 다음 과제도 분명하다. 더 다양한 지리·설비 환경의 데이터로 일반화를 넓히고, 1080p·4K 고해상도 스트림을 무리 없이 소화하도록 추가 압축·가속 기법을 적용하는 일. 열·가스·연기 센서와의 멀티모달 융합, 동영상의 시간축 정보를 활용한 연기·불꽃 진행 패턴 학습도 유효하다. 그럼에도 지금 이 모델은, 많은 공장과 창고에서 ‘경보가 아니라 화재 그 자체’를 가장 먼저 볼 수 있게 해줄 준비가 되어 있다.




출처 논문
Deshpande, U. U., Michael, G. K. O., Araujo, S. D. C. S., Srinivasaiah, S. H., Malawade, H., Kulkarni, Y., & Desai, Y. (2025). Real-time fire and smoke detection system for diverse indoor and outdoor industrial environmental conditions using a vision-based transfer learning approach. Frontiers in Computer Science, 7, 1636758. https://doi.org/10.3389/fcomp.2025.1636758