가려진 보행자를 찾아내는 AI의 새로운 전략

 📌 사람이 반쯤 가려졌다고 못 본 척할 건가요?—가려진 보행자를 찾아내는 AI의 새로운 전략


자율주행차가 달리는 도로 위. 나무 뒤에서 갑자기 튀어나온 보행자, 차량 틈에서 살짝 보이는 사람. 기존의 AI는 이들을 인식하지 못해 치명적인 사고로 이어질 수 있다. 보행자 감지 기술은 이미 고도화되었지만, ‘가려진 사람’을 찾아내는 문제는 여전히 도전 과제다. 하지만 최근 한 연구팀이 ‘기계 학습 기반 변형 가능한 부분 모델(DDPM)’이라는 새로운 알고리즘을 개발하며, 이 문제에 흥미로운 해법을 제시했다.  


특히 이 연구는 동남아 및 중동권에서 흔히 볼 수 있는 ‘전신을 가리는 전통 의상’까지 고려한 새로운 보행자 데이터셋도 함께 제안해, 기술의 글로벌 적용 가능성까지 끌어올렸다. 사람의 일부만 보여도, 낯선 옷을 입고 있어도 ‘사람’을 정확히 인식하는 이 AI 모델, 어디까지 가능할까?


---


```

원문: 가려진 보행자 감지를 위한 판별적 변형 부분 모델 (Discriminative Deformable Part Model for Pedestrian Detection with Occlusion Handling) (CC BY 라이선스)

저자: Shahzad Siddiqi, Muhammad Faizan Shirazi, Yawar Rehman (NED University of Engineering and Technology)

출판일: 2025년 4월 3일

저널: AI

```


---


 🧠 문제는 ‘가림’이었다


AI 기반 보행자 감지 기술은 자율주행, 감시 카메라, 교통 안전 시스템에 이미 광범위하게 활용되고 있다. 하지만 여전히 뚫기 어려운 벽이 하나 있다. 바로 ‘가려진 사람(occluded pedestrian)’ 감지다. 실제 거리 환경에서는 보행자들이 나무, 차량, 가로등, 다른 사람에 의해 자주 가려진다. 기존 딥러닝 기반 모델들은 대부분 ‘완전히 보이는 사람’을 기준으로 학습되어 있어, 일부라도 가려지면 감지 정확도가 뚝 떨어진다.


예를 들어, Caltech 보행자 벤치마크 기준으로 가림이 없는 경우 인식률이 약 81%에 달하지만, 가림 정도가 80%에 이르면 오차율이 78%까지 치솟는다는 연구도 있다. 이처럼 보행자의 일부만 보이는 실제 환경을 감안하지 못한 AI 모델은, 완전한 실전 대응이 어렵다.


---


🧩 변형 가능한 부분 모델, 기계가 ‘사람의 조각’을 찾아낸다


이번 연구팀은 ‘사람’을 하나의 고정된 객체로 보지 않고, 여러 ‘변형 가능한 조각들(deformable parts)’로 나누어 감지하는 방식을 선택했다. 기존의 유사한 접근은 머리, 팔, 다리 등을 사람의 직관으로 나눈 뒤, 각 부분을 고정된 형태로 학습시켰다. 하지만 이는 옷차림이나 자세가 다양해지면 잘 작동하지 않았다.


이번 연구에서는 이 조각 나누기를 기계 학습에 맡겼다. 데이터 기반으로 가장 잘 구분되는 특징(판별적 영역, discriminative regions)을 자동으로 찾아내고, 변형 허용 범위까지 수식으로 제어하는 모델을 만들었다. 이때 핵심이 되는 알고리즘은 바로 DDPM(Discriminative Deformable Part Model). 이 모델은 사람 이미지의 조각들을 선택하고 학습하며, 가려진 부분이 많아도 ‘사람일 가능성’을 유추해낸다.


---


🔍 어떻게 작동하나?


① 판별 영역 추출  

- 64×128 크기의 사람 이미지에서 사각형 영역들을 자동으로 추출  

- 각 영역은 Darknet 프레임워크를 통해 학습되어, 특정 부위가 사람인지 아닌지를 판단하는 분류기로 사용됨  

- 학습 정확도 ≥ 50%인 모델만 남김


② 변형 허용 수식  

- 각 부분의 위치가 중심 모델에서 얼마나 벗어났는지를 유클리드 거리 기반 지수 함수로 계산  

- 이로써, 비정상적 위치 변화를 판별하고 신뢰도(weight)를 조절함


③ 최종 판단: 투표 시스템  

- 여러 부분 감지기의 결과를 종합해 ‘사람 여부’를 다수결로 결정  

- 일부 조각만 보이더라도, 충분히 신뢰할 수 있는 정보가 있다면 ‘사람’으로 인식함


---


🧪 실제 성능은?


📌 Pascal VOC 2012 벤치마크 결과 (사람 인식 mAP50 기준)

| 모델 | 정확도 |

|------|--------|

| YOLOv11 | 61.5% |

| HF-YOLO | 81.6% |

| MSCD-YOLO | 80.4% |

| DDPM (제안 방식) | 88.3% |


📌 VisDrone 2019 데이터셋 결과 (사람 인식 mAP50 기준)

| 모델 | 정확도 |

|------|--------|

| BetterFPN | 16.45% |

| ACM-OD | 15.50% |

| DDPM (제안 방식) | 24.30% |


---


👘 전통 의상도 인식 가능하게 만든 ‘현지형 데이터셋’


보행자 감지에서 놓치기 쉬운 또 하나의 포인트는 ‘옷차림’이다. 서양에서 학습된 AI는 티셔츠와 청바지를 기준으로 ‘사람’을 인식한다. 하지만 중동, 남아시아 지역에서는 온몸을 감싸는 전통의상을 많이 입는다. 이런 경우 머리나 다리, 팔의 윤곽이 흐려져 기존 AI는 인식을 제대로 하지 못한다.


연구팀은 파키스탄 도로에서 전통의상을 입은 보행자들을 촬영해 구성한 자체 데이터셋을 새롭게 구축했다.  

- 총 5609장 이미지, 7091개 보행자 주석  

- 평균 이미지당 2.45명 보행자  

- 20% 이상 가려진 경우 ‘가려짐’으로 분류  

- YOLO 기반 감지 모델에 Transfer Learning 기법 적용하여 성능 향상


Transfer Learning 이후 이 데이터셋을 활용해 평가한 결과, 기존 YOLO v3/v5 대비 약 6~10% 성능 향상이 확인되었다.


---


🚗 어떤 의미가 있을까?


이번 연구는 기술적인 면에서 두 가지 큰 혁신을 보여준다.  

첫째, 기계 학습 기반의 ‘유연한 사람 감지’ 모델이 등장했다는 점. 딱딱한 직관적 규칙을 넘어, AI가 사람의 형태와 조각을 학습하면서 더 정밀한 인식이 가능해졌다.  

둘째, 문화적 다양성을 고려한 데이터셋 설계를 통해 글로벌 적용 가능성을 보여줬다는 점이다.


물론 한계도 있다. 연구에서는 조명, 날씨, 야간 등 환경 변화에 대한 고려가 부족했다. 실외에서의 실시간 감지를 위한 후속 연구가 필요하다.


---


🏷 키워드  

#보행자감지 #AI비전 #가려짐처리 #변형모델 #동남아데이터셋


-