소매 재고 탐지 일반화: DenseNet-201과 Vision Transformer 앙상블로 최소 데이터 환경 대응
소매 매장 진열장(stock cabinet)의 재고 수준을 자동으로 판별하는 일은 컴퓨터 비전 분야에서 오랜 과제였다. 특히 새로운 진열장 모델이나 카메라 기종에 맞춰 모델을 재훈련해야 하는 상황에서는 방대한 주석 데이터 확보가 현실적 제약이 된다. 이에 본 연구는 단 클래스당 두 장의 이미지만으로도 다양한 진열장·카메라 환경에서 ±90%의 높은 정확도를 달성하는 DenseNet-201 + ViT-B/8 앙상블 기법을 제안했다.
연구 배경 및 목적
소매 관리 자동화의 도전 과제
소매업에서는 재고 부족(out-of-stock) 및 과잉 재고(over-stock)를 실시간으로 파악해 소비자 경험을 최적화해야 한다. 전통적 컴퓨터 비전 시스템은 각 상품과 배치 환경마다 대규모 주석 데이터가 필요해, 새로운 진열장 디자인이나 조명·카메라 변경 시마다 수작업 라벨링·재훈련이 불가피했다fileciteturn2file4L33-L38.
일반화 문제와 저데이터 학습
이미지 분류 모델은 학습 도메인(domain)과 다른 환경에서 성능이 급격히 저하된다. 기존 몇몇 연구는 전이학습(fine-tuning)이나 메타학습(meta-learning)을 시도했으나, 완전히 새로운 클래스 학습에 목표를 두어 재고 수준과 같은 동일 과제에서의 도메인 시프트(domain shift) 대응 문제는 남아 있었다fileciteturn2file6L33-L40. 본 연구는 동일 5단계 재고 레벨(빈, 1/4, 1/2, 3/4, 만석) 분류 과제를 유지하면서 진열장 형태나 카메라 기종 변화에 최소 데이터로 적응하는 데 초점을 맞췄다.
주요 방법론
데이터 구성 및 분할
- 기본 데이터셋: 200장(5개 클래스 × 40장), 진열장 세로·가로 각 20장, 노출(정상·과소·과다) 변형 포함.
- 테스트셋: (1) 새로운 진열장/동일 카메라, (2) 새로운 진열장/다른 카메라 환경.
- 크로스 밸리데이션: 5-폴드 CV, 폴드 당 학습 128장·검증 32장, 최종 테스트 40장 보류.
- 2-샷 시나리오: 클래스당 2장(총 10장)만으로 신규 환경에 미세조정 실시fileciteturn2file8L42-L50.
DenseNet-201과 ViT-B/8 모델 탐색 및 선택
- 모델 탐색 단계에서 ResNet-50, ResNet-152, DenseNet-121, DenseNet-201, EfficientNet, ViT-B/16, ViT-B/8 등을 비교했다.
- DenseNet-201은 국소적·계층적 특징을 안정적으로 추출하며, ResNet·EfficientNet 대비 RMSE를 15–35 pp 낮추는 우수성을 보였다.
- ViT-B/8은 8×8 패치 기반 자기-주의(self-attention) 메커니즘으로 장거리 의존성 학습에 뛰어나, ViT-B/16 대비 RMSE 8 pp, 정확도 10 pp 향상을 입증했다fileciteturn2file1L42-L44.
- 양 모델의 상호 보완적 특성을 확인한 후, 앙상블 후보로 선정했다.
특성 수준 앙상블 구조
- 병렬 입력(Dual Input): 동일 이미지를 DenseNet-201과 ViT-B/8에 동시에 투입.
- 특성 추출:
- DenseNet-201: 전 층을 통과한 후 1920차원 전역 평균 풀링 특징 벡터 추출
- ViT-B/8: CLS 토큰 768차원 특징 벡터 추출fileciteturn2file2L36-L44
- 특성 병합: 두 벡터를 2688차원으로 결합
- 분류층: ReLU 활성화 후 SoftMax 출력을 갖는 커스텀 밀집층 적용해 최종 클래스 확률 산출
초매개변수 튜닝 및 적응 워크플로우
- 균형 잡힌 레이어 언프리징: 0, 50, 100, 150, 200 레이어 단계별 해동(unfreeze) 실험과 조기 중단(early stopping) 기법 결합으로 안정성 및 가소성 최적화fileciteturn2file6L49-L52.
- 데이터 증강: 조명·회전·크기 변형으로 실제 환경 변이를 모방해 과적합 억제
- 초경량 적응(2-샷): 클래스당 단 두 장으로 모델을 미세 조정해 신규 환경에 빠르게 적응하는 Ultra-light adaptation workflow 수립.
결과 및 해석
성능 분석: 정확도와 RMSE
동일 카메라 새 진열장: 91% 정확도
다른 카메라 새 진열장: 89% 정확도
이는 표준 few-shot 방법 대비 최대 47 pp 정확도 향상에 해당한다fileciteturn2file3L28-L31.
벤치마크 대비 우수성
4가지 대표 few-shot 모델(프로토팃 네트워크, 매칭 네트워크, 시암네트워크, 릴레이션 네트워크)보다 25–47 pp 높은 정확도를 기록해, 최소 데이터 환경에서의 실용성을 입증했다.
개인적 관점 및 비판적 시선
적응성 대 효율성의 균형
DenseNet-201의 로컬 특징과 ViT-B/8의 글로벌 문맥이 조화를 이루나, 매번 두 모델을 병렬 실행해야 하므로 추론 속도와 메모리 소비 측면에서 경량화 연구가 필요하다. 특히 대형 매장 수백 대 진열장에 적용할 때는 실시간 처리와 전력 효율을 고려해야 한다fileciteturn2file1L52-L53.
잠재적 개선 방안 제언
- 어텐션 게이팅(attention gating) 메커니즘 도입으로 상황별 최적 분기 자동 선택
- 도메인 적응(domain adaptation)과 메타러닝 결합으로 완전 자동화된 업데이트 파이프라인 구축
- 온디바이스(on-device) 경량화 모델 변형으로 엣지 컴퓨팅 환경에서도 운영 가능하도록 최적화
실생활 응용 가능성
- 무인 편의점·마트: 진열대 재고 부족 알림으로 직원·고객 편의 증대
- 창고 관리(Warehouse Management): 선입선출(FIFO) 운영 보조 및 폐기율 최소화
- 패션 리테일: 의류 매장 진열장 재고 상태 자동 업데이트
- CPG(Consumer Packaged Goods): 음료·냉동식품 리필 자동화로 물류 효율성 향상
- 스마트 냉장고: 가정·사무실 냉장고 내부 재고 파악·쇼핑 리스트 연동
결론 및 향후 연구
본 연구는 DenseNet-201과 ViT-B/8의 특성 수준 앙상블과 2-샷 초경량 적응 워크플로우를 결합해 소매 진열장 재고 탐지의 일반화 문제를 효과적으로 해결했다. 향후에는 경량화, 어텐션 게이팅, 메타러닝·도메인 적응 통합으로 완전 자동화·실시간 운영이 가능한 차세대 소매 관리 자동화 시스템 구축을 기대한다.
출처 논문:
Rahi, B., Sagmanli, D., Oppong, F., Pekaslan, D., & Triguero, I. (2025). Generalising Stock Detection in Retail Cabinets with Minimal Data Using a DenseNet and Vision Transformer Ensemble. Machine Learning and Knowledge Extraction, 7(66). https://doi.org/10.3390/make7030066