조립 작업에서 ‘힘듦(스트러글)’을 읽어내는 인공지능
새로운 데이터셋과 가능성
들어가며
우리가 누군가의 행동을 지켜볼 때, 그 사람이 ‘잘하고 있는지’만큼이나 ‘힘들어하고 있는지’를 판단하는 건 아주 자연스러운 일이다. 예를 들어, 친구가 캠핑장에서 텐트를 치고 있다면, 비록 내가 한 번도 텐트를 쳐본 적이 없더라도, 중간에 멈칫하거나 부품을 여러 번 잘못 끼우는 모습을 보면 “아, 힘들어하네”라고 직감할 수 있다.
이러한 ‘스트러글(힘듦) 감지’ 능력은 인간의 사회적·인지적 기술의 핵심이지만, 지금까지 컴퓨터 비전 분야에서는 주로 오류 탐지나 스킬 수준 평가에 초점이 맞춰져 있었다.
이번에 발표된 연구는 이 틈새를 파고든다. 영국 브리스톨 대학교 연구팀은 사람의 조립 활동 영상을 보고 **“지금 힘들어하고 있는가?”**를 판별하는 데이터셋과 베이스라인 모델을 처음으로 제시했다. 논문 제목 그대로, “Are you Struggling?”이라는 질문에 답하려는 시도다.
연구 배경: 스트러글과 오류는 다르다
대부분의 기존 연구는 **‘정답 절차에서 벗어났는가?’**에 집중했다.
예를 들어, LEGO를 조립하는 순서가 틀리면 ‘오류’로 기록된다. 그러나 흥미로운 점은, 사람은 틀린 절차 없이도 힘들어할 수 있고, 반대로 절차가 틀려도 능숙하게(즉, 전혀 힘들어하지 않고) 수행할 수도 있다는 것이다.
이 논문에서는 스트러글을 다음과 같은 신호로 정의했다.
- 동작이 부드럽지 않음
- 손이나 몸의 움직임이 망설임을 보임
- 물건을 여러 번 떨어뜨림
- 같은 시도를 반복함
- 오래 멈춰 있음
- 명확한 난감함이나 좌절의 제스처
즉, ‘힘듦’은 단순한 오류 여부와 달리 행동 패턴과 모션의 질감에서 드러난다.
데이터셋: Pipes, Tent, Tower 세 가지 도전 과제
연구팀은 세 가지 실제 문제 해결 과제를 선정해 데이터를 수집했다.
- Pipes-Struggle
- 플라스틱 배관 부품을 도면에 맞춰 조립
- 난이도 쉬움/어려움 두 버전
- 실내, 경질 부품 사용
- Tent-Struggle
- 캠핑 텐트 치기
- 야외, 변형 가능한 재질, 절차가 비교적 자유로움
- 기존 EPIC-Tent 데이터셋에 ‘스트러글’ 라벨 추가
- Tower-Struggle
- 하노이의 탑 퍼즐 풀기
- 규칙 기반, 작은 부품, 정형화된 동작
총 5.1시간 분량, 73명의 참가자, 10초 단위 클립으로 분할 후 **전문가와 크라우드소싱(MTurk)**으로 각각 라벨링했다. 라벨은 4단계(Definitely Non-Struggling → Definitely Struggling)로 부여됐다.
방법론: 세 가지 모델링 접근
연구팀은 ‘힘듦’을 추론하는 데 세 가지 방법을 비교했다.
- 분류(Classification)
- 이진 분류(힘듦 / 안 힘듦)
- 4단계 분류(힘듦 정도)
- 회귀(Regression)
- 힘듦 정도를 1~4 사이의 연속값으로 예측 후 분류로 변환
- 라벨 분포 학습(Label Distribution Learning)
- 다수 투표 결과의 분포 자체를 예측
결론적으로, 분류 방식이 회귀보다 성능이 안정적이었다. 이진 분류의 경우 최대 88.24% 정확도, 4단계 분류에서는 평균 52% 정도의 정확도를 기록했다.
주요 실험 결과와 해석
1. 모델 비교
- SlowFast 3D-ConvNet 계열이 가장 안정적으로 좋은 성능
- Vision Transformer 계열(MViTv2)은 데이터가 많을 때는 강력하지만, 적을 때는 성능이 하락
- 2D-CNN(TSN)은 시간 정보 활용 한계로 성능이 떨어짐
이는 스트러글이 시간에 따른 모션 변화에서 많이 드러난다는 점을 뒷받침한다.
2. 일반화 능력
- Pipes나 Tent에서 학습한 모델은 Tower로 어느 정도 전이 가능
- 그러나 Tent(야외, 비정형 동작)는 다른 과제에서 배운 모델이 잘 적용되지 않음
- 서로 다른 과제 데이터를 합쳐 학습하면 성능이 3~11% 향상
즉, 다양한 과제의 공통적인 힘듦 패턴을 학습하는 것이 중요하다.
3. 프레임 순서와 개수의 중요성
- 단일 프레임으로는 성능이 크게 하락
- 프레임 순서를 섞으면 정확도 거의 붕괴 → 모션의 연속성이 핵심 단서
비판적 시각과 향후 제언
이 연구는 스트러글을 독립적인 과제로 정의하고, 이를 위한 최초의 공개 데이터셋을 제시했다는 점에서 큰 의미가 있다. 다만 다음과 같은 보완점이 보인다.
- 맥락 정보 부족
- 10초 단위 클립으로 잘라 라벨링했기 때문에, 앞뒤 맥락이 사라진다.
- 예: 직전까지 순조로웠지만 잠시 멈춘 경우, 실제로는 힘듦이 아닐 수 있음.
- 데이터 다양성
- 주로 젊은 대학생 대상, 문화·연령 다양성 제한
- 향후 노인, 어린이, 다양한 직종 사람들의 데이터를 포함하면 범용성 강화
- 실시간 활용 가능성
- 논문은 오프라인 분석 중심
- 웨어러블 카메라+엣지 AI를 활용해 실시간 피드백 주는 시스템으로 확장 가능
잠재적 응용 분야
- 스마트 제조 현장: 작업자가 힘들어하는 순간 자동 감지 → 지원 인력 호출
- 원격 협업 AR/VR: 원격 조립 교육 시, 학습자가 힘들어하는 순간 교사가 즉시 피드백
- 재활·훈련 모니터링: 재활 환자의 동작 난이도를 자동 평가해 단계별 프로그램 조정
- 서비스 로봇: 사용자의 어려움을 인지해 도와주는 ‘상황 인지형’ 보조 로봇 개발
맺으며
이 연구는 ‘오류’가 아닌 ‘힘듦’을 데이터로 다룬 최초의 시도로, 더 인간적인 시각을 AI에 부여하는 방향성을 보여준다. 앞으로 더 다양한 환경, 더 복잡한 작업, 그리고 더 즉각적인 대응 기능과 결합된다면, AI는 단순한 ‘판단자’를 넘어 ‘진짜 도움을 주는 조력자’로 진화할 수 있을 것이다.
출처 논문
Feng, S., Wray, M., Sullivan, B., Jang, Y., Ludwig, C., Gilchrist, I., & Mayol-Cuevas, W. (2025). Are you Struggling? Dataset and Baselines for Struggle Determination in Assembly Videos. International Journal of Computer Vision. https://doi.org/10.1007/s11263-025-02559-4