로봇이 당신의 손을 오해하지 않게 하는 법! 가상 세계에서 배운 '천재 로봇 손'의 탄생

여러분은 로봇이 사람의 손을 어떻게 구별하는지 궁금해본 적이 있는가?

우리가 매일 사용하는 스마트폰의 지문 인식이나 얼굴 인식은 이제 익숙하지만, 복잡하고 어질러진 공장 현장에서 로봇이 사람의 움직이는 손만 콕 집어내는 것은 생각보다 훨씬 어려운 일이다. 로봇의 눈에는 배경에 놓인 장갑이나 비슷한 색깔의 기계 부품이 사람의 손처럼 보일 수도 있기 때문이다.

오늘 소개할 이야기는 로봇이 '진짜 사람의 손'을 완벽하게 찾아내기 위해 가상 세계에서 혹독한 훈련을 거친 흥미진진한 연구 결과다.

로봇의 눈을 속이는 현실의 벽, '도메인 무작위화'로 뛰어넘다

연구의 시작은 아주 현실적인 고민에서 출발했다. 로봇이 사람과 함께 안전하게 일하려면 사람의 손 위치를 정확히 알아야 한다. 하지만 공장 같은 실제 환경은 조명이 시시각각 변하고, 물건들이 여기저기 쌓여 있어 로봇이 혼란을 겪기 쉽다.

그렇다고 수만 장의 실제 손 사진을 일일이 찍어서 로봇에게 공부시키는 것은 시간과 비용이 너무 많이 든다. 그래서 연구진은 기막힌 아이디어를 냈다. 바로 가짜 세계, 즉 가상 시뮬레이션에서 로봇을 학습시키는 것이다.

여기서 핵심 기술인 '도메인 무작위화(Domain Randomization)'가 등장한다. 이름은 어렵지만 원리는 간단하다. 가상 세계에서 손의 색깔을 파란색, 초록색으로 바꾸거나 배경에 말도 안 되는 무늬를 집어넣는 식이다. 로봇이 "어? 손이 왜 이래?"라고 당황할 정도로 이상한 환경을 자꾸 보여주면, 로봇은 결국 색깔이나 배경 같은 겉모습에 속지 않고 '손의 진짜 형태'라는 본질적인 특징에만 집중하게 된다. 이것이 바로 가상과 현실의 간극을 메우는 마법 같은 방법이다.

색깔만 보는 건 하수! 깊이까지 읽어내는 '멀티모달'의 위력

연구진은 로봇에게 단순히 눈(RGB 카메라)만 준 것이 아니라, 거리감을 측정할 수 있는 센서(깊이 센서)를 함께 활용하게 했다. 이를 '멀티모달(Multimodal)' 방식이라고 부른다.

우리가 한쪽 눈을 감고 물건을 잡으려 하면 거리 감각이 떨어져 실수하는 것과 비슷하다. 로봇에게 색상 정보와 깊이 정보를 동시에 주었더니 놀라운 결과가 나타났다.

실험 결과, 색상 정보만 사용했을 때보다 깊이 정보를 함께 사용했을 때 로봇의 손 인식 정확도가 비약적으로 상승했다. 특히 주변이 어둡거나 손과 비슷한 색의 물체가 근처에 있어도 로봇은 당황하지 않았다.

가상 세계에서 생성된 6만 장의 이미지로 학습한 이 로봇 모델은, 단 한 장의 실제 사진을 학습하지 않고도 현실 세계의 손을 아주 정확하게 찾아냈다. 마치 집에서 책만 읽던 천재 소년이 처음 밖으로 나가자마자 길을 완벽하게 찾아내는 것과 같은 이치다.

표 1: 학습 데이터 구성 및 인식 정확도 비교 (요약)

학습 방식	사용 데이터 (가상)	현실 세계 인식 정확도 (mAP)	특징
RGB 전용	60,000장	보통	조명 변화에 민감함
Depth 전용	60,000장	높음	모양과 거리에 집중함
RGB-D 통합	60,000장	최고	색상과 형태를 모두 완벽 파악

미래의 로봇, 이제 당신의 손을 안전하게 지킨다

이 연구가 우리에게 주는 의미는 매우 크다. 이제 로봇은 비싼 실제 데이터를 모으지 않아도 가상 세계에서의 무한한 연습을 통해 똑똑해질 수 있다. 이는 공장에서 로봇과 사람이 나란히 서서 일할 때, 로봇이 사람의 손을 기계 부품으로 오해해서 사고를 내는 일을 막아줄 것이다.

연구진은 이번에 개발한 데이터셋과 학습 모델을 전 세계에 무료로 공개했다. 누구나 이 '천재 로봇의 뇌'를 가져다 더 안전하고 똑똑한 로봇을 만들 수 있게 된 것이다.

머지않은 미래에 우리 집 거실에서 심부름을 하는 로봇도 바로 이 가상 세계 훈련법을 통해 당신의 손을 알아보고 물건을 건네줄지도 모른다. 과학 기술의 발전이 만드는 안전하고 편리한 세상, 그 중심에 가상 세계에서 단련된 로봇의 눈이 있다.

원문 출처: Grushko, S., Vysocký, A., & Chlebek, J. (2024). HaDR: Hand Instance Segmentation Using a Synthetic Multimodal Dataset Based on Domain Randomization. AI, 5(1), 72-91.