체화된 대형 언어 모델은 예측 불가능한 환경에서도 로봇이 복잡한 작업을 수행하도록 돕는다

'채화된 인지' 기능이 차용된 로봇 시스템

원제:

Embodied large language models enable robots to complete complex tasks in unpredictable environments

저널: Nature Machine Intelligence

출판일: 2025년 3월

저자: Ruaridh Mon-Williams¹²³, Gen Li¹, Ran Long¹, Wenqian Du¹⁴, Christopher G. Lucas¹

소속:

1. University of Edinburgh, Edinburgh, UK

2. Massachusetts Institute of Technology, Boston, MA, USA

3. Princeton University, Princeton, NJ, USA

4. Alan Turing Institute, London, UK

---

📌 연구 배경 및 목적

기존 로봇 시스템은 환경 변화나 복잡한 맥락에 적응하기 어렵다는 한계를 지니고 있습니다. 이에 연구진은 인간 지능의 핵심 요소 중 하나인 '체화된 인지(embodied cognition)' 개념에 주목했습니다. 이 개념은 지능이 뇌에 국한된 것이 아니라 감각-운동 시스템, 즉 몸의 상호작용을 통해 형성된다는 이론입니다.

따라서 이 논문에서는 언어 모델(GPT-4)과 로봇의 감각-운동 제어 시스템을 통합한 ELLMER (Embodied LLM-Enabled Robot) 프레임워크를 제안합니다. 이 프레임워크는 LLM이 사용자 명령을 해석하고, 적절한 행동 계획을 생성하며, 시각 및 힘 피드백을 통해 실제 환경에 적응하게 합니다.

---

🔬 주요 시스템 구성 요소

1. 언어 모델 (LLM):

사용자 입력(예: “피곤한데 손님이 곧 와요. 커피 만들어 줄래요?”)을 받아 작업을 단계별로 분해하고, 적절한 코드로 전환.

2. RAG (Retrieval-Augmented Generation):

로봇의 작업 수행에 필요한 지식 예시(예: 컵 잡는 방법, 문 여는 동작)를 데이터베이스에서 검색하여 LLM이 활용하도록 함.

3. 시각 시스템:

Azure Kinect DK 카메라를 통해 객체 인식 및 위치 추적. ‘Grounded-Segment-Anything’ 및 ‘Grounding DINO’ 모델을 사용.

4. 힘 피드백 시스템:

ATI 센서를 통해 로봇 팔의 힘을 정밀하게 감지. 다양한 작업에서 필요한 힘의 크기와 방향을 실시간 피드백으로 조정.

5. 행동 생성:

행동은 Python 코드로 생성되어 ROS (Robot Operating System)를 통해 로봇에 전달되고 실행됨.

---

🧠 실제 시연 예시

- 사용자의 복잡한 추상 명령:

“손님이 곧 올 것 같아요. 커피 좀 타주고, 접시에 동물 그림도 하나 그려줘요.”

- 로봇의 반응:

1. 커피 컵 찾기

2. 커피 푸기 → 물 붓기

3. 펜을 찾아 접시에 랜덤 동물 그림 그리기

이러한 작업들은 단순한 반복적 조작이 아닌, 상황에 따른 유연한 판단과 적응을 요구합니다.

---

🧪 성능 평가

- 작업 성공률:

다양한 환경 변화(예: 컵의 위치 변경, 잡기 어려운 물체)에도 높은 성공률 유지

- 정밀 제어:

커피 붓기에서 5.4g 단위 정확도 달성 (속도가 빨라질수록 정확도는 낮아짐)

- 시각 인식 성능:

객체 식별 정확도는 적절한 조명과 장애물 수준에 따라 다르며, occlusion 비율이 높아질 경우 인식률 하락

- 그림 그리기 기능:

DALL-E를 이용해 사용자 지시(예: “랜덤 동물”)로 이미지 생성 → 외곽선을 추출 → 로봇이 그림을 그리는 데 사용

---

✅ 결론

ELLMER 프레임워크는 인공지능과 로봇 조작 기술을 결합하여 ‘지능형 로봇’을 구현하는 데 성공했다. 이 접근 방식은 대형 언어 모델의 인지 능력과 로봇의 감각운동 기술을 결합하여, 로봇이 고차원 언어 명령을 해석하고 복잡한 장기 작업을 수행하면서도 불확실성에 능숙하게 대응할 수 있게 해준다.

ELLMER는 피드백 루프와 RAG를 통해 LLM이 표현력 있는 코드를 작성하게 하고, 로봇이 해당 코드를 바탕으로 다양한 조작 작업을 수행하도록 한다. 실시간 환경 변화에 대응하며, RAG를 통해 정확한 실행을 위한 참고 자료를 지속적으로 활용할 수 있었다. 이는 고품질의 맥락 기반 출력을 보장하며, 작업에 특화된 정보를 전달해 LLM의 성능을 향상시킨다.

이 시스템은 복잡한 예술적 동작(예: 라떼아트, 케이크 데코레이션)까지 구현할 수 있어, 향후 더욱 다양한 작업으로 확장 가능하다. 특히, DALL-E를 통한 시각적 입력 기반 궤적 생성은 향후 로봇의 정교한 표현력을 높이는 데 기여할 것이다.

향후 연구에서는 LLM의 반복 질의 기능 강화, 힘의 복잡한 모델링 개선, 촉각 센서 및 소프트 로보틱스 기술의 통합 등을 통해 더욱 세밀한 제어와 상황 인지 능력을 확보할 수 있다.

ELLMER는 언어 처리, RAG, 힘/시각 피드백을 통합하여 로봇이 복잡한 작업을 완수하도록 한다. 이를 통해 강화학습, 모방학습, 유연한 동작 원형 등이 통합적으로 작동하며, 동적이고 다양한 환경 속에서도 ‘로봇 지능’을 구현할 수 있는 기반이 된다.

---

#체화된지능 #대형언어모델 #로봇조작 #힘피드백 #RAG통합