GPT와 의수 연구의 만남: 자연어로 인간 성능을 모델링하다 상실된 팔, 그리고 복잡해지는 기술
팔을 잃은 사람은 전 세계적으로 수백만 명에 이른다. 북미 지역만 해도 약 560만 명이 절단 상태로 살아가고 있으며, 매년 18만 5천 건 이상의 새로운 사례가 보고된다. 현대 의수 기술은 이들에게 더 나은 삶의 질을 제공하고자 끊임없이 발전하고 있지만, 기술이 복잡해질수록 사용성과 설계의 문제는 더 까다로워진다. 이런 맥락에서 중요한 역할을 하는 것이 바로 "인간 성능 모델링(HPM, Human Performance Modeling)"이다.
인간 성능 모델링(HPM)이란 무엇인가?
HPM은 인간이 특정 작업을 수행하는 데 걸리는 시간, 인지적·신체적 부담 등을 예측하기 위한 계산적 방법론이다. 일반적으로 인간 피험자를 대상으로 한 실험은 비용과 시간이 많이 들기 때문에, 컴퓨터 모델을 통해 이를 예측하는 방식이 주로 사용된다. 대표적인 프레임워크로는 GOMS, CPM-GOMS, ACT-R, QN-MHP, SOAR가 있다. 하지만 이 모델들은 배우기 어렵고, 실제 병원이나 산업 현장에서 쉽게 적용하기엔 많은 장벽이 존재한다.
기존 HPM의 한계, 그리고 GPT의 가능성
이번 논문은 바로 이 한계를 극복하기 위해, 대규모 언어 모델(LLM)인 GPT를 기반으로 한 새로운 접근법을 제시한다. 이름하여 HPM-NL (Human Performance Modeling with Natural Language). 이 모델은 자연어 입력만으로도 작업 시간(Task Completion Time, TCT)과 인지·신체적 부하(workload)를 예측할 수 있도록 설계되었다.
놀라운 점은, 이 모델이 단순한 챗봇 기능을 넘어서, 기존 5대 HPM 프레임워크의 이론적 구조를 모두 통합하고 있다는 것이다. 다시 말해, 복잡한 수학 모델을 사용자가 몰라도, 간단한 문장으로 입력만 하면 정확한 예측 결과를 얻을 수 있다는 뜻이다.
HPM-NL의 원리: 다섯 개의 모델을 한데 묶다
GOMS부터 SOAR까지, 심리학 이론의 집약체
이 모델은 다음 다섯 가지 대표적인 HPM 이론의 핵심 공식을 추출하여 통합하였다:
- GOMS: 숙련자의 반복적인 작업 시간 계산에 적합
- CPM-GOMS: 인지와 신체 활동의 병렬 처리 반영
- ACT-R: 인지 모듈 기반의 시간 및 부하 계산
- QN-MHP: 대기열 모델로 멀티태스킹 상황 예측
- SOAR: 복잡한 의사결정 과정과 그 부하 측정
데이터 수집과 모델 통합, 그리고 자연어 인터페이스
연구진은 GPT(o1 pro)를 활용해 지난 30년간의 논문에서 수천 개의 모델 파라미터, 실험 조건, 인구통계 정보를 추출하였다. 그런 다음 이 데이터를 기반으로 GPT에 명시적인 계산 규칙을 부여했다. 사용자가 HPM-NL에 작업 시나리오를 자연어로 입력하면, 모델은 사용자의 숙련도, 장애 상태, 작업 환경, 목적 등을 바탕으로 각 프레임워크의 로직에 따라 예측을 수행한다.
예를 들어, \"전완부 절단 장애인이 빨래집게 옮기기를 수행\"이라는 시나리오를 입력하면, GPT는 각 단계별로 필요한 시간과 부하를 계산하여 시각적으로 출력한다.
실험 검증: HPM-NL은 정말 쓸모 있는가?
논문에서는 실제로 25명의 대학원생이 HPM-NL을 사용하여 '빨래집게 옮기기 과제(CRT)'를 모델링했고, 기존 Cogulator라는 모델링 도구와 예측값을 비교했다. 결과는 통계적으로 유의미한 차이가 없었다(p=1.0). 이는 GPT 기반 예측이 기존 툴과 유사한 수준의 정확도를 제공한다는 것을 의미한다. 게다가 HPM-NL은 전문 소프트웨어 없이도 단 몇 초 만에 결과를 산출할 수 있어, 시간과 비용 면에서도 탁월하다.
단순한 LLM이 아니다: '환각'을 막는 세 가지 전략
GPT가 종종 사실과 다른 답변(=환각)을 내놓는다는 건 이미 잘 알려져 있다. 이를 막기 위해 HPM-NL은 다음 세 가지 전략을 사용했다:
- 모델 제약 로직 사용: 각 HPM 프레임워크의 수학적 모델을 GPT의 계산 규칙으로 제한함.
- 출처 추적 가능성 확보: 모든 수치는 논문에서 근거를 찾을 수 있도록 APA 7th 인용 제공.
- 구조화된 공식 기반 출력: 모호한 용어 대신 수식 기반의 부하 계산을 적용.
이로 인해, HPM-NL의 출력은 단순 생성형 AI가 아니라, 실질적인 모델링 도구로 기능한다.
한계점과 앞으로의 과제: 아직은 갈 길이 멀다
하지만 이 연구는 몇 가지 한계를 인정하고 있다. 첫째, 검증은 단일 과제(CRT)에 국한되었고, 실제 의수 사용자에 대한 데이터는 없었다. 둘째, GPT의 프롬프트 방식에 따라 결과가 달라질 수 있다는 불확실성도 존재한다. 셋째, GPT 자체가 상업적 모델이기 때문에, 장기적인 재현성(reproducibility)에 의문이 남는다.
향후 연구에서는 다양한 과제, 실제 사용자 데이터를 기반으로 한 검증, 프롬프트 안정화 전략 등이 필요하다.
이 기술이 열어줄 미래: 설계자, 의사, 그리고 사용자 모두의 도구
개인적으로 이 연구의 가장 인상적인 점은 \"복잡한 모델을 누구나 사용할 수 있도록 풀어낸 방식\"이다. 기존에는 전문 인력이 수십 시간에 걸쳐 수작업으로 모델을 만들어야 했지만, 이제는 자연어 한 문장으로 같은 수준의 결과를 얻을 수 있다. 이는 특히 초기 설계 단계에서 빠른 피드백을 제공할 수 있어, 실무에서의 효용성이 매우 크다.
또한 의수뿐 아니라 다양한 헬스케어 기기, 차량 인터페이스, 교육 기술 등에서도 응용 가능성이 높다. 예를 들어, 노인 대상 스마트 워치 UI를 설계할 때, 복잡한 동작이 인지 부하를 얼마나 증가시키는지를 빠르게 예측할 수 있다면 디자인 개선에 큰 도움이 될 것이다.
결론: 자연어의 힘으로 인간을 더 잘 이해한다는 것
HPM-NL은 단순히 GPT를 HPM에 적용한 도구가 아니다. 이는 인간 중심 설계를 더 쉽고, 빠르고, 정확하게 만들 수 있는 새로운 패러다임의 시작이다. 무엇보다 중요한 것은, 이 기술이 설계자, 의사, 그리고 사용자 모두에게 열려 있다는 점이다. 사람을 위한 기술은, 사람의 언어로 이해될 수 있을 때 가장 강력해진다.
출처논문
Park, J., Badhwar, R., Walji, Z., & Dave, P. (2025). Human Performance Modeling with Natural Language (HPM-NL) for Upper-limb Prostheses: Generative pre Trained Transformer (GPT)-Based Rapid HPM Under Low Hallucination. Proceedings of the Human Factors and Ergonomics Society Annual Meeting, 1–6. https://doi.org/10.1177/10711813251360992