딥러닝 대신 마코프 체인? 새로운 수어 인식 해법이 열렸다

 



다양한 사람들이 쓰는 수어를 한 기계가 제대로 알아듣게 하라니, 말처럼 쉽지 않다. 같은 단어를 표현해도 손 모양과 속도, 동작의 연결이 사람마다 미묘하게 다르기 때문이다. 헝가리와 이라크, 이집트 연구진이 여기에 비틀기를 하나 더했다. 


“딥러닝만이 답은 아니다.” 


이들은 마코프 체인이라는 비교적 해석 가능한 고전 확률 모델에 **니칭 유전 알고리즘(NGA)**을 결합해, 사람마다 다른 수어 스타일을 학습하면서도 특정 스타일에만 매몰되지 않도록 설계했다. 무엇이 달랐길래? 결과는 간단했다. 보지 못한 수화자에게도 성능이 꺾이지 않았다.


수어 인식, 왜 이렇게 어렵지?

수어 인식(SLR)은 공항 전광판 안내, 관공서 키오스크, 비상 안내 방송 같은 곳에서 사람 통역 없이도 Deaf·Hard-of-Hearing(DHH) 이용자와 소통할 수 있게 만드는 핵심 기술이다. 하지만 실제 환경에서는 조명, 배경, 가림 현상뿐 아니라 사용자마다 다른 동작 습관이 얽혀 모델이 쉽게 흔들린다. 


대규모 데이터로 길들인 딥러닝도 낯선 사람의 손짓 앞에서는 확신이 줄어든다. 특히 “누가 하느냐”가 바뀌면 성능이 훅 떨어지는 주체 독립(subject-independent) 인식이 난제다. 연구진은 여기서 관점을 바꿨다. “동작의 연결 확률을 잘 잡으면, 사람 차이에도 흔들리지 않는 뼈대를 만들 수 있지 않을까?”


방법: 마코프 체인 × 니칭 유전 알고리즘

핵심은 두 가지다.


첫째, 마코프 체인으로 손동작의 “상태→상태” 전이를 확률적으로 모델링한다. 손이 반쯤 펴졌다가 완전히 펴지거나, 접히는 식의 연속성을 수식으로 붙잡는 셈이다.
둘째, 그 전이확률 행렬을 **유전 알고리즘(GA)**으로 최적화하되, 여기서 끝내지 않고 니칭(Niching) 기법—연구에선 Context-Based Clearing(CBC)—을 넣어 서로 비슷한 해가 우글우글 몰려드는 것을 막는다. 


쉽게 말해, 유전 연산으로 후보 해를 잔뜩 만들되 “너무 닮은 놈들은 정리!”를 외치며 다양성을 강제로 유지한다. 그래야 한두 사람의 스타일에 과적합되지 않는다.


구체적으로는 이렇다. 전이확률 행렬의 각 행은 1로 정규화되는 확률벡터다. 초기 개체군은 디리클레 분포로 샘플링해 유효한 확률을 보장한다. 적합도 함수는 정확도(높을수록 좋음)에서 엔트로피(지나친 불확실성은 벌점)와 지연시간(빨리 맞히는 모델을 우대)을 빼 가중합한다. 교배는 유니폼 교차, 돌연변이는 확률에 작은 가우시안 노이즈를 얹고 다시 정규화한다. 그다음 CBC가 비슷한 해(전이분포의 코사인 유사도가 임계값보다 높음)를 “청소”해 한 틈새(niche)에 최상위 개체만 남긴다. 덕분에 집단 전체가 한 스타일로 쏠리지 않고 여러 스타일의 전이 패턴을 병렬로 보존한다.


데이터와 전처리: 가벼워야 실전에서 산다

연구팀은 RGB 영상에서 MediaPipe Hands로 2D 손 랜드마크(손당 21개)를 뽑고, 좌표·관절 각도·관절 간 거리, 그리고 프레임 간 속도 같은 가벼운 특징을 쌓았다. 여기에 가우시안 필터, 밝기/대비 보정, CLAHE, HSV 기반 배경 제거 등 기본 전처리를 더했다. 포인트는 한 가지—GPU 없이도 돌아가는 경량 파이프라인을 고집했다는 점이다. 복잡한 CNN-Transformer 대신 “해석 가능하고 계산이 싼” 마코프 체인의 장점을 끝까지 살린 셈이다.


비교 실험: “딥러닝이 항상 이기진 않는다”

연구팀은 HMM, CRF, CNN-LSTM, TCN, Transformer, GCN 기반 모델과 정면 비교했다. 조건은 공정하게 맞췄다. 수어자 분리 데이터 분할(훈련·검증·시험에 서로 다른 사람), 동일 전처리, 동일 특징 집합. 결과는 상징적이다. 제안한 MC-NGA가 정확도 96% 안팎, 미등록 사용자(처음 보는 사람) 기준 정확도도 92%대를 보였다. 반면 CNN-LSTM, TCN, Transformer 같은 딥러닝 계열은 전반적으로 강했지만, 사람이 바뀌면 점수가 더 크게 빠졌다. 왜 그럴까? 


딥러닝은 거대한 표현력을 가진 대신 데이터 분포의 변동에 민감하고, 내부가 “왜 그랬는지”를 설명해주지 않는다. 반대로 MC-NGA는 여러 전이 시나리오를 공존시키며, 작은 데이터에서도 의미 있는 전이를 안정적으로 잡아낸다. “해석 가능성”이 부가 보너스다.


흥미로운 대목은 엔트로피 벌점과 지연시간 항이 실제 서비스 품질에 직결됐다는 점이다. 전이가 지나치게 퍼지면(엔트로피↑) 결정이 늦고 오분류가 늘어난다. 반대로 너무 날카로우면 특정 사람의 리듬에 과적합된다. 적합도 함수에서 두 항의 균형을 조절해 “빠르고 확실한” 경로를 찾아간 것이 성능의 비결로 보인다.


왜 지금 이 접근이 의미 있나

물론 Transformer 기반 비전 모델은 더 큰 데이터와 연산을 태우면 더 오를 수 있다. 하지만 공공 키오스크, 모바일, 임베디드처럼 예산과 전력, 개인정보 제약이 강한 현장에서는 얘기가 달라진다. 해석 가능하고 가벼우며, 새 사용자를 만나도 쉽게 무너지지 않는 모델이 필요하다. MC-NGA는 그 틈새를 정확히 겨냥한다. 마코프 체인은 상태와 전이로 의사결정 근거가 명확하다. 여기에 니칭 GA가 다양성을 제도적으로 보장해, 현장에서 만나는 “수많은 스타일”을 포괄한다. “데이터 더 모아와”가 어려운 기관에겐 무엇보다 현실적인 솔루션이다.


한계와 다음 스텝

연구는 RGB+2D 랜드마크에 최적화됐다. 복잡한 양손 협응, 손가락 미세 동작, 얼굴·시선·구강형 등 다중 모달을 통합하면 더 강해질 여지가 크다. 또한 마코프 체인의 1차 의존성 한계를 보완하려면, 상태 설계를 세분화하거나 반마코프(HSMM)부분관측 MDP 같은 확장도 고려할 만하다. 마지막으로, CBC의 임계값(예: 코사인 거리 기준)과 적합도 가중치는 실제 배치 환경에 맞춰 재튜닝이 필요하다. 그래도 방향은 분명하다. 다양성 보존을 전제로 한 확률적 전이 학습은 “누가 하든 알아듣는” 수어 인식을 향한 현실적 해법으로 자리 잡고 있다.


마무리

이 연구가 던진 메시지는 단순하다. “모델이 똑똑해지는 것”만큼 “다름을 받아들이는 설계”가 중요하다는 것. 니칭이란 작은 규칙 하나가 모델을 특정 사용자에 갇히지 않게 만들었고, 그 결과 실용성이 크게 높아졌다. 화려한 대규모 딥러닝의 시대에도, 해석 가능하고 가벼운 모델이 현장성이라는 카드로 반격하는 장면. 기술이 사람을 향할 때 필요한 태도가 무엇인지, 이 작업은 조용하지만 명확하게 보여준다.



출처:
Al-Saidi, M., Ballagi, Á., Hassen, O. A., & Darwish, S. M. (2025). Adaptive Sign Language Recognition for Deaf Users: Integrating Markov Chains with Niching Genetic Algorithm. AI, 6(8), 189. https://doi.org/10.3390/ai6080189