이미지 속 텍스트 인식의 혁명: 자기지도학습(SSL)의 부상과 전망

뇌 속 신경망과 텍스트, 이미지, SSL 아이콘이 조화를 이루는 자기지도학습 기반 이미지 텍스트 인식 시각화 일러스트

자기지도학습을 통한 이미지 텍스트 인식 개념도

서론: 텍스트 인식, 새로운 도전에 직면하다

이미지에서 문자를 자동으로 읽어내는 '텍스트 인식(Text Recognition, TR)' 기술은 컴퓨터 비전의 핵심 분야 중 하나다. 표지판, 간판, 문서 등 현실 세계의 다양한 장면 속 텍스트를 디지털 정보로 전환해주는 이 기술은 디지털화가 진행될수록 그 중요성이 커지고 있다. 하지만 이 분야는 '정답'이 있는 라벨링 데이터의 확보가 매우 어렵고 비용이 많이 든다는 근본적인 한계를 안고 있었다.

이를 해결하기 위해 '자기지도학습(Self-Supervised Learning, SSL)'이 새로운 대안으로 떠오르고 있다. SSL은 라벨 없이도 데이터의 패턴을 스스로 학습할 수 있어, 기존보다 훨씬 많은 양의 데이터를 학습에 활용할 수 있게 한다. 하지만 이미지 텍스트 인식에서는 출력이 단일 클래스가 아니라 '문자열(sequence)'이라는 점에서, 일반 이미지 분류에 비해 SSL 도입이 상대적으로 늦어졌다. 본 논문은 바로 이 간극을 메우고, TR 분야에서 SSL이 어떤 방식으로 적용되고 발전해왔는지를 체계적으로 정리한 최초의 종합적 비평(survey) 논문이다.

본론 1: 텍스트 인식의 기본 개념과 난제들

TR은 장면텍스트(Scene Text Recognition, STR)와 필기문자 인식(Handwritten Text Recognition, HTR)으로 나뉜다. STR은 거리 간판이나 제품 포장지 등의 사진 속 글자를 읽고, HTR은 손글씨 문서에서 문자를 인식하는 데 초점을 둔다. 이들은 모두 이미지의 시각적 특징을 추출하는 '인코더'와 이를 문자로 변환하는 '디코더' 구조로 구성된다.

하지만 기존 딥러닝 기반 모델들은 대량의 라벨링 데이터를 필요로 하며, 이를 수집하는 비용이 매우 크다. 합성 데이터를 생성하는 방법도 있지만, 실제 데이터와의 '도메인 불일치' 문제로 인해 성능이 제한된다. 따라서 라벨 없이도 의미 있는 표현을 학습할 수 있는 SSL의 등장은 매우 반가운 소식이다.

본론 2: 자기지도학습, 텍스트 인식에 접목되다

SSL은 크게 두 가지 접근 방식으로 나뉜다: 판별적(discriminative)과 생성적(generative) 방법이다.

판별적 접근: 비교하며 배우는 방식

초기 연구인 SeqCLR(Aberdam et al., 2021)은 SimCLR 프레임워크를 변형하여, 단어 전체가 아닌 프레임/서브워드 수준에서 특징을 추출해 학습하도록 했다. 이후 PerSec(Liu et al., 2022), STR-CPC(Jiang et al., 2022) 등은 문자의 '순서성'이나 '스트로크 정보' 등을 더 정교하게 반영한 구조로 발전했다.

특히 ChaCo(Zhang et al., 2022e)는 문자(character) 단위의 패치 조각을 비교 대상으로 삼는 등, 텍스트 인식에 특화된 세분화된 단위를 적극 활용한 점이 돋보인다. 이는 일반 이미지 분류에서는 고려되지 않는 TR만의 독특한 접근 방식이다.

생성적 접근: 복원하며 배우는 방식

SimAN(Luo et al., 2022)은 텍스트 이미지의 스타일(색상, 텍스처 등)을 복원하는 과제를 통해 표현을 학습한다. Text-DIAE(Souibgui et al., 2023)는 텍스트 이미지에 블러나 마스킹 등 다양한 손상을 가하고 이를 복원하도록 학습시킴으로써, 더욱 강건한 표현을 유도한다.

Dual-MAE(Qiao et al., 2023)는 서로 다른 마스킹 전략을 병행해 시각적 정보와 문맥적 정보 모두를 고려한 학습을 시도하며, MaskOCR(Lyu et al., 2023)는 인코더와 디코더를 모두 사전학습함으로써 전반적인 성능을 향상시켰다. 이는 단순한 인코더 사전학습을 넘어서, 모델 전체를 SSL 방식으로 학습한 새로운 시도다.

본론 3: TR용 SSL의 평가 및 성능 비교

TR 분야에서는 SSL을 평가할 때 두 가지 주요 프로토콜을 사용한다. 첫째는 사전학습된 인코더를 고정하고 디코더만 학습하는 '고정평가(frozen encoder)' 방식이며, 둘째는 전체 모델을 학습시키는 '파인튜닝' 방식이다. 후자의 경우, 적은 양의 라벨 데이터만으로도 높은 성능을 달성할 수 있는지를 검증하는 데 적합하다.

이 논문에서는 15개 이상의 최신 SSL-TR 모델을 종합 비교하고 있으며, 실험 결과 ViT(비전 트랜스포머) 기반 모델이 CNN 기반 모델보다 우수한 성능을 보였다고 보고한다. 이는 ViT의 낮은 inductive bias 덕분에 더 유연하고 다양한 패턴을 학습할 수 있었기 때문으로 분석된다.

또한, irregular dataset (왜곡된 문자가 포함된 난이도 높은 데이터셋)에서 SSL의 효과가 더욱 두드러졌다는 점은 실전 응용 가능성을 높여준다.

결론: 미래의 텍스트 인식은 어디로 갈 것인가?

이 논문은 단순한 리뷰에 그치지 않고, 향후 연구 방향도 제시한다. 예를 들어, 다양한 언어와 글꼴, 손글씨의 특성을 반영한 맞춤형 SSL 프레임워크, 그리고 멀티모달 정보를 활용한 SSL 접근 등은 아직 충분히 개척되지 않은 분야다. 또한 인코더뿐 아니라 디코더, 전체 모델 구조에 대한 자기지도학습 적용 확대도 중요한 이슈다.

개인적으로는 '문자(character)' 단위의 정보와 '문맥(context)' 단위 정보를 통합하는 하이브리드 모델이 향후 유망하다고 본다. 이는 자연어처리(NLP)의 BERT와 같은 구조와도 유사한데, 문자와 문맥 사이의 계층적 관계를 잘 학습할 수 있기 때문이다.

원문 출처

Penarrubia, C., Valero-Mas, J.J. & Calvo-Zaragoza, J. Self-Supervised Learning for Text Recognition: A Critical Survey.Int J Comput Vis(2025). https://doi.org/10.1007/s11263-025-02487-3