신경망이 이미지를 기억하는 방법: AI 이미지 복원을 혁신한 새로운 활성화 함수 기술

생성형 AI가 복잡한 이미지의 미세한 디테일까지 완벽하게 복제할 수 있는 새로운 수학적 방법이 공개되었다

디지털 이미지를 픽셀 격자가 아닌 연속적인 함수로 표현하는 암시적 신경망 표현(INR) 기술은 3D 컴퓨터 비전과 이미지 압축 분야에서 매우 큰 주목을 받고 있다. 그러나 기존의 인공신경망은 이미지의 고주파 성분, 즉 미세한 부위나 복잡한 질감을 제대로 학습하지 못하고 부드러운 배경 위주로만 먼저 학습하려는 고유의 ‘주파수 편향(Spectral Bias)’ 문제를 겪어왔다. 컴퓨터가 이미지의 디테일을 복원할 때 경계선이 흐릿해지거나 세부 묘사가 뭉개지는 현상이 발생하는 이유가 바로 여기에 있다.

최근 국제 학술지 *Machine Learning and Knowledge Extraction*에 발표된 연구에 따르면, 무타 대학교(Mutah University) 등 공동 연구진은 인공신경망의 핵심 구성요소인 활성화 함수를 혁신적으로 바꾸어 이 주파수 편향 문제를 근본적으로 해결하는 데 성공했다. 연구진은 수학적 파형을 스스로 조절하는 두 가지 새로운 주기적 활성화 함수인 ‘하모닉(Harmonic)’과 ‘PM-FINER’를 제안했다. 이 기술들은 기존 활성화 함수의 고정된 주파수 구조를 깨뜨리고 개별 인공신경 세포가 데이터에 맞추어 다채로운 주파수 대역을 스스로 조합하고 변조할 수 있도록 만든다.

실험 결과, 새롭게 제안된 하모닉 활성화 함수는 기존의 표준 주기적 활성화 함수인 사이렌(SIREN)과 비교했을 때 이미지 복원 정확도(PSNR)를 평균 *6.08 dB*이나 끌어올리는 압도적인 성능 향상을 입증했다. 이는 인공신경망이 복잡한 자연어 처리를 넘어 고해상도 시각 데이터를 완벽한 수학적 데이터로 압축하고 복원할 수 있는 새로운 대안을 제시한 성과로 평가받는다.

인공신경망은 왜 이미지의 미세한 털과 정밀한 질감을 표현하지 못하고 뭉개버릴까

컴퓨터가 이미지를 학습할 때 흔히 사용하는 인공신경망(MLP)은 기본적으로 입력된 데이터의 부드러운 변화, 즉 저주파 신호를 훨씬 더 빠르게 학습하는 성질을 가지고 있다. 이를 주파수 편향이라 부르는데, 이 때문에 인공신경망에 이미지 좌표를 넣고 색상을 출력하도록 훈련하면 머리카락, 동물의 털, 복잡한 사물의 표면 질감 같은 세밀한 고주파 정보는 표현하지 못하고 밋밋하게 흐려진 이미지를 만들어내기 십상이다.

이를 극복하기 위해 기존 학계에서는 입력 좌표를 고차원의 주파수 공간으로 변환해 밀어 넣는 방식이나, 활성화 함수 자체를 사인(Sine) 함수 형태로 만들어 네트워크 전체에 주기적 성질을 부여하는 사이렌(SIREN) 구조를 널리 사용해 왔다. 사이렌은 기존보다 디테일 복원력을 크게 향상시켰으나 고정된 단일 주파수 형태만 반복하기 때문에, 복잡하고 불규칙한 자연물 이미지의 다양한 주파수 성분에 유연하게 대처하지 못한다는 명확한 한계가 존재했다.

연구진은 신경세포 스스로 주파수를 조합하고 변조하는 수학적 활성화 함수를 설계했다

이러한 한계를 뛰어넘기 위해 연구진이 개발한 첫 번째 핵심 기술은 바로 하모닉 활성화 함수이다. 프랑스 수학자 푸리에의 정리처럼 모든 주기적 신호는 기본 주파수의 정수배에 해당하는 파형들의 합으로 표현될 수 있다는 점에 착안했다.

하모닉 함수는 신경망의 각 뉴런 안에서 기본 사인 파형뿐만 아니라 이의 2배, 3배에 해당하는 고조파(Harmonics) 성분을 동시에 계산하도록 설계되었다.

구체적으로 각 인공신경세포는 학습 과정에서 베타($\beta$)와 감마($\gamma$)라는 진폭 조절 파라미터를 스스로 최적화한다. 이 변수들은 초기에는 *0*으로 설정되어 안정적인 초기 학습을 유도하지만, 훈련이 진행됨에 따라 개별 뉴런이 담당한 이미지 영역의 특징에 맞추어 고주파 성분을 스스로 키우거나 줄이도록 작동한다. 이 방식으로 네트워크 전체의 구조적 변경 없이 뉴런당 단 *2개*의 추가 변수만으로 표현력을 수십 배 이상 증가시켰다.

두 번째 기술인 PM-FINER는 라디오의 주파수 변조(FM) 방송 원리를 인공지능 활성화 함수에 결합한 결과물이다. 기존의 가변 주기 활성화 함수인 파이너(FINER) 기술은 입력값의 크기에 따라 주파수를 바꾸는 chirp 신호 형태를 취하고 있었다. 연구진은 여기에 한 걸음 더 나아가, 뉴런 내부의 순간적인 위상(Phase) 자체를 또 다른 사인 함수로 변조하는 위상 변조 기법을 삽입했다. 변조 지수와 반송파 비율을 인공지능이 스스로 학습하게 함으로써, 입력 신호의 분포에 따라 매우 정밀하고 동적인 주파수 대역폭 변형을 만들어내도록 유도한 것이다.

수백 번의 교차 검증 실험 결과 하모닉 함수는 이미지 복원 정확도를 대폭 향상시켰다

새로운 활성화 함수의 성능을 과학적으로 증명하기 위해 연구진은 철저하게 제어된 환경 아래에서 총 *534회*에 달하는 대규모 인공지능 학습 실험과 엄격한 통계 검증을 수행했다. 실험에는 자전거, 앵무새, 우주비행사, 고양이 등 미세한 경계선과 다채로운 색상 변화를 포함하는 6종의 표준 자연물 이미지가 사용되었다.

코사인 어닐링(Cosine Annealing) 학습률 조절기 기준 하에서, 하모닉 활성화 함수를 적용한 인공신경망은 이미지 복원 정확도의 척도인 평균 PSNR 수치에서 *49.34 dB*라는 압도적인 성적을 기록했다. 이는 기존 대표 기술인 사이렌의 *43.26 dB*보다 무려 *6.08 dB* 높은 수치이며, 가변 주기를 사용하던 기존의 파이너(FINER, *46.77 dB*)와 비교해도 *2.57 dB* 향상된 결과이다. 함께 제안된 PM-FINER 역시 평균 *49.17 dB*를 기록하며 하모닉 함수와 통계적으로 대등한 최고 수준의 성능을 나란히 입증했다. 이미지의 구조적 유사성을 평가하는 SSIM 지수에서도 두 함수 모두 *0.9973*을 달성해 원본 이미지와 육안으로 구별이 불가능할 정도로 정밀하게 신호를 복원해 냈음을 보여주었다.

단순히 학습 파라미터 개수가 늘어났기 때문에 성능이 좋아진 것은 아니다

일각에서는 하모닉 함수와 PM-FINER 함수가 뉴런마다 추가적인 학습 변수를 사용하기 때문에 성능이 올라간 것이 아니냐는 의문을 제기할 수 있다. 연구진은 이러한 정량적 착시를 배제하기 위해 정밀한 절제 실험(Ablation Study)을 추가로 진행했다. 하모닉 함수가 사용하는 추가 변수의 총합만큼 인공신경망 자체의 폭(Width)을 한 칸 넓혀서 파라미터 숫자를 동일하게 맞춘 표준 사이렌 모델인 ‘사이렌-와이드(SIREN-Wide)’를 별도로 구축해 비교한 것이다.

실험 결과, 신경망의 크기 자체를 키워 파라미터를 추가했을 때 얻을 수 있었던 성능 향상은 단 *0.26 dB*에 불과했다.

반면 동일한 분량의 파라미터를 활성화 함수 내부의 다중 고조파 구조로 변형해 투입한 하모닉 함수는 사이렌-와이드보다 *5.82 dB*나 높은 성능 격차를 유지했다. 이는 하모닉 함수의 압도적인 성과가 단순히 계산 용량의 증가 때문이 아니라, 주기적 활성화 함수 내부에 다중 주파수 기저를 수학적으로 영리하게 배치함으로써 얻어진 순수한 구조적 이점이라는 사실을 완벽히 방증한다.

인공지능 이미지 압축과 3D 공간 복원 기술의 한계를 한 단계 끌어올리다

이번 연구는 이미지, 오디오, 3D 그래픽 등 연속적인 아날로그 신호를 인공지능 내부의 가중치로 치환하여 저장하는 암시적 신경망 표현(INR) 분야에 커다란 이정표를 세웠다. 복잡한 수학적 최적화 기법이나 별도의 서브 네트워크 레이어를 물리적으로 덧붙이지 않고도, 단지 기존 인공신경망의 활성화 함수를 교체하는 것만으로 신호 복원의 한계를 극복할 수 있는 실실적인 대안을 마련했기 때문이다.

특히 데이터 자체의 밀도와 특성에 맞추어 인공신경세포 스스로 주파수 대역을 조절하는 이 메커니즘은, 향후 초고화질 영상 압축뿐만 아니라 의료용 CT 및 MRI 데이터 복원, 차세대 자율주행 차량이 주변 환경을 인식하는 3D 공간 복원(NeRF) 기술 등의 정밀도를 획기적으로 개선하는 데 직접적으로 기여할 잠재력을 품고 있다. 수학적 기저의 확장성이 증명된 만큼, 앞으로 다중 고조파 활성화 함수 기술은 시각 데이터 인공지능 모델링의 핵심 인프라로 자리 잡을 것으로 전망된다.

출처: Tarawneh, A. S., Lasassmeh, O., Alkasasbeh, A. A., Alzahrani, A., Almohammadi, K., Alamri, M., & Hassanat, A. B. (2026). Harmonic and Phase-Modulated Activation Functions for Implicit Neural Representations: A Comprehensive Benchmark Study. *Machine Learning and Knowledge Extraction*, *8*(6), 170. https://doi.org/10.3390/make8060170