컴퓨터 비전 시스템을 위한 소스코드 자동 생성: 딥러닝 기반 CNN 접근법의 혁신

들어가며

인공지능(AI) 기술의 발전은 단순한 데이터 처리 수준을 넘어, 복잡한 문제 해결 능력까지 확보하게 만들었다. 그중에서도 딥러닝 기반의 소스코드 자동 생성 기술은, 개발자의 손을 거치지 않고도 기능적으로 올바른 프로그램을 작성할 수 있는 잠재력을 지닌 분야로 주목받고 있다. 특히 컴퓨터 비전 시스템은 높은 연산 복잡도와 정확성을 요구하기 때문에, 코드 생성의 자동화는 실질적인 생산성 향상과 직결된다.

소스코드 자동 생성, 왜 어려운가?

자연어로 설명된 요구사항을 기반으로 실제 실행 가능한 프로그램을 생성하려면, 모델은 문법적 정확성과 함께 기능적 의미까지 파악해야 한다. 시퀀스 기반(seq2seq) 모델은 입력 문장을 토큰으로 나눠 이를 그대로 코드로 바꾸는 방식을 사용하지만, 이는 프로그램의 계층 구조나 문법적 규칙을 보장하기 어렵다는 한계가 있다.

AST와 CNN: 구조적 정확성을 향한 진보

이 연구에서는 이러한 한계를 극복하기 위해 문법 기반의 CNN(합성곱 신경망) 구조와 추상 구문 트리(Abstract Syntax Tree, AST)을 결합한 방식을 제안한다. AST는 코드의 구조를 트리 형태로 표현함으로써 문법적 일관성을 보장하고, CNN은 지역적인 문맥 특징을 효율적으로 포착하여 문법 규칙 예측의 정확도를 높인다. 이와 같은 접근은 기존의 LSTM이나 RNN 기반 구조보다 병렬처리에 유리하고, 긴 시퀀스에서도 안정적으로 작동할 수 있는 장점이 있다.

AST2CVCode: 컴퓨터 비전을 위한 새로운 데이터셋

본 연구의 중요한 기여 중 하나는 컴퓨터 비전 분야에 특화된 AST2CVCode라는 데이터셋을 구축했다는 점이다. 이 데이터셋은 이미지 분류, 객체 탐지와 같은 컴퓨터 비전 코드 샘플 65개를 기반으로 하며, 코드의 AST 구조와 문법 규칙, 함수 리스트, 자연어 설명 등을 포함하여 모델 훈련에 최적화되었다. 비록 샘플 수는 적지만, 도메인 특화된 데이터는 모델이 실질적으로 유용한 코드를 생성할 수 있도록 돕는다.

BLEU+ 지표: 문법 넘어 기능까지 본다

기존 코드 생성 평가에서 사용되는 BLEU 점수는 텍스트 유사도를 기반으로 하지만, 이는 코드가 기능적으로 올바른지를 평가하기에는 한계가 있다. 이에 본 연구는 BLEU+라는 개선된 평가 지표를 도입했다. BLEU+는 변수 이름 변경, 불필요한 인자 생략 등 코드의 스타일적인 차이를 무시하고, 기능 수행의 정확성을 기준으로 점수를 부여함으로써 실제 코드 성능을 반영할 수 있도록 설계되었다.

실험 결과

제안된 모델은 기존 HEARTHSTONE 데이터셋에서 BLEU 81.4, Acc+ 62.1%라는 성능을 보이며 기존 CNN 기반 모델보다 높은 정확도를 보였다. 특히 AST2CVCode 데이터셋에서는 BLEU+가 92.0%로, 단순 유사도 이상의 성능을 입증했다. 이는 문법적 정확성뿐 아니라 실제 코드의 기능적 유효성까지 포괄하는 성능 평가의 필요성을 보여준다.

비판적 고찰

이 연구는 단순히 모델 구조의 우수함을 입증한 것을 넘어, 기능적으로 올바른 코드를 생성하기 위한 모델 평가 방법론까지 제안했다는 점에서 큰 의미가 있다. 특히 BLEU+의 도입은 향후 코드 생성 분야의 평가 기준 자체를 재정립할 가능성을 보여준다. 다만, AST2CVCode 데이터셋이 65개 샘플로 다소 적은 것은 제한점이며, 향후 더 많은 실전 코드 데이터를 통해 모델을 일반화할 필요가 있다.

개인적 통찰

개인적으로 인상 깊었던 부분은 CNN이라는 구조가 비전 처리뿐만 아니라 구조화된 코드 생성에서도 효과적일 수 있다는 점이었다. 이는 향후 CNN을 단순 이미지 처리에만 사용하는 것이 아니라, 복잡한 계층 구조를 가진 다양한 데이터 생성에도 활용할 수 있음을 시사한다. 또한 AST 구조를 활용함으로써 코드 문법을 보장하는 전략은, 텍스트 생성 모델이 '의미 없는 문법 오류'를 방지할 수 있는 좋은 방향이라 생각된다.

맺음말

이 연구는 소스코드 자동 생성이라는 고난도 작업에 대해, CNN 기반의 문법 예측과 AST 기반의 구조화된 출력 방식을 통해 실질적 성능 향상을 이뤄냈다. 특히 BLEU+ 지표의 도입은 코드 생성 모델의 평가 기준을 '텍스트 유사성'에서 '기능적 정확성'으로 한 단계 끌어올렸다는 점에서 주목할 만하다. 향후 연구에서는 트랜스포머와의 결합, 더 넓은 도메인에 대한 확장, 생성된 코드의 실제 디바이스 적용 등으로 연구가 이어질 수 있을 것이다.

출처논문 (APA 형식)

Alshehri, W., Kammoun Jarraya, S., & Allinjawi, A. (2025). New Deep Learning-Based Approach for Source Code Generation: Application to Computer Vision Systems. AI, 6(162). https://doi.org/10.3390/ai6070162