대형 언어 모델, 효율적인가? 정말 쓸모 있는가?

‘Evaluating Large Language Models’라는 제목 아래, 효율성(기어와 속도계), 응용 분야(문서와 말풍선), 미래 방향성(상승 화살표)을 나타내는 세 가지 원형 아이콘이 연결된 인포그래픽

대형 언어 모델을 평가하기 위한 세 가지 핵심 요소—효율성, 응용 분야, 미래 방향성—을 아이콘으로 시각화한 인포그래픽

지금까지의 연구를 한눈에 정리한 최초의 종합 리뷰

ChatGPT, GPT-4, BERT, LaMDA...

우리 일상에 깊숙이 들어온 대형 언어 모델(LLM, Large Language Models). 요즘은 누구나 한 번쯤 써봤을 이 기술이 과연 진짜 효율적이고 실용적인지, 그리고 어떤 분야에서 어떻게 쓰이고 있는지에 대해 과학적으로 검토한 논문이 나왔다.

아랍에미리트 샤르자 대학교 연구팀은 2019년부터 2023년까지 발표된 주요 논문 27편을 분석해, LLM의 적용 분야, 모델 종류, 하드웨어 자원, 성능 측정 방법 등을 체계적으로 정리했다. 이름하여 최초의 LLM 효율성 종합 리뷰다.

---

사용 분야부터 보자: 텍스트 생성이 대세!

연구팀은 먼저 각 논문에서 LLM이 실제로 어디에 쓰였는지를 살펴봤다. 그 결과, 가장 많이 쓰인 분야는 데이터 생성. 예를 들어 텍스트 요약, 코드 생성, 자연어 생성 등이다. 그 다음으로 많았던 건 프롬프트 기반 작업(prompt engineering)이었다. 입력을 잘 조정해서 모델의 출력을 조절하는 분야다.

기타로는 데이터 편집 및 제어, 데이터 예측 등이 있었다. 재밌는 점은 단순히 생성하는 것뿐만 아니라 입력 그 자체를 조절해 원하는 출력을 유도하는 기술이 학계에서 주목받고 있다는 점이다.

---

어떤 모델이 제일 많이 쓰였을까?

당연히 예상했겠지만, 가장 많이 쓰인 모델은 GPT-3였다. 27편 중 10편에서 사용됐고, 그 다음은 코딩에 특화된 Codex, 그 외에도 GPT-2, GPT-3.5, LaMDA, BERT, PaLM, T0, GPT-NeoX 등도 등장했다.

흥미로운 건 이들 중 59%는 오픈소스, 나머지 41%는 폐쇄형이었다는 점이다. 즉, 연구자들 다수가 자유롭게 사용할 수 있는 오픈소스 모델을 선호했지만, 여전히 상업적 API 기반 모델도 많이 쓰였다는 의미다.

---

성능은 어떻게 재야 할까? 분야마다 다르다

LLM이 다양하다 보니 평가 기준도 제각각이었다. 그래서 연구팀은 평가 지표를 여섯 가지 범주로 나눴다.

1. 번역 품질 지표 (BLEU 등)

2. 코드 분석 지표 (버그 수, 실행 시간, 코드 커버리지 등)

3. 자연어 처리 품질 (정확도, F1, METEOR 등)

4. 사용자 피드백 (성공률, 사용 편의성 등)

5. 모델 벤치마크 (GLUE, Perplexity 등)

6. 도메인 특화 지표 (의료, 법률 등에서의 리스크 분석 등)

이 중 가장 많은 논문이 사용한 지표는 코드 분석 관련 평가였다. 그만큼 코드 생성에 대한 관심이 높았다는 의미다.

---

그리고 하드웨어!… 공개된 자료는 의외로 적다

LLM의 효율성을 논할 때 빼놓을 수 없는 게 바로 하드웨어 요구사항이다. 그런데 정작 논문들 중 상당수는 **사용한 하드웨어를 명시하지 않았다!**

GPU 구성, RAM 용량, CPU 정보 등이 불명확하거나 누락된 경우가 많았다. 그럼에도 불구하고 몇몇 논문은 최대 8개의 고성능 GPU(NVIDIA RTX 8000 등)를 사용해 대형 모델을 돌린 경우도 있었다.

---

LLM의 과제: 단지 성능 문제가 아니다

이 논문이 특히 눈길을 끄는 이유는, 단순한 성능 비교가 아니라 LLM의 윤리적 이슈와 미래 방향성까지 다뤘기 때문이다.

* 편향 문제: 학습 데이터의 불균형이 모델 결과에 영향을 미칠 수 있음

* 프라이버시: 민감 정보가 포함된 데이터를 학습시키는 위험성

* 투명성 부족: 왜 그런 출력을 내는지 설명할 수 없는 ‘블랙박스’ 문제

* 접근성 격차: 자원이 부족한 연구자에게는 여전히 높은 진입장벽

---

결론: “효율성 + 윤리성”이 미래를 결정한다

이 논문은 단순히 LLM을 빠르고 똑똑하게 만드는 것뿐 아니라, 어떻게 윤리적이고 지속가능하게 활용할 수 있을지를 고민해야 한다고 강조한다.

또한 앞으로는 LLM의 효율성을 평가할 때 단순한 정확도나 속도 외에도 에너지 소비, 유지 비용, 학습 데이터 품질 같은 요소들을 함께 고려해야 한다고 제안한다.

---

출처 논문

Saleh Y, Abu Talib M, Nasir Q and Dakalbab F (2025) *Evaluating Large Language Models: A Systematic Review of Efficiency, Applications, and Future Directions*. Front. Comput. Sci. 7:1523699.