굴삭기도 똑똑해진다?! AI가 건설 현장을 이해하는 법

건설 현장에선 매일 수많은 일이 벌어진다. 크레인이 철근을 옮기고, 굴삭기는 땅을 파고, 작업자들은 분주하게 움직인다. 그런데 이런 복잡한 현장을 AI가 이해하고 조종할 수 있다면 어떨까?

누군가는 말했을지도 모른다. “AI가 사람 얼굴은 알아도, 굴삭기 옆에 있는 돌덩이까지 구분하진 못하잖아?” 하지만 그게 이제는 가능해졌다. 그것도 비싼 슈퍼컴퓨터 없이, 일반 소비자용 컴퓨터에서도 말이다!

이번에 한국 연구팀이 발표한 논문은 바로 그런 획기적인 기술을 다루고 있다. 똑똑한 인공지능 모델이 실제 건설 장면을 보고, 사람과 장애물은 물론 날씨까지 구분하는 방법을 제시한 것. 건설 현장의 ‘눈’이 되어줄 이 기술은 안전과 효율, 두 마리 토끼를 잡을 수 있게 해준다.

AI가 현장을 읽는 눈을 갖게 하려면?

요즘 인공지능(AI)은 그림도 보고, 글도 읽고, 영상도 분석할 수 있다. 이런 AI를 ‘대형 비전-언어 모델’(LVLM)이라고 부른다. 문제는 이 모델들이 너무 커서 운영하려면 엄청난 컴퓨터 자원이 필요하다는 점이다.

건설 현장에서 이런 AI를 쓰고 싶어도, VRAM 24GB 정도의 일반 GPU로는 무리라고 여겨졌던 게 현실이다. 게다가, 건설 현장 사진은 다양하고 복잡해서 데이터 수집과 라벨링에도 시간이 많이 든다.

그래서 연구팀은 새로운 방법을 고안했다. 바로 ‘적은 데이터와 자원으로도 AI를 똑똑하게 만드는’ 방법이다.

핵심은 ‘적게 먹고 잘 뛰는’ AI 만들기

연구팀은 총 5가지 최신 AI 모델을 테스트했다: Llama-3.2-Vision, Qwen2-VL, Qwen2.5-VL, LLaVA-1.6, 그리고 Gemma 3. 각각은 이미지와 텍스트를 함께 이해할 수 있는 모델이다.

하지만 그냥 사용하면 메모리도 많이 먹고 느리다. 그래서 ‘Unsloth’와 ‘QLoRA’라는 기술을 써서 가볍고 빠르게 튜닝했다. 마치 덩치는 크지만 다이어트를 해 스피드도 좋아진 선수처럼 만든 것이다.

Unsloth는 튜닝 속도를 두 배 빠르게 해주고,
QLoRA는 필요한 메모리 용량을 줄여준다.
결과적으로 고성능 GPU가 없어도 AI를 현장에 맞게 훈련시킬 수 있게 된 것이다!

실제로 얼마나 똑똑해졌을까?

연구에 사용된 데이터는 AI-Hub에서 제공한 굴삭기 시점의 이미지 3,000장. 이 중 1,000장은 학습용으로, 2,000장은 테스트용으로 썼다. 모델은 사람과 장애물을 찾아내고, 날씨(맑음, 흐림, 비)도 구분해야 했다.

그 결과?

가장 성능이 좋았던 모델은 Qwen2-VL-7B였고, 다음과 같은 결과를 보여줬다.

사람/장애물 탐지 정확도(mAP@50): 88.03%
더 엄격한 기준의 탐지 정확도(mAP@[0.50:0.95]): 74.20%
날씨 분류 정확도: 84.54%
F1 점수(균형된 성능 지표): 78.83%

놀라운 건, 이 모든 게 단 1,000장의 이미지와 한 대의 일반 GPU로 가능했다는 사실이다!

이게 왜 중요할까?

사람이 없는 건설 현장, 그러니까 자율주행 굴삭기가 활약하려면 먼저 ‘보고 이해하는 능력’이 있어야 한다. 누가 있는지, 장애물이 뭔지, 지금 날씨가 어떤지를 알아야 안전하게 작업할 수 있다.

이 논문에서 제시한 방식은 단순히 성능만 좋은 게 아니다. 현실적으로도 쓸 수 있게 만들었다.

소비자용 장비로도 학습과 실행이 가능하고,
적은 데이터만으로도 뛰어난 성능을 낼 수 있다.

앞으로 이 기술이 더 발전하면, 건설뿐 아니라 농업, 재난 구조, 우주 탐사 등에서도 널리 쓰일 수 있다.

지금은 굴삭기, 다음은 어디일까?

이제 AI는 단순히 ‘사람 얼굴을 알아보는’ 수준을 넘어서, 현장 전체를 읽고 판단하는 존재로 진화하고 있다. 특히 이번 연구처럼 실제 사용을 염두에 둔 가볍고 효율적인 접근법은, 많은 산업에 새로운 가능성을 열어준다.

다음 번에는 자율 굴삭기가 아닌, 자율 트럭이나 자율 크레인에도 이 기술이 적용될지도 모른다. 아니면, 우리가 상상도 못한 완전히 새로운 로봇 작업자가 등장할 수도 있다.

기술은 빠르다. 그리고 이제는 더 똑똑하면서도 가벼운 기술이 미래를 이끌어갈 것이다.

출처

Nguyen, H. V., Park, H., Yoo, N., & Yang, J. (2025). Resource-efficient fine-tuning of large vision-language models for multimodal perception in autonomous excavators. Frontiers in Artificial Intelligence, 8, 1681277. https://doi.org/10.3389/frai.2025.1681277