๐ค ์ฌ๊ณ ๋ณด๊ณ ์๋ ์ดํดํ๋ ์ธ๊ณต์ง๋ฅ? — ํ์ ๋ฌธ์ฅ์ ๋ชจ๋ ์ฝ๋ GPT์ ํ
์์ง์ ์ด๋ฏธ์ง: ๊ต์ฐจ๋ก ํ๊ฐ์ด๋ฐ ๋ ์๋ AI ํ๋ธ — ์ซ์์ ๋ฌธ์ฅ์ด ํตํฉ๋์ด ‘ํต์ฐฐ’์ด๋ผ๋ ๋น์ ์์ฑํ๋ ์ฅ๋ฉด. |
์๋ง์ ๊ตํต์ฌ๊ณ ๋ฐ์ดํฐ, ๊ทธ์ค ์ผ๋ถ๋ ์ซ์์ด๊ณ ์ผ๋ถ๋ ๊ธ์ด๋ค. ๊ทธ๋ฐ๋ฐ ์ง๊ธ๊น์ง์ ๋ถ์์ ์ด ๋ ์ค ํ๋์๋ง ์ง์คํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ค. ํ์ ๋ด๊ธด ์ซ์๋ง ๋ณด๊ณ ํ๋จํ๊ฑฐ๋, ์์ ๋ ๋ฌธ์ฅ๋ง ์ฝ๊ณ ์ฌ๊ณ ๋ฅผ ํด์ํ ๊ฒ์ด๋ค. ์ ๋ง ๊ทธ๊ฒ ์ ๋ถ์ผ๊น?
ํ ์ฐ๊ตฌํ์ ์ ํ ๋ค๋ฅธ ์ ๊ทผ์ ์๋ํ๋ค. ํ ํํ์ ์ ํ ๋ฐ์ดํฐ์ ์์ ํ ์ฌ๊ณ ๋ณด๊ณ ์๋ฅผ ํ๋๋ก ํฉ์ณ ์ธ๊ณต์ง๋ฅ์๊ฒ ์ฝํ๋ ๋ฐฉ์์ด๋ค. ๊ทธ๋ฆฌ๊ณ GPT-2๋ถํฐ GPT-4.5๊น์ง, ๋ค์ํ ์ธ๋์ ๋ํ ์ธ์ด ๋ชจ๋ธ(Large Language Model, LLM)์ ํ์ฉํด ์ด ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ค. ๋๋ผ์ด ๊ฑด, ์ฌ๋์ด ๋ผ๋ฒจ๋งํ์ง ์์๋ AI๊ฐ ‘๊ณผ์ค ์ฌ๋ถ’, ‘์ด์ ์์ ํ๋’, ‘์ฌ๊ณ ์์ธ’๊น์ง ์ถ๋ก ํ ์ ์์๋ค๋ ์ ์ด๋ค. ์ด ๊ธฐ์ ์ด ๋น์ ์ ๋์ ๊ตํต ์์คํ ์ ์ด๋ป๊ฒ ๋ฐ๊ฟ ์ ์์์ง ๊ถ๊ธํ๋ค๋ฉด ๊ณ์ ์ฝ์ด๋ณด์.
---
```
์๋ฌธ: ํ ํ์๊ณผ ํ ์คํธ ๋ฐ์ดํฐ ์ตํฉ์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ํ์ต: GPT ๋ชจ๋ธ์ ์ ๋ก์ท, ํจ์ท, ํ์ธํ๋ ์ ๊ทผ (Multimodal Data Fusion for Tabular and Textual Data: Zero-Shot, Few-Shot, and Fine-Tuning of Generative Pre-Trained Transformer Models) (CC BY 4.0)
์ ์: Shadi Jaradat ์ธ 5๋ช (Queensland University of Technology, Columbia University ๋ฑ)
์ถํ์ผ: 2025๋ 4์ 7์ผ
์ ๋: AI (MDPI)
```
---
## ๐งฉ ์ซ์์ ๋ฌธ์ฅ์ ํ ๋ฒ์ ๋ค๋ฃจ๋ ‘๋ฉํฐ๋ชจ๋ฌ ์ตํฉ(MDF)’
์ด ์ฐ๊ตฌ์ ํต์ฌ์ MDF(Multimodal Data Fusion) ํ๋ ์์ํฌ๋ค. ์ฌ๊ณ ๋ฐ์ ์๊ฐ, ๋๋ก ์ํ, ์ฐจ๋ ์ข ๋ฅ ๋ฑ์ ์ ํ ๋ฐ์ดํฐ(tabular data)๋ฅผ ์์ฐ์ด๋ก ๋ณํํด, ์ฌ๊ณ ๋น์ ์ํฉ์ ์์ ํ ๋น์ ํ ์์ ํ ๋ฐ์ดํฐ(textual narratives)์ ํฉ์ณ์ ๋ถ์ํ๋ ๋ฐฉ์์ด๋ค.
์๋ฅผ ๋ค์ด "์๋ = 50mph"๋ "์์ 50๋ง์ผ๋ก ์ฃผํ ์ค"์ผ๋ก, "๋ ธ๋ฉด ์ํ = ์ ์(wet)"์ "๋๋ก๊ฐ ์ ์ด ์์๋ค"๋ก ๋ณํ๋๋ค. ์ด๋ ๊ฒ ํฉ์ณ์ง ๋ฐ์ดํฐ๋ฅผ GPT์๊ฒ ์ ๋ ฅํ๋ฉด, AI๋ ๋ง์น ์ฌ๋์ฒ๋ผ ์ ์ฒด ์ํฉ์ ‘์ฝ๊ณ ’, ์ฌ๊ณ ์ ์์ธ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ก ํ ์ ์๊ฒ ๋๋ค.
---
## ๐ง GPT-4.5์ ํจ์ท ํ์ต, ์ฌ๋ ๋ชป์ง์์ ๋ถ๋ฅ ๋ฅ๋ ฅ
์ฐ๊ตฌ์ง์ ๋ค์ํ ํ์ต ๋ฐฉ๋ฒ์ ๋น๊ตํ๋ค. ์ ๋ก์ท(zero-shot), ํจ์ท(few-shot), ํ์ธํ๋(fine-tuning) ์ธ ๊ฐ์ง ์ ๋ต์ ์ ์ฉํด ์ฑ๋ฅ์ ๋น๊ตํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์๋ค:
- ์ฌ๊ณ ์ฌ๊ฐ๋ ๋ถ๋ฅ: GPT-4.5 ํจ์ท ํ์ต์ผ๋ก 98.9% ์ ํ๋
- ์ด์ ์ ๊ณผ์ค ์ฌ๋ถ ํ๋จ: GPT-4.5 ํจ์ท์ผ๋ก 98.1% ์ ํ๋
- ์ฌ๊ณ ์์ธ ์ถ์ถ(Jaccard ์ ์): GPT-4.5 ํจ์ท 82.9%
- ์ด์ ์ ํ๋ ์ถ์ถ(Jaccard ์ ์): GPT-4.5 ํจ์ท 73.1%
GPT-2 ๋ชจ๋ธ์ ํ์ธํ๋ ํ์๋ ์ด๋ณด๋ค ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, GPT-3.5 ์ญ์ GPT-4.5์ ๋นํด ๋ฏธ์ธํ ์ฐจ์ด๋ฅผ ๋ณด์๋ค. ํฅ๋ฏธ๋ก์ด ์ ์, ๋๋ฉ์ธ ํนํ ๋ฐ์ดํฐ๋ก ํ์ธํ๋๋ GPT-2๊ฐ GPT-4.5์ ๊ฑฐ์ ๊ทผ์ ํ๋ ์ฑ๋ฅ์ ๋ณด์๋ค๋ ์ ์ด๋ค.
---
์ ํ ๋ฐ์ดํฐ์ ์์ ๋ฐ์ดํฐ๋ฅผ AI์ ์ ๋ ฅํ๋ฉด ๋ผ๋ฒจ์ด ์ถ๋ ฅ๋๋ MDF ํ์ดํ๋ผ์ธ ์๊ฐํ. |
## ๐ ๋จ์ผ ๋ฐ์ดํฐ๋ณด๋ค ‘ํผํฉ’์ด ๋ ๋๋ํ๋ค
์คํ์ ๋จ์ํ ๋ฐ์ดํฐ ๋ถ์์ด ์๋, ์ธ ๊ฐ์ง ์กฐ๊ฑด์ ๋น๊ตํ๋ ๋ฐฉ์์ผ๋ก ์งํ๋๋ค:
1. ์ ํ ๋ฐ์ดํฐ๋ง ์ฌ์ฉ
2. ํ ์คํธ๋ง ์ฌ์ฉ
3. ์ ํ+ํ ์คํธ๋ฅผ ์ตํฉํด์ ์ฌ์ฉ
๊ทธ ๊ฒฐ๊ณผ๋ ์์๋๋ก ํผํฉ ๋ฐ์ดํฐ(MDF)๊ฐ ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค. ์๋ฅผ ๋ค์ด ์ด์ ์ ๊ณผ์ค ์ฌ๋ถ ๋ถ๋ฅ ์คํ์์๋ ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋์๋ค:
- MDF ๋ชจ๋ธ ์ ํ๋: 90%, F1-score: 94%
- ํ ์คํธ๋ง ์ฌ์ฉ: ์ ํ๋ 88%
- ์ ํ ๋ฐ์ดํฐ๋ง ์ฌ์ฉ: ์ ํ๋ 84%
์ฆ, ์ซ์์ ๋ฌธ์ฅ์ ๊ฐ์ด ๋ค๋ฃจ๋ ๊ฒ์ด ‘๋ ๋๋ํ’ ํ๋จ์ผ๋ก ์ด์ด์ง๋ค๋ ๊ฒ์ด๋ค.
---
## ๐งฌ ์ฌ๊ณ ๋ถ์์ ์๋ก์ด ๋ฏธ๋
์ด ๋ ผ๋ฌธ์ด ์ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๋จ์ํ ๊ตํต์ฌ๊ณ ๋ถ์์ ๊ตญํ๋์ง ์๋๋ค. ์๋ฃ, ๊ธ์ต, ์ฌ๋ ๋์ ๋ฑ ์ ํ+๋น์ ํ ๋ฐ์ดํฐ๊ฐ ๊ณต์กดํ๋ ๋ชจ๋ ๋ถ์ผ์ ์ ์ฉ๋ ์ ์๋ค.
๋ํ GPT-4์ ํจ์ท ํ์ต ๋ฅ๋ ฅ์ ๊ธฐ์กด์ ์์์ ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง ๊ณผ์ ์ ๋์ฒดํ๊ฑฐ๋ ๋ณด์ํ ์ ์๋ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋ค. ํนํ ๋ผ๋ฒจ์ด ๋ถ์กฑํ๊ฑฐ๋ ์ป๊ธฐ ์ด๋ ค์ด ๋ถ์ผ์์๋ ์์ฒญ๋ ์๊ฐ๊ณผ ๋น์ฉ ์ ๊ฐ์ด ๊ฐ๋ฅํ๋ค.
---
## ๐ ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์๋ ํ๊ณ๋ ์๋ค
๋ฌผ๋ก ๋ชจ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ง๋ฅ ์ด์ ๋ ์๋๋ค. ์๋ฅผ ๋ค์ด GPT ๋ชจ๋ธ์ ์ฌ์ ํ ๊ธด ์ ๋ ฅ ์ ํ, ์ ์ฌ์ ํ๊ฐ(hallucination), ์ค๋ถ๋ฅ ๊ฐ๋ฅ์ฑ ๋ฑ์ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค. ๋ ๋ณธ ์ฐ๊ตฌ์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ ํน์ ์ฃผ(state)์ ์ฌ๊ณ ๋ณด๊ณ ์์ ํ์ ๋ผ ์์ด, ์ผ๋ฐํ์๋ ์ฃผ์๊ฐ ํ์ํ๋ค.
---
#GPT4๊ตํต์ฌ๊ณ ๋ถ์, #๋ฉํฐ๋ชจ๋ฌ๋ฐ์ดํฐ์ตํฉ, #์ ๋ก์ทํจ์ทํ์ต, #์ด์ ์๊ณผ์ค์์ธก, #์ฌ๊ณ ๋ณด๊ณ ์AI๋ถ์