๐Ÿค– ์‚ฌ๊ณ  ๋ณด๊ณ ์„œ๋„ ์ดํ•ดํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ? — ํ‘œ์™€ ๋ฌธ์žฅ์„ ๋ชจ๋‘ ์ฝ๋Š” GPT์˜ ํž˜

 

 ์ƒ์ง•์  ์ด๋ฏธ์ง€: ๊ต์ฐจ๋กœ ํ•œ๊ฐ€์šด๋ฐ ๋–  ์žˆ๋Š” AI ํ๋ธŒ — ์ˆซ์ž์™€ ๋ฌธ์žฅ์ด ํ†ตํ•ฉ๋˜์–ด ‘ํ†ต์ฐฐ’์ด๋ผ๋Š” ๋น›์„ ์ƒ์„ฑํ•˜๋Š” ์žฅ๋ฉด.


์ˆ˜๋งŽ์€ ๊ตํ†ต์‚ฌ๊ณ  ๋ฐ์ดํ„ฐ, ๊ทธ์ค‘ ์ผ๋ถ€๋Š” ์ˆซ์ž์ด๊ณ  ์ผ๋ถ€๋Š” ๊ธ€์ด๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์ง€๊ธˆ๊นŒ์ง€์˜ ๋ถ„์„์€ ์ด ๋‘˜ ์ค‘ ํ•˜๋‚˜์—๋งŒ ์ง‘์ค‘ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜๋‹ค. ํ‘œ์— ๋‹ด๊ธด ์ˆซ์ž๋งŒ ๋ณด๊ณ  ํŒ๋‹จํ•˜๊ฑฐ๋‚˜, ์„œ์ˆ ๋œ ๋ฌธ์žฅ๋งŒ ์ฝ๊ณ  ์‚ฌ๊ณ ๋ฅผ ํ•ด์„ํ•œ ๊ฒƒ์ด๋‹ค. ์ •๋ง ๊ทธ๊ฒŒ ์ „๋ถ€์ผ๊นŒ?


ํ•œ ์—ฐ๊ตฌํŒ€์€ ์ „ํ˜€ ๋‹ค๋ฅธ ์ ‘๊ทผ์„ ์‹œ๋„ํ–ˆ๋‹ค. ํ‘œ ํ˜•ํƒœ์˜ ์ •ํ˜• ๋ฐ์ดํ„ฐ์™€ ์„œ์ˆ ํ˜• ์‚ฌ๊ณ  ๋ณด๊ณ ์„œ๋ฅผ ํ•˜๋‚˜๋กœ ํ•ฉ์ณ ์ธ๊ณต์ง€๋Šฅ์—๊ฒŒ ์ฝํžˆ๋Š” ๋ฐฉ์‹์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  GPT-2๋ถ€ํ„ฐ GPT-4.5๊นŒ์ง€, ๋‹ค์–‘ํ•œ ์„ธ๋Œ€์˜ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(Large Language Model, LLM)์„ ํ™œ์šฉํ•ด ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ–ˆ๋‹ค. ๋†€๋ผ์šด ๊ฑด, ์‚ฌ๋žŒ์ด ๋ผ๋ฒจ๋งํ•˜์ง€ ์•Š์•„๋„ AI๊ฐ€ ‘๊ณผ์‹ค ์—ฌ๋ถ€’, ‘์šด์ „์ž์˜ ํ–‰๋™’, ‘์‚ฌ๊ณ  ์›์ธ’๊นŒ์ง€ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๋Š” ์ ์ด๋‹ค. ์ด ๊ธฐ์ˆ ์ด ๋‹น์‹ ์˜ ๋„์‹œ ๊ตํ†ต ์‹œ์Šคํ…œ์„ ์–ด๋–ป๊ฒŒ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ์„์ง€ ๊ถ๊ธˆํ•˜๋‹ค๋ฉด ๊ณ„์† ์ฝ์–ด๋ณด์ž.


---


```

์›๋ฌธ: ํ‘œ ํ˜•์‹๊ณผ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ์œตํ•ฉ์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต: GPT ๋ชจ๋ธ์˜ ์ œ๋กœ์ƒท, ํ“จ์ƒท, ํŒŒ์ธํŠœ๋‹ ์ ‘๊ทผ (Multimodal Data Fusion for Tabular and Textual Data: Zero-Shot, Few-Shot, and Fine-Tuning of Generative Pre-Trained Transformer Models) (CC BY 4.0)

์ €์ž: Shadi Jaradat ์™ธ 5๋ช… (Queensland University of Technology, Columbia University ๋“ฑ)

์ถœํŒ์ผ: 2025๋…„ 4์›” 7์ผ

์ €๋„: AI (MDPI)

```


---


## ๐Ÿงฉ ์ˆซ์ž์™€ ๋ฌธ์žฅ์„ ํ•œ ๋ฒˆ์— ๋‹ค๋ฃจ๋Š” ‘๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์œตํ•ฉ(MDF)’


์ด ์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ์€ MDF(Multimodal Data Fusion) ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค. ์‚ฌ๊ณ  ๋ฐœ์ƒ ์‹œ๊ฐ„, ๋„๋กœ ์ƒํƒœ, ์ฐจ๋Ÿ‰ ์ข…๋ฅ˜ ๋“ฑ์˜ ์ •ํ˜• ๋ฐ์ดํ„ฐ(tabular data)๋ฅผ ์ž์—ฐ์–ด๋กœ ๋ณ€ํ™˜ํ•ด, ์‚ฌ๊ณ  ๋‹น์‹œ ์ƒํ™ฉ์„ ์„œ์ˆ ํ•œ ๋น„์ •ํ˜• ์„œ์ˆ ํ˜• ๋ฐ์ดํ„ฐ(textual narratives)์™€ ํ•ฉ์ณ์„œ ๋ถ„์„ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.


์˜ˆ๋ฅผ ๋“ค์–ด "์†๋„ = 50mph"๋Š” "์‹œ์† 50๋งˆ์ผ๋กœ ์ฃผํ–‰ ์ค‘"์œผ๋กœ, "๋…ธ๋ฉด ์ƒํƒœ = ์ –์Œ(wet)"์€ "๋„๋กœ๊ฐ€ ์ –์–ด ์žˆ์—ˆ๋‹ค"๋กœ ๋ณ€ํ™˜๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•ฉ์ณ์ง„ ๋ฐ์ดํ„ฐ๋ฅผ GPT์—๊ฒŒ ์ž…๋ ฅํ•˜๋ฉด, AI๋Š” ๋งˆ์น˜ ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์ „์ฒด ์ƒํ™ฉ์„ ‘์ฝ๊ณ ’, ์‚ฌ๊ณ ์˜ ์›์ธ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.


---


## ๐Ÿง  GPT-4.5์˜ ํ“จ์ƒท ํ•™์Šต, ์‚ฌ๋žŒ ๋ชป์ง€์•Š์€ ๋ถ„๋ฅ˜ ๋Šฅ๋ ฅ


์—ฐ๊ตฌ์ง„์€ ๋‹ค์–‘ํ•œ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ๋น„๊ตํ–ˆ๋‹ค. ์ œ๋กœ์ƒท(zero-shot), ํ“จ์ƒท(few-shot), ํŒŒ์ธํŠœ๋‹(fine-tuning) ์„ธ ๊ฐ€์ง€ ์ „๋žต์„ ์ ์šฉํ•ด ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์•˜๋‹ค:


- ์‚ฌ๊ณ  ์‹ฌ๊ฐ๋„ ๋ถ„๋ฅ˜: GPT-4.5 ํ“จ์ƒท ํ•™์Šต์œผ๋กœ 98.9% ์ •ํ™•๋„

- ์šด์ „์ž ๊ณผ์‹ค ์—ฌ๋ถ€ ํŒ๋‹จ: GPT-4.5 ํ“จ์ƒท์œผ๋กœ 98.1% ์ •ํ™•๋„

- ์‚ฌ๊ณ  ์š”์ธ ์ถ”์ถœ(Jaccard ์ ์ˆ˜): GPT-4.5 ํ“จ์ƒท 82.9%

- ์šด์ „์ž ํ–‰๋™ ์ถ”์ถœ(Jaccard ์ ์ˆ˜): GPT-4.5 ํ“จ์ƒท 73.1%


GPT-2 ๋ชจ๋ธ์€ ํŒŒ์ธํŠœ๋‹ ํ›„์—๋„ ์ด๋ณด๋‹ค ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, GPT-3.5 ์—ญ์‹œ GPT-4.5์— ๋น„ํ•ด ๋ฏธ์„ธํ•œ ์ฐจ์ด๋ฅผ ๋ณด์˜€๋‹ค. ํฅ๋ฏธ๋กœ์šด ์ ์€, ๋„๋ฉ”์ธ ํŠนํ™” ๋ฐ์ดํ„ฐ๋กœ ํŒŒ์ธํŠœ๋‹๋œ GPT-2๊ฐ€ GPT-4.5์— ๊ฑฐ์˜ ๊ทผ์ ‘ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค๋Š” ์ ์ด๋‹ค.


---

์ •ํ˜• ๋ฐ์ดํ„ฐ์™€ ์„œ์ˆ  ๋ฐ์ดํ„ฐ๋ฅผ AI์— ์ž…๋ ฅํ•˜๋ฉด ๋ผ๋ฒจ์ด ์ถœ๋ ฅ๋˜๋Š” MDF ํŒŒ์ดํ”„๋ผ์ธ ์‹œ๊ฐํ™”.


## ๐Ÿ“Š ๋‹จ์ผ ๋ฐ์ดํ„ฐ๋ณด๋‹ค ‘ํ˜ผํ•ฉ’์ด ๋” ๋˜‘๋˜‘ํ•˜๋‹ค


์‹คํ—˜์€ ๋‹จ์ˆœํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„์ด ์•„๋‹Œ, ์„ธ ๊ฐ€์ง€ ์กฐ๊ฑด์„ ๋น„๊ตํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰๋๋‹ค:


1. ์ •ํ˜• ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉ

2. ํ…์ŠคํŠธ๋งŒ ์‚ฌ์šฉ

3. ์ •ํ˜•+ํ…์ŠคํŠธ๋ฅผ ์œตํ•ฉํ•ด์„œ ์‚ฌ์šฉ


๊ทธ ๊ฒฐ๊ณผ๋Š” ์˜ˆ์ƒ๋Œ€๋กœ ํ˜ผํ•ฉ ๋ฐ์ดํ„ฐ(MDF)๊ฐ€ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์šด์ „์ž ๊ณผ์‹ค ์—ฌ๋ถ€ ๋ถ„๋ฅ˜ ์‹คํ—˜์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”๋‹ค:


- MDF ๋ชจ๋ธ ์ •ํ™•๋„: 90%, F1-score: 94%

- ํ…์ŠคํŠธ๋งŒ ์‚ฌ์šฉ: ์ •ํ™•๋„ 88%

- ์ •ํ˜• ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉ: ์ •ํ™•๋„ 84%


์ฆ‰, ์ˆซ์ž์™€ ๋ฌธ์žฅ์„ ๊ฐ™์ด ๋‹ค๋ฃจ๋Š” ๊ฒƒ์ด ‘๋” ๋˜‘๋˜‘ํ•œ’ ํŒ๋‹จ์œผ๋กœ ์ด์–ด์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.


---


## ๐Ÿงฌ ์‚ฌ๊ณ  ๋ถ„์„์˜ ์ƒˆ๋กœ์šด ๋ฏธ๋ž˜


์ด ๋…ผ๋ฌธ์ด ์ œ์‹œํ•œ ๋ฐฉ๋ฒ•๋ก ์€ ๋‹จ์ˆœํžˆ ๊ตํ†ต์‚ฌ๊ณ  ๋ถ„์„์— ๊ตญํ•œ๋˜์ง€ ์•Š๋Š”๋‹ค. ์˜๋ฃŒ, ๊ธˆ์œต, ์žฌ๋‚œ ๋Œ€์‘ ๋“ฑ ์ •ํ˜•+๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณต์กดํ•˜๋Š” ๋ชจ๋“  ๋ถ„์•ผ์— ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.


๋˜ํ•œ GPT-4์˜ ํ“จ์ƒท ํ•™์Šต ๋Šฅ๋ ฅ์€ ๊ธฐ์กด์˜ ์ˆ˜์ž‘์—… ๋ฐ์ดํ„ฐ ๋ผ๋ฒจ๋ง ๊ณผ์ •์„ ๋Œ€์ฒดํ•˜๊ฑฐ๋‚˜ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ํŠนํžˆ ๋ผ๋ฒจ์ด ๋ถ€์กฑํ•˜๊ฑฐ๋‚˜ ์–ป๊ธฐ ์–ด๋ ค์šด ๋ถ„์•ผ์—์„œ๋Š” ์—„์ฒญ๋‚œ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ ์ ˆ๊ฐ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.


---


## ๐Ÿ” ํ•˜์ง€๋งŒ ์ด ๋ฐฉ๋ฒ•์—๋„ ํ•œ๊ณ„๋Š” ์žˆ๋‹ค


๋ฌผ๋ก  ๋ชจ๋“  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋งŒ๋Šฅ ์—ด์‡ ๋Š” ์•„๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด GPT ๋ชจ๋ธ์€ ์—ฌ์ „ํžˆ ๊ธด ์ž…๋ ฅ ์ œํ•œ, ์ž ์žฌ์  ํ™˜๊ฐ(hallucination), ์˜ค๋ถ„๋ฅ˜ ๊ฐ€๋Šฅ์„ฑ ๋“ฑ์˜ ๋‹จ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ๋˜ ๋ณธ ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ๋Š” ํŠน์ • ์ฃผ(state)์˜ ์‚ฌ๊ณ  ๋ณด๊ณ ์„œ์— ํ•œ์ •๋ผ ์žˆ์–ด, ์ผ๋ฐ˜ํ™”์—๋Š” ์ฃผ์˜๊ฐ€ ํ•„์š”ํ•˜๋‹ค.


---



#GPT4๊ตํ†ต์‚ฌ๊ณ ๋ถ„์„, #๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ๋ฐ์ดํ„ฐ์œตํ•ฉ, #์ œ๋กœ์ƒทํ“จ์ƒทํ•™์Šต, #์šด์ „์ž๊ณผ์‹ค์˜ˆ์ธก, #์‚ฌ๊ณ ๋ณด๊ณ ์„œAI๋ถ„์„