Intro

<aside> ๐Ÿ”ฅ

Agent์˜ ๋‡Œ ๋ถ€๋ถ„์„ ๋‹ด๋‹นํ•˜๋Š” LLM ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ ์ข€๋” ์•Œ์•„๋ด…์‹œ๋‹ค.

</aside>

LLM์€ ์ด๋ฏธ ์•„๋Š” ์‚ฌ๋žŒ๋“ค๋„ ๋งŽ๊ณ  ๋ชจ๋“  ๊ฒƒ๋“ค์€ ์ด ์žฅ์— ๋‹ค ๋‹ด์„ ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ์ž์„ธํžˆ ์•Œ๊ณ  ์‹ถ์œผ์‹œ๋‹ค๋ฉด https://huggingface.co/learn/nlp-course/chapter1/1๋ฅผ ์ฐธ๊ณ ํ•ด์ฃผ์‹œ๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค!

Body

1. LLM(Large Language Model)์ด๋ž€?

1.1. LLM์˜ Architecture

LLM์€ ์‚ฌ๋žŒ์˜ ์–ธ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋งํ•  ์ˆ˜ ์žˆ๋Š” AI model์˜ ํ•œ ์ข…๋ฅ˜์ž…๋‹ˆ๋‹ค. Large๊ฐ€ ๋ถ™์€ ๋งŒํผ, ๋Œ€๊ทœ๋ชจ์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์–ธ์–ด์˜ ํŒจํ„ด, ๊ตฌ์กฐ, ์‹ฌ์ง€์–ด๋Š” ๋‰˜์•™์Šค๊นŒ์ง€ ํ•™์Šตํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์€ ์ˆ˜์–ต์›์˜ ํŒŒ๋ผ๋ฏธํ„ฐ(parameters)๋กœ ๊ตฌ์„ฑ์ด ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋Œ€๋ถ€๋ถ„์˜ LLM์€ Transformer architecture ๊ตฌ์กฐ๋ฅผ ๋”ฐ๋ฅด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, Transformer๋Š” Attention ์ด๋ผ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๊ณ , 2018๋…„ ๊ตฌ๊ธ€์—์„œ ๋ฐœํ‘œํ•œ BERT ๋…ผ๋ฌธ์—์„œ ํŠนํžˆ ๊ฐ๊ด‘๋ฐ›์•˜์Šต๋‹ˆ๋‹ค.

Transformer Architecture (์ถœ์ฒ˜ : โ€ฃ)

Transformer Architecture (์ถœ์ฒ˜ : โ€ฃ)

1.2. Transformer์˜ ์ข…๋ฅ˜

Transformer์€ ํฌ๊ฒŒ 2๊ฐ€์ง€ ๋ชจ๋“ˆ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

  1. encoder : text๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๊ณ  ์ž„๋ฒ ๋”ฉ(dense representation or dense embeddings)์„ output์œผ๋กœ ํ•˜๋Š” ๋ชจ๋“ˆ
  2. decoder : encoder์˜ ์ž„๋ฒ ๋”ฉ ํ˜น์€ text๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๊ณ  text๋ฅผ output์œผ๋กœ ํ•˜๋Š” ๋ชจ๋“ˆ

๋‘๊ฐ€์ง€ ๋ชจ๋“ˆ์„ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉํ•˜๋А๋ƒ์— ๋”ฐ๋ผ 3๊ฐ€์ง€๋กœ ๋‚˜๋‰  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. only-encoder: encoder ๋ชจ๋“ˆ๋งŒ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    1. ๋Œ€ํ‘œ์ ์ธ ๋ชจ๋ธ : BERT
    2. task : Text classification, semantci search, Named Entity Recognition
    3. ๋Œ€๋žต์ ์ธ ์‚ฌ์ด์ฆˆ : M ๋‹จ์œ„์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์‚ฌ์ด์ฆˆ
  2. only-decoder : decoder ๋ชจ๋“ˆ๋งŒ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    1. ๋Œ€ํ‘œ์ ์ธ ๋ชจ๋ธ : Chat-GPT(OpenAI GPTs), Llama, Gemma
    2. task : Text generation, chatbots, code generation
    3. ๋Œ€๋žต์ ์ธ ์‚ฌ์ด์ฆˆ : B ๋‹จ์œ„์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์‚ฌ์ด์ฆˆ
  3. encoder-decoder(Seq2Seq) : encoder ๋ฐ decoder ๋ชจ๋“ˆ ๋‘˜๋‹ค ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
    1. ๋Œ€ํ‘œ์ ์ธ ๋ชจ๋ธ : BART, T5
    2. task : Translation, Summarization, Paraphrasing
    3. ๋Œ€๋žต์ ์ธ ์‚ฌ์ด์ฆˆ : M ๋‹จ์œ„์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์‚ฌ์ด์ฆˆ

<aside> โš ๏ธ

์ฃผ์˜ํ•  ์ ์€ ๊ฐ task๊ฐ€ ๋ช…ํ™•ํžˆ ๋‚˜๋‰˜์–ด์ ธ ์žˆ๋Š” ๊ฒƒ์ด ์•„๋‹™๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, encoder-decoder ๋ชจ๋ธ์ด Translation์„ ํ•œ๋‹ค๊ณ  ํ•ด์„œ only-decoder ๋ชจ๋ธ์ด Translation์„ ๋ชปํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹™๋‹ˆ๋‹ค(์˜คํžˆ๋ ค decoder ๋ชจ๋ธ์ธ LLM์ด ํ›จ์”ฌ ์ž˜ํ•ฉ๋‹ˆ๋‹ค).

</aside>

1.3. LLM์˜ ๋Œ€ํ‘œ์ ์ธ ๋ชจ๋ธ

LLM์€ only-decoder ๋ชจ๋ธ์„ base๋กœ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. only-decoder ๋ชจ๋ธ์— ๋Œ€๊ทœ๋ชจ์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์‹œํ‚จ ๊ฒƒ์ด LLM์ž…๋‹ˆ๋‹ค.

๋Œ€ํ‘œ์ ์ธ LLM ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

Model Provider
Deepseek-R1 DeepSeek
GPT4 OpenAI
Llama 3 Meta (Facebook AI Research)
Gemma Google
Mistral Mistral

2. LLM์˜ ์ƒ์„ฑ ๋ฐฉ์‹

LLM์€ only-decoder ๋ชจ๋ธ์— ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•œ ๋ชจ๋ธ์ด๋ผ๊ณ  ์œ„์—์„œ ์–ธ๊ธ‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

only-decoder ๋ชจ๋ธ์€ ์ž…๋ ฅ์„ ์ž„๋ฒ ๋”ฉ ํ˜น์€ ํ…์ŠคํŠธ๋กœ ๋ฐ›๊ณ  ํ…์ŠคํŠธ๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค๊ณ  ํ–ˆ๋Š”๋ฐ์š”. ์ด๋•Œ, LLM์€ ์ž…๋ ฅ์„ ํ…์ŠคํŠธ๋กœ ๋ฐ›๊ณ  ํ…์ŠคํŠธ๋ฅผ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. only-decoder ๋ชจ๋ธ์—์„œ text๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๊ฒƒ์„ **์ƒ์„ฑ(generate)**ํ•œ๋‹ค๊ณ  ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

์ด์ œ LLM์ด ๊ตฌ์ฒด์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ์ƒ์„ฑํ•˜๋Š”์ง€์— ๋Œ€ํ•ด์„œ ์ž์„ธํžˆ ์•Œ์•„๋ด…๋‹ˆ๋‹ค.

2.1. LLM์˜ special token

LLM์€ ๋ฌธ์žฅ์˜ ์‹œ์ž‘๊ณผ ๋์„ ์ธ์‹ํ•˜๊ธฐ ์œ„ํ•ด์„œ **ํŠน์ˆ˜ ํ† ํฐ(special token)**์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ํ† ํฐ์€ ๋‹จ์–ด๋ณด๋‹ค ๋” ์ž‘์€ ๋‹จ์œ„์ด๊ธด ํ•˜์ง€๋งŒ ์ดํ•ด๋ฅผ ๋•๊ธฐ ์œ„ํ•ด ๋‹จ์–ด๋ผ๊ณ  ํ•ด๋ด…๋‹ˆ๋‹ค!

LLM ์ž…๋ ฅ์œผ๋กœ SOS Token์„ ๋„ฃ์œผ๋ฉด LLM์ด ๋ฌธ์žฅ์˜ ์‹œ์ž‘์ด๋ผ๋Š” ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, EOS Token์„ ์ž…๋ ฅ์œผ๋กœ ๋„ฃ์œผ๋ฉด ๋ฌธ์žฅ์˜ ๋์ด๋ผ๋Š” ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค.

๋ฐ˜๋Œ€๋กœ, SOS Token์„ ์ƒ์„ฑํ•˜๋ฉด LLM์ด ๋ฌธ์žฅ์˜ ์•ž๋‹จ์— ๋‚˜์˜ฌ๋งŒํ•œ ํ† ํฐ๋“ค์„ ์ƒ์„ฑํ•˜๊ธฐ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, EOS Token์„ ์ƒ์„ฑํ•˜๊ธฐ ์ง์ „๊นŒ์ง€๋Š” ๋ฌธ์žฅ์˜ ๋๋‹จ์— ๋‚˜์˜ฌ๋งŒํ•œ ํ† ํฐ๋“ค์„ ์ƒ์„ฑํ•˜๋‹ค๊ฐ€ EOS Token์„ ์ƒ์„ฑํ•˜๋ฉด ์ƒ์„ฑ์„ ๋ฉˆ์ถ”๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋Œ€ํ‘œ์ ์ธ ๋ชจ๋ธ๋“ค์˜ EOS Token์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

Model Provider EOS Token Functionality
GPT4 OpenAI `< endoftext
Llama 3.3 Meta (Facebook AI Research) `< eot_of_text
Deepseek-R1 DeepSeek `< end_of_sentence
Gemma Google <end_of_turn> End of conversation turn

์ด๋Ÿฌํ•œ EOS Token์€ ๋ฌธ์žฅ์˜ ๋์„ ์•Œ๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์— ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค! ์•ˆ๊ทธ๋Ÿฌ๋ฉด ๋ชจ๋ธ์€ ๋ฌธ์žฅ์˜ ๋์„ ๋ชจ๋ฅด๊ณ  ๊ณ„์† ํ† ํฐ์„ ์ƒ์„ฑํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์—๋Ÿฌ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค! ๊ทธ๋ฆฌ๊ณ  ๊ฐ™์€ ํšŒ์‚ฌ์—์„œ ๋‚˜์˜จ ๋ชจ๋ธ๋„ ๊ฐ ํ† ํฐ์˜ ์ด๋ฆ„์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค!

2.2. Next Token Prediction(NTP)

decoder ๋ชจ๋ธ์€ ์ž๊ธฐํšŒ๊ท€์  (autoregressive)์ธ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ž๊ธฐํšŒ๊ท€๋ผ๋Š” ๋ง์€ ์ด์ „์— ์ถœ๋ ฅํ–ˆ๋˜ ๊ฒฐ๊ณผ๋ฌผ์„ ๋‹ค์‹œ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

Autoregressive (์ถœ์ฒ˜ : โ€ฃ)

Autoregressive (์ถœ์ฒ˜ : โ€ฃ)

  1. LLMs๋ผ๋Š” ์ž…๋ ฅ์„ LLM์— ๋„ฃ์–ด์„œ decode๋ผ๋Š” ์ถœ๋ ฅ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.
  2. ์ด decode๋ผ๋Š” output์„ ๋‹ค์‹œ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•ด์„œ LLMs decode๋ผ๋Š” ์ž…๋ ฅ์„ LLM์— ๋„ฃ์–ด์„œ until์ด๋ผ๋Š” ์ถœ๋ ฅ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.
  3. until์ด๋ผ๋Š” output์„ ๋‹ค์‹œ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•ด์„œ LLMs decode until์ด๋ผ๋Š” ์ž…๋ ฅ์„ LLM์— ๋„ฃ์–ด์„œ it์ด๋ผ๋Š” ์ถœ๋ ฅ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.
  4. โ€ฆ

์œ„์™€ ๊ฐ™์€ ๋ฌดํ•œ ๋ฐ˜๋ณต์„ ์ž๊ธฐํšŒ๊ท€๋ผ๊ณ  ํ•˜๊ณ , ์ด ์ž๊ธฐํšŒ๊ท€๋Š” ๋ฌดํ•œ์ • ์ง€์†๋ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ์—” ์ด ๋ฌดํ•œ ๋ฐ˜๋ณต์„ ๋Š์–ด์ค„ ๋ฌด์—‡์ธ๊ฐ€๊ฐ€ ํ•„์š”ํ•œ๋ฐ, ๋Š์–ด์•ผํ•  ํƒ€์ด๋ฐ์„ ์•Œ๋ ค์ฃผ๋Š” ๊ฒƒ์ด [2.1. LLM์˜ special token](https://www.notion.so/2-1-LLM-special-token-1ba1806f5bc180a09da6ca1bb584e4ef)์—์„œ ๋งํ–ˆ๋˜ EOS Token์ž…๋‹ˆ๋‹ค.

2.3. Next Token์„ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹

๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์€ 2.2. Next Token Prediction(NTP)์—์„œ ๋งํ–ˆ๋˜ ๊ฒƒ์ฒ˜๋Ÿผ ์ž๊ธฐํšŒ๊ท€์ (Autoregressive) ๋ฐฉ์‹์œผ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ํ•˜๋‚˜์˜ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์€ ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์ƒ์„ฑํ• ๊นŒ์š”? ์ž๊ธฐํšŒ๊ท€๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ ํ† ํฐ๋“ค์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์€ ์ดํ•ดํ–ˆ๋Š”๋ฐ ํ•˜๋‚˜์˜ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์— ๋Œ€ํ•ด์„œ๋Š” ์•„์ง ๋ช…ํ™•ํ•˜์ง€ ์•Š์€๊ฑฐ ๊ฐ™์Šต๋‹ˆ๋‹ค.

ํ•˜๋‚˜์˜ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์€ ํ™•๋ฅ ์ ์ธ ๋ฐฉ์‹์„ ํ†ตํ•ด ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. LLM์€ ์‚ฌ์‹ค ๋ฐ”๋กœ text์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ ์–ด๋–ค logit๊ฐ’์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ logit ๊ฐ’์„ ์ด์šฉํ•ด ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•œ ํ›„, ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ์˜ token์„ ์ฑ„ํƒํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.

token prediction (์ถœ์ฒ˜ : โ€ฃ)

token prediction (์ถœ์ฒ˜ : โ€ฃ)

์˜ˆ๋ฅผ ๋“ค์–ด, Paris is the city ๋ผ๋Š” ๋ฌธ์žฅ์„ LLM์— ๋„ฃ๋Š”๋‹ค๊ณ  ํ•ด๋ด…์‹œ๋‹ค. ์ž๊ธฐํšŒ๊ท€์  ๋ฐฉ์‹์ด๊ธฐ ๋•Œ๋ฌธ์— Paris is the city ๋‹ค์Œ์— ์˜ฌ ํ† ํฐ์„ ์ƒ์„ฑํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

์–ด๋–ค ํ† ํฐ์„ ์ƒ์„ฑํ• ์ง€ LLM์€ ๊ณ ๋ฏผํ•ฉ๋‹ˆ๋‹ค. vocab์ด๋ผ๊ณ  ํ•˜๋Š” ๋‹จ์–ด์ง‘ ๋‚ด์—์„œ logit ๊ฐ’๋“ค์„ ์–ป์Šต๋‹ˆ๋‹ค. vocab์€ ์ˆ˜์‹ญ๋งŒ์˜ ๋‹จ์–ด๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

  1. of : -0.20
  2. that : -0.70
  3. where : -2.00
  4. with : -1.30
  5. in : -0.50

์ด๋Ÿฌํ•œ Logit๊ฐ’์„ softmax๋ผ๊ณ  ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•ด ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

  1. of : 0.3518
  2. that : 0.2133
  3. where : 0.0582