πŸ”· 1. Logit의 μ •μ˜

예λ₯Ό λ“€μ–΄, 3개 클래슀(A, B, C)에 λŒ€ν•œ logit 값이 λ‹€μŒκ³Ό κ°™λ‹€κ³  ν•©μ‹œλ‹€:

클래슀 Logit (μ›μ‹œ 점수)
A 2.0
B 1.0
C 0.1

이 μƒνƒœμ—μ„œ λͺ¨λΈμ€ A 클래슀λ₯Ό κ°€μž₯ μ„ ν˜Έν•˜λŠ” μƒνƒœμž…λ‹ˆλ‹€.


πŸ”· 2. μ‹ κ²½λ§μ—μ„œ Logit이 λ‚˜μ˜€λŠ” 단계

신경망(예: LLM)μ—μ„œλŠ” μ•„λž˜ λ‹¨κ³„λ‘œ μ§„ν–‰λ©λ‹ˆλ‹€:

Input β†’ ... β†’ (hidden layers) β†’ Final Linear Layer β†’ Logits β†’ Softmax β†’ Probability

$$ logit = W \cdot h + b $$

즉, 신경망이 μ΅œμ’…μ μœΌλ‘œ λ‚΄λ†“λŠ” κ°’ μžμ²΄κ°€ logit이고, 이것을 λ³€ν˜•ν•΄μ„œ ν™•λ₯ λ‘œ λ§Œλ“­λ‹ˆλ‹€.


πŸ”· 3. Logitμ—μ„œ ν™•λ₯ λ‘œ λ³€ν™˜ (Softmax)

λͺ¨λΈμ΄ μ‹€μ œλ‘œ 클래슀(단어)λ₯Ό 선택할 ν™•λ₯ μ„ μ–»κΈ° μœ„ν•΄μ„ , logit을 softmax에 λ„£μŠ΅λ‹ˆλ‹€.