π· 1. Logitμ μ μ
- Logitμ μ κ²½λ§μ΄ μ΅μ’
μ μΌλ‘ μΆλ ₯νλ κ°μΌλ‘, κ° ν΄λμ€(λλ λ¨μ΄)μ λν μλμ μ νΈλλ₯Ό λνλ
λλ€.
- μ΄ κ°μ **μ€μκ°(real value)**μΌλ‘, λ²μκ° μ ν΄μ§μ§ μμμ μμ(-β)λΆν° μμ(+β)κΉμ§ μ΄λ€ κ°λ κ°λ₯ν©λλ€.
- νλ₯ λ‘ λ°κΎΈκΈ° μ μ "μλ³Έ μ μ"λ‘ μκ°ν μ μμ΅λλ€.
μλ₯Ό λ€μ΄, 3κ° ν΄λμ€(A, B, C)μ λν logit κ°μ΄ λ€μκ³Ό κ°λ€κ³ ν©μλ€:
ν΄λμ€ |
Logit (μμ μ μ) |
A |
2.0 |
B |
1.0 |
C |
0.1 |
μ΄ μνμμ λͺ¨λΈμ A ν΄λμ€λ₯Ό κ°μ₯ μ νΈνλ μνμ
λλ€.
π· 2. μ κ²½λ§μμ Logitμ΄ λμ€λ λ¨κ³
μ κ²½λ§(μ: LLM)μμλ μλ λ¨κ³λ‘ μ§νλ©λλ€:
Input β ... β (hidden layers) β Final Linear Layer β Logits β Softmax β Probability
- μ
λ ₯μ΄ μ£Όμ΄μ§λ©΄, μ¬λ¬ νλ λ μ΄μ΄λ₯Ό κ±°μ³ μ΅μ’
μ μΌλ‘ λ§μ§λ§ μ ν λ μ΄μ΄(linear head)λ₯Ό ν΅κ³Όνμ¬ logitμ μ»μ΅λλ€.
- λ§μ§λ§ μ ν λ μ΄μ΄λ λ³΄ν΅ μλμ²λΌ ννλ©λλ€:
$$
logit = W \cdot h + b
$$
- μ¬κΈ°μ:
- h: μ΄μ λ μ΄μ΄(hidden representation)μ μΆλ ₯ 벑ν°.
- W, b: νμ΅ κ°λ₯ν νλΌλ―Έν°(weight, bias)μ
λλ€.
μ¦, μ κ²½λ§μ΄ μ΅μ’
μ μΌλ‘ λ΄λλ κ° μμ²΄κ° logitμ΄κ³ , μ΄κ²μ λ³νν΄μ νλ₯ λ‘ λ§λλλ€.
π· 3. Logitμμ νλ₯ λ‘ λ³ν (Softmax)
λͺ¨λΈμ΄ μ€μ λ‘ ν΄λμ€(λ¨μ΄)λ₯Ό μ νν νλ₯ μ μ»κΈ° μν΄μ , logitμ softmaxμ λ£μ΅λλ€.