一、AIGC介绍

屏幕截图 2025-10-05 211437.png

token就是组成物件的基本单位，万事万物均由token组成，就是AIGC的基本原理。

屏幕截图 2025-10-05 212052.png

这个过程就像是“文字接龙”，如果接的token是文字，就是语言模型。

屏幕截图 2025-10-05 212108.png

不失一般性，可以认为不管是什么类型的token，原理都是一样的，都是输入一串token，输出一个token。

屏幕截图 2025-10-05 212252.png

神经网络的输出实际是一个概率分布，最合适的那个输出token的概率最大。因为你不能强制让它只学会输出一种你想要的，那会让它混乱。

屏幕截图 2025-10-05 212407.png

一个f又叫做一个layer，一个f拆解为多个f是神经网络（深度学习）的特色，这可以简化问题。

屏幕截图 2025-10-05 212633.png

深度学习正是因为这样，比浅层学习更有效率。

屏幕截图 2025-10-05 221643.png

事实证明，相同的layer叠加起来让长度增长，也会对accuracy有积极影响。

屏幕截图 2025-10-05 213009.png

self-attention考虑所有输入（全局函数），也有只考虑单一的layer。

屏幕截图 2025-10-05 213318.png

调参实际是调超参数，即调神经网络的架构。而真正的参数是由训练资料所决定的。
值得注意的是，微调有风险。例如，当模型学习到“谁是……？”这样的问题，它只会回答同一个人名。