一、AIGC介绍
token就是组成物件的基本单位,万事万物均由token组成,就是AIGC的基本原理。
这个过程就像是“文字接龙”,如果接的token是文字,就是语言模型。
不失一般性,可以认为不管是什么类型的token,原理都是一样的,都是输入一串token,输出一个token。
神经网络的输出实际是一个概率分布,最合适的那个输出token的概率最大。因为你不能强制让它只学会输出一种你想要的,那会让它混乱。
一个f又叫做一个layer,一个f拆解为多个f是神经网络(深度学习)的特色,这可以简化问题。
深度学习正是因为这样,比浅层学习更有效率。
事实证明,相同的layer叠加起来让长度增长,也会对accuracy有积极影响。
self-attention考虑所有输入(全局函数),也有只考虑单一的layer。
调参实际是调超参数,即调神经网络的架构。而真正的参数是由训练资料所决定的。
值得注意的是,微调有风险。例如,当模型学习到“谁是……?”这样的问题,它只会回答同一个人名。