「架构特点:」

LLM主要基于Transformer架构,该架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出。Transformer通过自注意力机制(Self-Attention)来捕捉文本中的长距离依赖关系,无需像循环神经网络(RNN)那样逐词递归处理,从而实现了并行计算,大大提高了训练和推理速度。典型的LLM结构包括: