功能特点 | Notion

「架构特点：」

LLM主要基于Transformer架构，该架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出。Transformer通过自注意力机制（Self-Attention）来捕捉文本中的长距离依赖关系，无需像循环神经网络（RNN）那样逐词递归处理，从而实现了并行计算，大大提高了训练和推理速度。典型的LLM结构包括：

Encoder-Decoder结构：如用于机器翻译的模型。Encoder将输入文本编码成一个固定长度的上下文向量，Decoder 则依据该上下文向量生成目标语言的文本输出。
Encoder-only结构：如BERT等。主要用于文本理解任务，如文本分类、命名实体识别、问答系统中的问题理解等。Encoder-only模型通过双向编码整个输入文本，生成具有上下文信息的隐藏状态，这些隐藏状态可以被后续任务特定的层（如分类层、标记层等）利用来进行预测。
Decoder-only结构：如GPT系列模型，用于生成文本、补全句子、撰写文章等任务。这类模型直接根据给定的提示（prompt）或前文上下文生成连续的文本输出。