资料 | Notion

来源

Untitled

Untitled

基于传统神经网络的语言模型：早期的大语言模型主要是基于传统的神经网络结构，如循环神经网络（RNN）、长短时记忆网络（LSTM）等。这些模型的参数数量较小，难以处理大规模语料库和复杂的语言结构。
基于 Transformer 的预训练模型：随着 Transformer 模型的提出，研究者们开始使用 Transformer 模型来构建大规模预训练语言模型。这些模型包括 GPT、BERT 等，通过在大规模语料库上进行预训练，可以学习到丰富的语言知识和表示。
基于自监督学习的预训练模型：为了进一步提高预训练语言模型的性能，研究者们开始使用自监督学习来构建预训练模型。这些模型包括 BERT、RoBERTa、XLNet 等，通过使用自监督任务来训练模型，可以更好地学习到语言结构和表示。