Token 是 LLM 处理文本的最小基本单元。
词表(Vocabulary)是模型知道的所有 token 的集合,是 token 到 ID 的映射表。
基于训练语料构建词表,将问题token化,在词表中预测下一个词出现的概率。永远在看“当前这几个字,下一个字最可能是什么”。
AIGC(AI-Generated Content,生成内容)指利用人工智能技术自动生成各种数字内容,包括文字、图像、音频、视频、代码、3D模型等。
AGI(Artificial General Intelligence,通用人工智能)是指能够像人类一样理解、学习和应用知识,解决任何领域问题的AI系统。
GPT (Generative Pre-trained Transformer,生成式预训练变换模型)是一种基于深度学习的大语言模型。
LoRA(Low-Rank Adaptation,低秩适配)是一种参数高效微调技术,它像给大模型外挂一个小插件,用极小的成本让模型适应特定任务。