1 token

Token 是 LLM 处理文本的最小基本单元。

2 词表

词表(Vocabulary)是模型知道的所有 token 的集合,是 token 到 ID 的映射表。

3 工作流程

基于训练语料构建词表,将问题token化,在词表中预测下一个词出现的概率。永远在看“当前这几个字,下一个字最可能是什么”。

5 AIGC-AI生成内容

AIGCAI-Generated Content,生成内容)指利用人工智能技术自动生成各种数字内容,包括文字、图像、音频、视频、代码、3D模型等。

6 AGI- 通用人工智能

AGIArtificial General Intelligence,通用人工智能)是指能够像人类一样理解、学习和应用知识,解决任何领域问题的AI系统。

8 GPT-生成式预训练变换模型

GPT (Generative Pre-trained Transformer,生成式预训练变换模型)是一种基于深度学习的大语言模型。

9 LoRA-插件式微调

LoRALow-Rank Adaptation,低秩适配)是一种参数高效微调技术,它像给大模型外挂一个小插件,用极小的成本让模型适应特定任务。

10 向量数据库