Agent | Notion

前置知识

要了解Agent之前，先要了解一些知识：

LLM：大语言模型（大脑）

LLM (Large Language Model) 是 Agent 的心脏。你可以把它想象成一个博览群书、逻辑极强但没有躯体的超级大脑。
- 本质： 它本质上是一个概率预测引擎，通过学习海量文本，掌握了人类语言的规律和逻辑推理能力。
- 功能： 它负责理解你的意图、拆解任务、并决定下一步该怎么做。
- 局限： 大脑本身没有实时联网能力（除非有插件），也没有直接操作电脑的权限。
Context & Memory：上下文与记忆（记事本）

大脑虽然聪明，但如果没有“记事本”，它会“转头就忘”。
- 短期记忆 (Context Window)： 指的是你当前对话的长度。就像大脑的内存，如果对话太长，它会丢失开头的细节。
- 长期记忆 (RAG / Vector Database)：
  - RAG (检索增强生成) 就像是给 AI 配了一个无限容量的外部图书馆。
  - 当它需要专业知识（比如你公司内部的代码规范或历史文档）时，它会先去图书馆翻书，再回答你。
Tools / Function Calling：工具与能力（手脚）

这是让 AI 从“能说会道”变成“能干实事”的关键。 • 本质： 所谓的“工具”，其实就是 API 接口。 • 类比： 大脑知道计算 $123 \times 456$ 的逻辑，但为了绝对准确，它决定伸手去按一下计算器。 • 应用： 对 AI 来说，搜索网页、执行 Python 代码、查询数据库、甚至发送一条 Slack 消息，都是它调用的“工具”。
Prompting：提示词工程（指挥棒）

如果 LLM 是大脑，那么 Prompt（提示词） 就是输入给大脑的神经冲动或操作指令。
- 系统指令 (System Prompt)： 给 AI 设定“人设”。比如：“你现在是一名资深前端架构师，请用严谨的风格回答问题。”
- 思维链 (Chain of Thought)： 引导 AI 步步推理。比如告诉它：“先思考逻辑，再写代码。”

他们是如何协作的

我们可以用一个“外卖员”的例子来串联这些概念：

用户需求： “帮我买一杯不加糖的冰美式。”
LLM（大脑）： 理解需求。分析出需要：定位咖啡店 -> 筛选口味 -> 下单。
Context（短期记忆）： 记得用户刚才说过“不要加糖”。
RAG（长期记忆）： 查到用户以前经常在“瑞幸”下单，且默认地址是公司。
Tools（手脚）： 自动调用美团外卖的 API 接口，搜索、选品、点击下单。

什么是Agent

很多人把"带函数调用的聊天机器人”直接叫 Agent，这其实不够严谨。

简单来说，AI Agent（人工智能智能体） 不仅仅是一个“会聊天”的机器人，而是一个能够自主使用工具、进行逻辑推理并完成复杂任务的“数字化员工”。

如果把大语言模型（LLM）比作一个博学但被困在房间里的“大脑”，那么 AI Agent 就是给这个大脑装上了眼睛（感知）、手脚（执行工具）和记事本（存储记忆）。

Chatbot 不等于Agent

一个普通问答机器人，即便底层用了大模型，哪怕回答得很聪明，也未必是 Agent。