前置知识

要了解Agent之前,先要了解一些知识:

  1. LLM:大语言模型(大脑)

    LLM (Large Language Model) 是 Agent 的心脏。你可以把它想象成一个博览群书、逻辑极强但没有躯体的超级大脑。

  2. Context & Memory:上下文与记忆(记事本)

    大脑虽然聪明,但如果没有“记事本”,它会“转头就忘”。

  3. Tools / Function Calling:工具与能力(手脚)

    这是让 AI 从“能说会道”变成“能干实事”的关键。 • 本质: 所谓的“工具”,其实就是 API 接口。 • 类比: 大脑知道计算 $123 \times 456$ 的逻辑,但为了绝对准确,它决定伸手去按一下计算器。 • 应用: 对 AI 来说,搜索网页、执行 Python 代码、查询数据库、甚至发送一条 Slack 消息,都是它调用的“工具”。

  4. Prompting:提示词工程(指挥棒)

    如果 LLM 是大脑,那么 Prompt(提示词) 就是输入给大脑的神经冲动操作指令

他们是如何协作的

我们可以用一个“外卖员”的例子来串联这些概念:

  1. 用户需求: “帮我买一杯不加糖的冰美式。”
  2. LLM(大脑): 理解需求。分析出需要:定位咖啡店 -> 筛选口味 -> 下单。
  3. Context(短期记忆): 记得用户刚才说过“不要加糖”。
  4. RAG(长期记忆): 查到用户以前经常在“瑞幸”下单,且默认地址是公司。
  5. Tools(手脚): 自动调用美团外卖的 API 接口,搜索、选品、点击下单。

什么是Agent

很多人把"带函数调用的聊天机器人”直接叫 Agent,这其实不够严谨。

简单来说,AI Agent(人工智能智能体) 不仅仅是一个“会聊天”的机器人,而是一个能够自主使用工具、进行逻辑推理并完成复杂任务的“数字化员工”

如果把大语言模型(LLM)比作一个博学但被困在房间里的“大脑”,那么 AI Agent 就是给这个大脑装上了眼睛(感知)手脚(执行工具)和记事本(存储记忆)

  1. Chatbot 不等于Agent

一个普通问答机器人,即便底层用了大模型,哪怕回答得很聪明,也未必是 Agent。