导航
HTML
CSS
JavaScript
浏览器 & 网络
版本管理
框架
构建工具
TypeScript
性能优化
算法
UI、组件库
Node
业务技能
针对性攻坚
AI
公共类
第一章 初识智能体
1. 核心定义与演进 (1.1)
- 什么是智能体 (Agent)?
- 定义: 能够通过传感器感知环境,并自主地通过执行器采取行动以达成目标的实体。
- 灵魂: 自主性 (Autonomy) —— 不仅仅是执行指令,而是拥有决策能力。
- 进化路线:
- 传统智能体 (Old):
- 反射型 (恒温器,由规则驱动) → 基于模型 (有世界状态记忆) → 基于目标/效用 (不仅要完成,还要最优) → 学习型 (AlphaGo,通过 RL 自我进化)。
- 局限: 依赖人工预设规则,缺乏泛化能力。
- LLM 驱动的新范式 (New):
- 核心差异: 传统是“写死代码逻辑”,LLM Agent 是“引导通用大脑”。
- 能力跃迁: 具备隐式世界模型,能处理模糊自然语言,具备规划、工具使用和动态修正能力。
- 重要分类学:
- 决策时间: 反应式 (快但短视) vs 规划式 (慢但深谋远虑) vs 混合式 (平衡)。
- 知识表示 (重难点):
- 符号主义 (逻辑规则,白盒,可解释但脆弱)。
- 亚符号主义 (神经网络,黑盒,直觉强但不可解释)。
- 神经符号主义 (Neuro-Symbolic): LLM Agent 的本质。结合了神经网络的直觉 (生成内容) 和符号系统的逻辑 (结构化思考 Thought/Action)。
2. 运行原理与架构 (1.2)
- 任务环境 (PEAS 模型):
- 定义智能体需明确 4 要素:Performance (性能)、Environment (环境)、Actuators (执行器)、Sensors (传感器)。
- 环境特性: 现代 Agent 面临的是部分可观察 (信息不全)、随机性 (结果不确定)、动态且序贯 (当下决定影响未来) 的复杂环境。
- 核心循环 (The Agent Loop):
- 流程:
感知 (Perception) → 思考 (Thought) → 行动 (Action) → 观察 (Observation)。
- 思考内部: 包含 规划 (Planning) (拆解任务) 和 工具选择 (Tool Selection) (缺啥补啥)。
- 交互协议: Thought-Action-Observation 范式。
- Thought: 内部独白,展示推理过程。
- Action: 具体的函数/API 调用。
- Observation: 环境返回的执行结果。
3. 构建实战:5 分钟造 Agent (1.3)
- 极简架构:
LLM (大脑) + Tools (手脚) + Prompt (说明书)。
- Prompt 关键: 必须在 System Prompt 中规定输出格式 (如
Thought: ... Action: ...),强制 LLM 进行链式思考。
- 执行流案例 (旅行助手):
- 用户提问 → LLM 思考 (Thought) → 决定调用天气工具 (Action)。
- 程序执行代码 → 获得“晴天” (Observation)。
- LLM 再次思考 → 结合“晴天”调用景点搜索工具 (Action)。
- 获得结果 → 综合输出最终建议 (Finish)。
- 启示: 智能体是通过多轮循环,利用工具一步步消除不确定性来解决问题的。
4. 应用模式与 Workflow 对比 (1.4)
- 两种协作模式:
- 开发者工具 (Copilot/Cursor): 人主导,AI 辅助。嵌入工作流,提效。
- 自主协作者 (AutoGPT/CrewAI): AI 主导,人给目标。AI 自主规划执行,甚至多 Agent 组队。
- Workflow vs Agent (核心考点):
- Workflow (工作流): 结构化、静态。逻辑是
If A then B。适合确定性高、标准化的任务 (如报销流程)。
- Agent (智能体): 目标导向、动态。逻辑是
Goal -> Plan -> Action。适合环境多变、需要推理的任务 (如“帮我策划旅行”)。
- 总结: Workflow 是让 AI 按部就班;Agent 是赋予 AI 自由度去“看着办”。
💡 极速总结 (One-Liner)
智能体 (Agent) 是以 LLM 为大脑,通过 感知-思考-行动 闭环,利用 工具 自主解决复杂问题的系统;它与传统自动化的本质区别在于,它不是在执行死板的 If-Then 代码,而是在进行动态的 目标规划与推理。
第二章 智能体发展史
1. 核心演进逻辑
智能体的发展不是堆砌技术,而是为了解决“痛点”:
- 符号主义 (旧): 试图把世界写成代码 -> 失败 (常识太多写不完,遇到新情况就挂)。
- 联结主义 (中): 让机器模仿大脑神经网络 -> 进步 (能感知识别,但缺乏逻辑和决策)。
- 现代智能体 (新): LLM (大脑) + 强化学习 (决策) -> 爆发 (既有通识知识,又能自主规划)。
2. 三大发展阶段
| --- | --- | --- | --- |
3. 关键案例解析
- ELIZA (最早的聊天机器人):
- AlphaGo (强化学习的巅峰):
- ChatGPT/LLM Agent (集大成者):
4. 现代智能体架构
现在的 Agent 是怎么工作的?这一章总结了一个标准流程:
感知 (Perception) ➜ 思考 (Thought) ➜ 行动 (Action) ➜ 观察 (Observation)
- 大脑 (LLM): 负责
Thought。利用预训练的知识进行规划(Planning)。
- 手脚 (Tools): 负责
Action。解决 LLM 无法联网、无法计算的缺陷。
- 经验 (Memory): 负责记住之前的交互,避免像 ELIZA 那样说一句忘一句。
💡 极速总结 (One-Liner)
智能体发展史就是一部“去人工化”的历史:从人类手写规则教机器做事,进化到机器通过阅读海量数据(预训练)和自我试错(强化学习)来拥有自主常识和决策能力。
第三章 大语言模型基础
1. 语言模型的进化史 (3.1.1)
为了让机器学会“说人话”,我们经历了三个阶段:
- 统计时代 (N-gram): 查字典、算概率。假设下一个词只跟前 $N$ 个词有关。
- 神经网络早期 (RNN/LSTM): 像读磁带一样按顺序读。引入了“记忆”功能,能记住前文。
- Transformer 时代: 一目十行,并行处理。彻底抛弃循环,用“注意力”机制同时看到所有词。