记忆:
规划: 规划基本与写代码等价 。目前LLM规划能力较弱, 以 Codeforces Rating 为例,GPT - 4 排名 后10%(来源: https://openai.com/research/gpt-4)
神经:人脑有大量如视神经、听觉神经等小网络;智能体大概率也需要大量的小模型(如在视觉、决策、路由等工作上),不能由一个大模型来主导,一不经济,二不实际
工具: 实际就是API,分为build something及use something,支撑了智能体通往现实世界
直觉: 如呼吸、吞咽、心跳等不需要在脑内有任何显性思考的部分
运控:黑色部分主要指运动控制,对应具身智能相关特性
举例:查找GPTs的智能体GTPs findGPTs:https://chat.openai.com/g/g-O8Y8pE85i-findgpts
以使用上面findGTPs的实例,结合搜索设计logo的任务,分析前述几大功能组件的在agent中的组织和工作流程:
这里findGPTs 会先解构用户的描述,用LLM的基础能力去泛化找到其他语义相似的keywords进行检索,检索这一步采用了webcopilot 开源的action 进行浏览器访问(这个是强于openai 提供的bing search的效率的)
Openai Action/Plugin的开发者,可以接入更多定制化的api,e.g. 飞书,高德地图, etc. 而openai的GTPs的开发者只能勾选openai平台现有的api功能;这是对LLM agent Tools的补充;
本节相关资料:
这里是简单摘要,参考原文位置: