Google Agent 白皮书
· 一分钟阅读
虽然像 GPT-4 和 Gemini 这样的语言模型以其对话能力吸引了公众的注意,但更深刻的革命正在发生:AI 代理的崛起。正如 Google 最近的白皮书中详细描述的那样,这些代理不仅仅是智能聊天机器人——它们是可以主动感知、推理和影响现实世界的 AI 系统。
AI 能力的演变
想象一下传统的 AI 模型就像被锁在没有互联网或电话的房间里的知识渊博的教授。他们可以提供出色的见解,但只能基于进入房间前所学的知识。另一方面,AI 代理就像拥有全套现代工具的教授——他们可以查找当前信息,发送电子邮件,进行计算,并协调复杂的任务。
以下是代理与传统模型的不同之处:
- 实时信息:虽然模型仅限于其训练数据,但代理可以通过外部工具和 API 访问当前信息
- 行动能力:代理不仅仅建议行动——他们可以通过函数调用和 API 交互来执行这些行动
- 记忆管理:代理在多次交互中保持上下文,从每次交流中学习以改进他们的响应
- 工具集成:使用外部工具和 API 的本地能力是其架构的一部分,而不是事后的附加
代理如何思考:认知架构
代理的真正魔力在于他们的“认知架构”——管理他们如何推理和做出决策的系统。白皮书详细介绍了三种关键方法:
-
ReAct:一种框架,代理在推理其情况和采取具体行动之间交替。想象一个厨师不断评估他们的进度并调整他们的烹饪策略。
-
Chain-of-Thought:代理将复杂问题分解为更小的、可管理的步骤,并在此过程中展示他们的工作。这类似于数学家逐步解决复杂方程。
-
Tree-of-Thoughts:代理同时探索多种可能的解决路径,就像棋手考虑不同的走法及其后果。
以下是白皮书中关于代理如何处理航班预订请求的真实示例:
用户:“我想预订从奥斯汀到苏黎世的航班”
代理思考:我应该先搜索航班
行动:[调用航班搜索 API]
观察:找到多个航班选项
代理思考:我应该检查最佳价格和路线
行动:[分析搜索结果]
观察:找到最佳连接和价格
代理思考:用户需要清晰的选项总结
最终答案:“这是最佳航班选项……”