跳到主要内容

一篇文章 个标签为 "Google whitepaper"

查看所有标签

Google Agent 白皮书

· 一分钟阅读
Lark Birdy
Chief Bird Officer

虽然像 GPT-4 和 Gemini 这样的语言模型以其对话能力吸引了公众的注意,但更深刻的革命正在发生:AI 代理的崛起。正如 Google 最近的白皮书中详细描述的那样,这些代理不仅仅是智能聊天机器人——它们是可以主动感知、推理和影响现实世界的 AI 系统。

AI 能力的演变

想象一下传统的 AI 模型就像被锁在没有互联网或电话的房间里的知识渊博的教授。他们可以提供出色的见解,但只能基于进入房间前所学的知识。另一方面,AI 代理就像拥有全套现代工具的教授——他们可以查找当前信息,发送电子邮件,进行计算,并协调复杂的任务。

以下是代理与传统模型的不同之处:

  • 实时信息:虽然模型仅限于其训练数据,但代理可以通过外部工具和 API 访问当前信息
  • 行动能力:代理不仅仅建议行动——他们可以通过函数调用和 API 交互来执行这些行动
  • 记忆管理:代理在多次交互中保持上下文,从每次交流中学习以改进他们的响应
  • 工具集成:使用外部工具和 API 的本地能力是其架构的一部分,而不是事后的附加

代理如何思考:认知架构

代理的真正魔力在于他们的“认知架构”——管理他们如何推理和做出决策的系统。白皮书详细介绍了三种关键方法:

  1. ReAct:一种框架,代理在推理其情况和采取具体行动之间交替。想象一个厨师不断评估他们的进度并调整他们的烹饪策略。

  2. Chain-of-Thought:代理将复杂问题分解为更小的、可管理的步骤,并在此过程中展示他们的工作。这类似于数学家逐步解决复杂方程。

  3. Tree-of-Thoughts:代理同时探索多种可能的解决路径,就像棋手考虑不同的走法及其后果。

以下是白皮书中关于代理如何处理航班预订请求的真实示例:

用户:“我想预订从奥斯汀到苏黎世的航班”

代理思考:我应该先搜索航班
行动:[调用航班搜索 API]
观察:找到多个航班选项

代理思考:我应该检查最佳价格和路线
行动:[分析搜索结果]
观察:找到最佳连接和价格

代理思考:用户需要清晰的选项总结
最终答案:“这是最佳航班选项……”

代理的工具包:他们如何与世界互动

白皮书确定了代理可以与外部系统交互的三种不同方式:

1. 扩展

这些是允许直接 API 调用的代理端工具。可以将它们视为代理的手——他们可以直接与外部服务进行交互。Google 的白皮书展示了这些工具在实时操作中(如检查航班价格或天气预报)特别有用。

2. 函数

与扩展不同,函数在客户端运行。这提供了更多的控制和安全性,使其非常适合敏感操作。代理指定需要完成的任务,但实际执行在客户端的监督下进行。

扩展和函数之间的区别:

3. 数据存储

这些是代理的参考库,提供对结构化和非结构化数据的访问。使用向量数据库和嵌入,代理可以快速在庞大的数据集中找到相关信息。

代理如何学习和改进

白皮书概述了代理学习的三种引人入胜的方法:

  1. 上下文学习:像厨师获得新食谱和食材一样,代理通过在运行时提供的示例和指令来学习处理新任务。

  2. 基于检索的学习:想象一个拥有大量食谱库的厨师。代理可以动态地从他们的数据存储中提取相关示例和指令。

  3. 微调:这就像送厨师去烹饪学校——对特定任务类型进行系统培训以提高整体性能。

构建生产就绪的代理

白皮书中最实用的部分涉及在生产环境中实现代理。使用 Google 的 Vertex AI 平台,开发人员可以构建结合以下功能的代理:

  • 用户交互的自然语言理解
  • 现实世界行动的工具集成
  • 上下文响应的记忆管理
  • 监控和评估系统

代理架构的未来

也许最令人兴奋的是“代理链”的概念——结合专门的代理来处理复杂任务。想象一个结合以下内容的旅行规划系统:

  • 航班预订代理
  • 酒店推荐代理
  • 当地活动规划代理
  • 天气监测代理

每个代理在其领域内专长,但共同合作以创建全面的解决方案。

这对未来意味着什么

AI 代理的出现代表了人工智能的根本转变——从只能思考的系统到能够思考和行动的系统。虽然我们仍处于早期阶段,但 Google 白皮书中概述的架构和方法为 AI 如何从被动工具演变为解决现实世界问题的积极参与者提供了明确的路线图。

对于开发人员、商业领袖和技术爱好者来说,了解 AI 代理不仅仅是跟上趋势——而是为 AI 成为人类事业的真正合作伙伴的未来做好准备。

您认为 AI 代理将如何改变您的行业?在下方评论中分享您的想法。