概述

本简报总结了由 Julia Wiesinger、Patrick Marlow 和 Vladimir Vuskovic 撰写的关于生成式 AI 智能体的白皮书《Agents》。该白皮书详细介绍了智能体的基本概念、组成部分、工作原理以及如何在实际应用中使用它们。智能体被视为扩展了大型语言模型(LLM)能力的关键,通过与外部工具的交互,使 LLM 能够执行复杂的任务、获取实时信息,并自主地进行规划和决策。

主题和重要观点

  1. 什么是智能体?

    • 定义:生成式 AI 智能体是一个应用程序,它通过观察世界并使用其拥有的工具来采取行动以实现目标。“在最基本的形式中,生成式 AI 智能体可以被定义为尝试通过观察世界并利用其可用的工具对其采取行动来实现目标的应用程序。”
    • 自主性:智能体是自主的,可以在没有人工干预的情况下行动,尤其是在被赋予明确目标时。它们能够主动地推理和规划以实现目标。
    • 认知架构:智能体的核心在于其认知架构,由模型、工具和编排层三个基本组件构成。
  2. 智能体的核心组件

    • 模型 (Model):智能体使用的语言模型 (LM),作为决策中心,可以是一个或多个 LM,能够遵循基于指令的推理和逻辑框架,例如 ReAct, Chain-of-Thought 或 Tree-of-Thoughts。“在智能体的范围内,模型指的是将用作智能体流程的集中决策者的语言模型(LM)。”
    • 工具 (Tools):连接模型与外部世界的桥梁,允许智能体与外部数据和服务进行交互,从而扩展了 LLM 的能力。工具通常与常见的 Web API 方法(例如 GET、POST、PATCH 和 DELETE)对齐。“基础模型,尽管具有令人印象深刻的文本和图像生成能力,但仍然受到其无法与外界交互的限制。工具弥合了这一差距,使智能体能够与外部数据和服务交互,同时解锁了超出底层模型本身范围的更广泛的操作。” * 扩展 (Extensions):以标准化方式桥接 API 和智能体,允许智能体无缝执行 API,而无需考虑其底层实现。 * 函数 (Functions):允许模型决定何时使用每个函数以及该函数需要的参数,在客户端执行,为开发者提供更细粒度的控制。 * 数据存储 (Data Stores):提供对动态和最新信息的访问,确保模型响应基于事实和相关性。通常以向量数据库的形式实现,用于支持检索增强生成(RAG)应用。
    • 编排层 (Orchestration Layer):一个循环过程,控制智能体如何获取信息、执行内部推理,并使用该推理来指导其下一个行动或决策。复杂度因智能体和任务而异,可能包含简单的计算、链式逻辑、机器学习算法或其他概率推理技术。
  3. 智能体 vs. 模型

    • 知识:模型的知识受限于其训练数据,而智能体通过工具连接外部系统来扩展知识。
    • 交互:模型执行单次推理/预测,而智能体管理会话历史,以实现基于用户查询和编排层决策的多轮推理/预测。
    • 工具:模型没有原生工具实现,而智能体在其架构中原生实现了工具。
    • 逻辑:模型没有原生逻辑层,而智能体使用认知架构,如 CoT、ReAct 或 LangChain 等框架。
  4. 认知架构和推理框架

    • 认知架构:智能体使用认知架构来达到最终目标,通过迭代处理信息,做出明智的决定,并根据先前的输出改进下一步的行动。
    • 推理框架:智能体可以使用各种推理技术来选择最佳的下一步行动,包括: * ReAct: 为语言模型提供一种思考过程策略,以便对用户查询进行推理和采取行动。 * Chain-of-Thought (CoT): 通过中间步骤实现推理能力。 * Tree-of-Thoughts (ToT): 适用于探索或战略性前瞻任务。
  5. 工具的细节

    • 扩展:通过示例教导智能体如何使用 API 端点及其所需参数。
    • 函数:由模型输出,但在客户端执行,允许开发者更精细地控制应用程序中的数据流。“函数在代理世界中的工作方式非常相似,但我们可以用模型来替换软件开发人员。模型可以采用一组已知的函数,并根据其规范来决定何时使用每个函数以及该函数需要哪些参数。”
    • 数据存储:支持 RAG 应用,使智能体可以访问各种格式的数据,如网站内容、结构化数据和非结构化数据。通过向量数据库存储,利用向量嵌入来表示数据。
  6. 工具的应用

    • RAG (检索增强生成): 使用数据存储扩展模型知识,通过向量搜索匹配查询和数据,并提供给模型进行进一步处理。
    • 函数调用:允许模型建议要在客户端代码中使用的函数,并控制 API 调用的执行和数据流。
  7. 模型性能的增强

    • 目标学习:通过以下方法提高模型选择正确工具的能力: * 上下文学习:在推理时提供提示、工具和少量示例,使模型能够动态学习如何使用这些工具。 * 基于检索的上下文学习:通过从外部记忆中检索最相关的信息和示例来动态填充模型提示。 * 基于微调的学习:使用大量特定示例在推理之前训练模型。
  8. LangChain 快速入门

    • 展示了使用 LangChain 和 LangGraph 构建智能体的示例,其中将逻辑、推理和工具调用链接在一起,以回答用户的多阶段查询。该示例使用了 SerpAPI 和 Google Places API。
  9. Vertex AI 上的生产级应用

    • Google 的 Vertex AI 平台简化了生产级智能体应用的构建,提供了一个完全托管的环境,包括开发工具、评估框架和持续改进机制。
  10. 总结

    • 智能体通过利用工具访问实时信息、建议实际操作、以及自主规划和执行复杂任务,扩展了语言模型的能力。
    • 智能体操作的核心是编排层,它构成了一个结构化的推理、规划和决策的认知架构。ReAct、Chain-of-Thought 和 Tree-of-Thoughts 等各种推理技术为编排层提供了一个框架,以获取信息、执行内部推理并生成明智的决策或响应。
    • 扩展、函数和数据存储等工具是智能体连接外部世界的关键,使它们能够与外部系统交互并访问超出训练数据范围的知识。

关键引用

  • “此推理、逻辑和对外部信息的访问的结合与生成式 AI 模型相连,引发了智能体的概念,或者说是一个超越生成式 AI 模型独立能力的程序。”
  • “使用工具,智能体可以访问和处理真实世界的信息。这使他们能够支持更多专业系统,如检索增强生成(RAG),这大大扩展了智能体的能力,超越了基础模型单独可以实现的能力。”
  • “函数通过分离工作来为开发者提供更细致的控制,允许智能体生成可以在客户端执行的函数参数。”
  • “数据存储使智能体可以访问结构化或非结构化数据,从而支持数据驱动的应用程序。”

结论

该白皮书深入探讨了生成式 AI 智能体的关键组成部分、架构和应用。智能体代表了 LLM 发展的重要一步,使它们能够与现实世界进行交互,并执行超出其自身范围的任务。随着技术的进步,我们可以预期智能体将在各个行业中发挥越来越重要的作用。

白皮书下载地址