云计算·大数据 频道

谷歌新增开源 Agent Executor,以支持生产环境中的 AI Agent

  当前,AI行业的关注点正从构建Agent原型,转向管理将其投入生产环境后的运营挑战。近日,谷歌宣布推出一个开源应用 ,叫做Agent Executor,希望能帮助企业更可靠地、大规模运行 AI Agent。

  谷歌在一篇博文中介绍,为了应对这些与生产相关的挑战,该运行时具备支持长时间运行和分布式Agent工作流的功能。

  通常,长时间运行的Agent工作流是指由 AI 驱动的任务,其执行时间从几分钟到几天不等,往往涉及多个步骤、跨系统交互、为等待人工输入而暂停,或在中断后恢复执行直至完成。

  针对此类工作负载,该运行时包含对“持久化执行”的支持,允许工作流在发生故障或等待人工批准后从中断处恢复。此外,它还包含了用于隔离代理组件的安全沙盒、用于分布式工作流的会话一致性控制,以及旨在网络中断期间保持执行状态的连接恢复功能。

  谷歌补充道,该运行时还支持“轨迹分支(trace branching)”,这允许开发人员从保存的检查点测试不同的执行路径,而不会丢失之前的上下文。

  此外,谷歌表示,Agent Executor 能够桥接多种部署模型,包括本地部署以及预构建或自定义管理的Agent。它允许用户在 Google Antigravity、谷歌构建的前沿代理(frontier agent)、用户构建并由谷歌管理的代理,以及使用 Agent2Agent (A2A) 协议的自定义代理之间进行灵活的混合搭配。

  瞄准生产环境的可靠性缺口

  分析师和专家认为,Agent Executor 的各项功能对开发者和企业都具有极高的价值。

  Broadcom 的高级可靠性工程师 Advait Patel 表示:“持久性、编排能力和可恢复性,是任何企业级生产代理面临的真正障碍。”

  他指出:“阻碍企业采用的痛点在于:那些在容器重启时会丢失状态的代理、在并发写入时会出错的会话,或者无法从网络故障中恢复的长时间运行工作流。一旦你的Agent开始在真实系统上执行操作,你绝不能容忍它在中途‘忘记’自己做了什么。”

  Patel 进一步指出:“Agent Executor 中的事件日志、快照、单一写入模型和连接恢复功能,恰恰解决了 SRE(站点可靠性工程)团队在过去一年里不得不靠‘打补丁’来勉强维持的问题。”他补充道,现有的框架如 LangChain 和 AutoGen 非常适合做原型设计,但在生产环境中,当Agent连续运行数小时或数天后,它们往往会崩溃。

  Avasant 的研究总监 Gaurav Dewan 表示,对于首席信息官(CIO)而言,该运行时提供的安全保障措施(如安全沙盒和检查点)对于事件分析和可审计性同样至关重要。

  同时,他也警告称,仅凭运行时的功能本身,并不能解决 CIO 在企业 AI 部署中持续面临的更广泛的治理与监管挑战。

  他说:“诸如责任归属、代理决策的可解释性、政策执行以及互联系统中的安全访问等问题,仍在不断演变中。因此,虽然分布式运行时可以增强代理部署的运营支柱,但围绕信任、合规性和企业控制的 CIO 级考量,可能仍需要在运行时基础设施之外,增加额外的治理和监管层。”

  利用基础设施层获取战略优势

  然而,谷歌并不是唯一一家试图塑造企业 AI Agent新兴基础设施层的公司。比如:微软(通过 AutoGen)和亚马逊云科技 AWS(通过 Bedrock AgentCore)等其他大型科技公司,也在推广开放或可互操作的框架,以获取战略优势。

  Dewan 表示:“越来越多的迹象表明,云服务商(Hyperscalers)正转向一种模式,即在技术栈的顶层结合开放或可互操作的工具,而在底层基础设施层集中获取收入。”

  他补充道:“谷歌、微软和 AWS 越来越多地提供 SDK、代理框架和编排工具,以推动开发者采用和生态系统增长,同时继续通过计算基础设施、托管 AI 平台、数据服务和可观测性能力来创造价值。”

  在 Patel 看来,谷歌围绕 Agent Executor 进行部署的策略让人联想到十年前超大规模计算公司走过的路:“赠送运行时,并通过 Google Cloud 上的服务(如 Gemini 企业代理平台和托管代理 API)来推动消费。”

0
相关文章