云计算·大数据 频道

微软推出 Memora,旨在破解 AI 智能体的记忆难题

  进入2026年,企业都在围绕智能体开发进行底层环境构建。与其他企业不同的是,微软推出的记忆能力,是通过围绕“抽象概念”和“基于提示的检索”来组织知识,而非依赖原始的对话历史,从而有望实现更高效的长期记忆召回。

  随着人们对人工智能(AI)智能体在长时间内记住对话、偏好和决策的期望日益增加,微软研究院开发了 Memora。这是一个旨在提供比现有方法更具可扩展性和可靠性的长期记忆系统。

  如今,业界越来越期望 AI 智能体能够跨越数周甚至数月保留上下文,而不仅仅是维持单次聊天会话。随着知识量的增长,记忆可能会变得碎片化,导致信息重复和检索速度下降。

  微软表示,Memora 通过将“AI 记住的内容”与“查找信息的方式”解耦,解决了这一痛点。微软研究团队在博客文章中声称,该系统在匹配甚至超越全上下文推理准确率的同时,可将上下文 Token(词元)的消耗量减少高达 98%。

  现有记忆架构的局限性

  随着 AI 助手和自主智能体进入长期部署阶段,缺乏一个原则性的记忆系统已成为关键瓶颈。尽管现代大语言模型(LLM)具备强大的推理能力,但它们仍需要从头开启每个会话。

  在长对话中,模型需要反复重读其完整历史记录,而新信息要么被存储为原始文本,要么被压缩成摘要,这往往会导致重要细节丢失。

  虽然市面上已有解决这些问题的方案,但它们各有局限。例如,Mem0 等系统从对话中提取原子事实;检索增强生成(RAG)方法对原始文本片段进行索引以供后续召回;而 Zep 和 GraphRAG 等基于图的记忆系统则通过实体关系来施加结构。但这些方法大多走向了极端:

  内容分割系统(如 RAG 和 Mem0):直接嵌入提取的事实或文本片段。这虽然保留了细节,但会产生脆弱、孤立的条目,丧失了叙事的连贯性。

  粗粒度抽象系统:将经验压缩成简洁的总结,但剔除了使记忆真正有用的约束条件、边缘案例和数值细节。

  基于图的系统:在内容基础上增加了结构,但仍依赖内容本身进行检索,且通常需要刚性本体,难以在不同领域间泛化。

  将记忆与检索分离

  Memora 架构声称,通过将存储内容与检索方式解耦来解决上述问题。为此,每个记忆条目包含两个组成部分:

  第一个是“主抽象(Primary Abstraction)”,即一个简短的短语(6-8个词),用于捕捉记忆的核心本质。第二个是“记忆值(Memory Value)”,用于保存丰富的具体内容。由于这种分离,关于某个不断发展主题的新信息将被合并到具有相同主抽象的现有记忆条目中,而不是被分割成一系列部分重复的链条。

  作为主抽象的补充,“提示锚点(Prompt Anchors)”是从每个记忆值中提取的、具备上下文感知能力的短标签,它们为同一段记忆提供了不同的访问路径。该系统声称,这些锚点起到了灵活且有机生成的元数据的作用。

  此外,Memora 还引入了一种“策略导向检索器(Policy-driven Retriever)”。它不会一次性返回最相似的 Top-K 条目,而是逐步优化查询,通过提示锚点扩展到表面相关但不完全相似的记忆中,并自主决定何时停止检索。

  “当前智能体记忆最根本的缺陷,是错误地将‘检索’等同于‘记忆’。向量存储在查找看似相关的文本方面表现出色,但企业智能体需要的不仅仅是相似性。它需要知道什么已经改变,什么依然成立,以及在当前任务中绝不应被召回的内容,” Greyhound Research 首席分析师 Sanchit Vir Gogia 表示。

  Gogia 指出,Memora 之所以有趣,正是因为它拒绝了这种捷径。它将记忆的丰富细节与用于查找的“把手”分离开来,索引一个稳定的抽象概念和一组提示锚点,同时在底层保持完整的内容。这样一来,检索变成了一种“导航行为”,而不是盲目的猜测;系统会重新查询、扩大搜索范围,或者在获取足够信息后停止。他补充道。

  基准测试表现

  微软在两个长上下文基准测试上评估了 Memora:LoCoMo(对话平均为 600 轮)和 LongMemEval(使用 115,000 个 Token 的上下文)。据该公司称,Memora 在 LoCoMo 上的 LLM 评判准确率达到 86.3%,在 LongMemEval 上达到 87.4%,优于 RAG、Mem0、Nemori、Zep、LangMem,甚至超越了全上下文推理。

  它在每次对话中存储的记忆条目数量几乎是 Mem0 的一半(344 条对 651 条),同时与全上下文推理相比,Token 消耗量减少了高达 98%。

  尽管基准测试显示出显著的效率提升,但企业不应认为较低的 Token 消耗会自动转化为更低的基础设施成本。

  Gogia 警告不要将 Token 的减少量视为绝对的承诺。他表示:“这只是基准测试中的上下文缩减,并不意味着企业账单就会减少 98%。真正的成本还包括构建记忆、索引、存储以及审计日志所需的治理开销。”

  他警告说,Memora 最强的检索模式也是最慢的。其策略检索器需要多次模型调用,每次查询的运行时间约为 5 到 6 秒,而简单的语义模式则不到 1 秒。

  在提示 Token 上的节省,部分是以检索延迟和额外的推理成本为代价的。因此,内存危机并没有消失,而是转移到了其他地方。企业不再只是为更长的提示付费,而是必须管理写入、更新和遗忘的内容,并控制这些内容的索引与测试。

  对企业的影响

  Memora 目前仍是微软的一个活跃研究项目,但该公司已将研究代码发布到 GitHub,允许开发者尝试该架构并将其适配到自己的 AI 应用中。

  然而,纸面上的可移植性不应与生产就绪性混为一谈。尽管该设计的记忆层原则上可以部署在任何主流供应商的模型之上,但 Gogia 建议,在代码得到充分验证、维护和支持之前,企业 IT 领导者应保持谨慎,将 Memora 作为一种架构来研究,而不是直接将其作为软件进行生产级部署。

  除了技术本身,组织还需要制定治理和合规政策,以确保 AI 记忆的安全管理并保持可审计性。他指出,企业必须决定谁有权向记忆写入信息、谁可以读取、数据保留多长时间,以及审计员如何重建记忆以追溯其对决策的影响。

0
相关文章