菜单

cuilinsu
cuilinsu
发布于 2026-05-15 / 1 阅读
0

ICLR 2026记忆三剑客:MemGAS/RF-Mem/AMemGym,Agent终于不再失忆了

你问AI助手"我上周说的那个机器人项目进展怎么样了?",它回答"抱歉,我不太清楚您指的是哪个项目"。不是它不想帮你,是它真的忘了。ICLR 2026上,三篇论文同时出手,试图从根本上解决这个让所有Agent开发者头疼的问题。

一、为什么你的Agent总是"失忆"?三大病灶诊断

在聊论文之前,先搞清楚问题到底是什么。当前主流Agent的记忆方案,几乎全部卡在单一颗粒度陷阱里。

病灶一:颗粒度单一,信息要么太粗要么太细。Session级记忆把整段对话压缩成一段摘要,细节全丢;Turn级记忆每句话单独存,噪音爆炸,检索效率极低。就像一个图书管理员——要么把整本书背下来(累死),要么给每个字建索引(疯掉)。

病灶二:检索是一次性命中,没有"联想"。现有方案几乎全是Top-K向量相似度搜索——输入一个问题,算一下向量距离,取最相似的K条。这就像查字典只看第一个匹配项,不会"顺藤摸瓜"。真实场景中,用户的问题往往是模糊的、需要多段记忆串联才能回答的。

病灶三:静态评测≠真实效果。大部分论文用离线数据集评测(扔一堆对话历史进去,看能不能回答对),但真实Agent场景是循环的——Agent读记忆→回答→用户反馈→写入新记忆→下次再读。静态评测无法捕捉这个循环中的"重用偏差"(reuse bias),导致论文数据好看,上线拉胯。

ICLR 2026的三篇论文,恰好分别对应这三个病灶,而且彼此互补,基本覆盖了Agent长期记忆的全部技术路线。

二、MemGAS:多颗粒度+图传播,让Agent"联想式"回忆

MemGAS(From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents)是这三篇里最系统、工程可用性最高的一篇。

2.1 核心思路:四层记忆,图结构关联

MemGAS的做法看似简单,但没有人系统地做过:同时建四层记忆,再用图把它们串起来

四层分别是:

记忆层

存储内容

适用场景

Session级

整段对话的LLM摘要

快速定位"这个用户最近在聊什么"

Turn级

每轮对话的原始文本+向量

找回具体细节(日期、人名、数字)

Summary级

多个Turn聚合后的LLM摘要

中粒度话题追踪

Keyword级

LLM提取的关键词+实体

精确锚点,跨会话联想

关键在于层与层之间有边。Session连到它包含的Turn,Turn连到它的Summary,Summary连到Keyword。这样,当一次检索命中了某个Keyword,图传播算法会自动把和它相连的Session、Turn、Summary都"带出来"——这就是"联想式回忆"的数学实现。


2.2 检索算法:不是Top-K,是种子节点+阻尼传播

MemGAS的检索不是简单的向量最近邻搜索,而是一个图传播过程。论文里最核心的几个参数,其实就是这道"联想"题的旋钮:

• num_seednodes=15:先通过向量搜索找到15个最相关的种子节点(可以是任意层的记忆)
• damping=0.1:阻尼系数,控制"联想"能传多远。0.1意味着每传播一层,信号衰减到10%,防止无限扩散
• temp=0.2:温度参数,控制检索结果的"创造力"。越低越保守(只取最相关的),越高越"大胆"(会把弱相关但可能有用的记忆也带出来)
• mem_threshold=30:最终保留的记忆条数阈值

这个设计的精妙之处:它模拟了人类回忆的"蝴蝶效应"——你问"机器人项目进展如何",先命中"机器人"这个关键词,然后图传播把相连的"上周讨论"、"西雅图搬家"、"新工作"全部带出来,Agent就能给出有上下文的回答。

2.3 实验数据:全面碾压单颗粒度基线

论文在四个主流长程对话记忆基准上做了评测:

• LoCoMo-10:10轮以上的超长对话,测试跨会话记忆关联
• LongMemEval-s/m:短期/中期记忆评测,包含时间推理问题
• Long-MT-Bench+:多轮工具调用场景下的记忆评测

结果:MemGAS在全部四个数据集上,一致优于所有单颗粒度基线(session_level / turn_level / summary_level / key_level)以及简单的混合基线(hybrid_level)。评测方式是用GPT-4o作为judge对检索质量打分,避免了单一指标的偏差。

2.4 一行代码接入:已经可以跑了

这是最实用的一点:MemGAS提供了完整的Python封装,已经在GitHub开源(Applied-Machine-Learning-Lab/ICLR2026_MemGAS)。接入代码:

from quickstart import MemGASMemory, MemoryConfig

mem = MemGASMemory(
    MemoryConfig(
        storage_dir="./memgas_store",
        embedder="contriever",        # contriever / mpnet / minilm
        llm_provider="openai",       # openai 或 vllm(本地)
        llm_model="gpt-4o-mini",
        default_mode="memgas",
    )
)

# 存:支持多段对话批量写入
mem.add(
    session=["[User]: 我搬到西雅图了 [AI]: 天气好吗?",
             "我开始了机器人创业公司的新工作,骑自行车上班。"],
    conversation_id="user_001",
)

# 取:自动多颗粒度图检索
hits = mem.retrieve(query="我最近的工作是什么?", topk=3)

支持用vllm接入本地大模型(比如Qwen2.5-7B),也支持conversation_id做多用户记忆隔离。一个部署就能服务多用户Agent

三、RF-Mem:借鉴认知科学,让Agent拥有"快检索"和"慢回忆"双系统

RF-Mem(ReFamiliarization-based Memory)来自大连理工大学、香港城市大学、华为和中国科学技术大学,已被ICLR 2026收录。它的切入点更"认知科学"——直接借鉴人类记忆的双加工理论(Dual-Process Theory)。

3.1 核心洞察:一次性Top-K检索是不够的

人类记忆有两种模式:熟悉性(Familiarity)快速但粗糙,回忆(Recollection)慢但精确。RF-Mem把这个双系统搬进了Agent的记忆检索。

具体流程:

Step 1 — Probe Retrieval(探针检索):先做一轮快速Top-K,拿到初步候选集。同时计算两个信号:平均相似度(候选和问题的匹配程度)和分布熵(候选之间的多样性——熵高说明候选分散,可能没找对方向)。

Step 2 — Familiarity路径 vs Recollection路径:如果平均相似度高且分布熵低(说明"很熟悉,候选很集中"),直接走Familiarity路径,返回Top-K结果——这是"快检索"。如果相似度低或熵高("不确定,候选很分散"),启动Recollection路径——在嵌入空间里逐步重构证据链,把真正关键的证据一点点"回忆"出来。

这个设计的实用价值非常直接:对于简单明确的问题("我的API Key是什么?"),系统秒回;对于模糊复杂的问题("帮我总结一下上个月讨论过的所有技术方案的优缺点"),系统会"想一想",在嵌入空间里多做几次传播,再给出答案。

3.2 实验:在三个基准上稳定提升

RF-Mem在PersonaMem、PersonaBench和LongMemEval三个基准上取得了稳定提升。论文特别强调了固定预算和延迟约束下的表现——这意味着RF-Mem不仅效果好,而且在工程上可控:你可以设定"最多花500ms做回忆",系统会自动在Familiarity和Recollection之间做权衡。

对比MemGAS:MemGAS是"全量多颗粒度图传播",效果更好但计算开销更大;RF-Mem是"按需切换双模式",在延迟敏感场景下更有优势。两套方案其实是互补关系


四、AMemGym(美团):第一次认真评测"Agent记忆"的真实循环

前两篇论文关注"怎么让检索更好",美团这篇AMemGym关注的则是更底层的问题:你怎么知道你的记忆系统真的好用?

4.1 静态评测的致命缺陷

现有记忆评测几乎全部是"离策略"(off-policy)的:扔一堆对话历史进去,看能不能回答对。但真实Agent场景是同策略(on-policy)循环的:

Agent读记忆 → 生成回答 → 用户反馈 → 新记忆写入 → 下次再读记忆

这个循环中有一个关键问题:记忆的读写会互相影响。坏的记忆检索会导致错的回答,错的回答会产生坏的新记忆,坏的新记忆又会进一步恶化后续检索——这是一个反馈回路。静态评测完全捕捉不到这个动力学过程,导致论文数据好看、上线拉胯的"重用偏差"(reuse bias)。

4.2 AMemGym的解决方案:用户模拟器+结构化数据

AMemGym的核心创新:构建一个交互式评测环境,用用户模拟器来模拟真实的多轮对话循环,从而在同策略(on-policy) setting下评测记忆系统的端到端表现。

具体做法:

• 用LLM构建用户模拟器,能够根据场景设定,持续多轮地"扮演"一个真实用户(有记忆、有偏好、有上下文)
• 构建关联结构化数据,确保评测的可重复性(每次跑同一个seed,用户行为一致)
• 对记忆生命周期进行分解诊断:读记忆→写记忆→更新记忆,每个环节单独打分,告诉你"是检索不行,还是写入不行"

更重要的是,AMemGym可以作为一个持续学习模拟环境来用——你可以在上面训练"如何让Agent自己优化自己的记忆策略",而不只是评测静态指标。

对业界的意义:这篇论文第一次提供了一套可操作的Agent记忆评测标准。以后做Agent记忆模块,不要再只跑LongMemEval了,用AMemGym跑一下on-policy评测,才知道真实场景下会不会翻车。

五、三篇论文横向对比:选型指南

把三篇放在一起看,它们其实覆盖了Agent记忆系统的三个不同层面:

维度

MemGAS

RF-Mem

AMemGym

解决的核心问题

多颗粒度+图联想检索

快/慢双系统自适应检索

真实循环下的记忆评测

技术路线

图传播(种子节点+阻尼)

双加工理论(Familiarity/Recollection)

用户模拟器+on-policy评测

计算开销

较高(全量图传播)

可控(按需切换)

评测时高(需跑多轮模拟)

工程可用性

✅ 已开源,一行接入

⚠️ 论文已收录,代码待确认

⚠️ 评测框架,需自行集成

适合场景

对检索质量要求高的Agent

延迟敏感、需要自适应

评测/优化记忆系统

选型建议:如果你今天就要接入一个记忆系统,先上MemGAS(有代码、有文档、有API)。如果场景对延迟敏感,研究一下RF-Mem的双系统思路,按需集成。如果你在做Agent记忆模块的研发,用AMemGym做评测基准,别再用静态数据集自嗨了。

六、从ICLR 2026看Agent记忆的下一个战场

把这三篇论文放在一起来看,一个清晰的信号浮现出来:Agent领域正在从"模型能力竞赛"过渡到"系统工程竞赛"。记忆,就是下一个瓶颈和突破口。

趋势一:多颗粒度将成为标配。单一颗粒度的记忆方案会像单一卷积核的CNN一样,被历史淘汰。未来主流Agent框架(LangChain、AutoGen、OpenClaw)都会内置多颗粒度记忆模块。

趋势二:检索≠搜索,记忆需要"动力学"。静态Top-K检索会被动态图传播/双系统自适应检索替代。未来Agent的记忆检索会像一个"小模型"一样,有自己的状态、反馈和自适应逻辑。

趋势三:评测标准正在重建。ICLR 2026之后,静态记忆评测数据集(LongMemEval等)会继续用,但工业界会逐步转向on-policy评测。谁能建立事实上的评测标准,谁就掌握了Agent记忆方向的话语权。

趋势四:记忆+持续学习=终极形态。Google DeepMind预言2026是"持续学习元年",Anthropic CEO确认持续学习将在2026年实用化。当Agent既能"记住"(MemGAS/RF-Mem),又能"从记忆中学习"(持续学习),才是真正意义上的"不遗忘的AI助手"。

一句话总结:ICLR 2026的这三篇记忆论文,不是三个孤立的技术点,而是Agent记忆系统从"能用"到"好用"的必经之路上的三块路标。现在接入,刚好赶在大规模落地之前。

数据来源于:https://minigpt.top/console/posts/editor?name=33e9e653-e362-4ece-8bf1-56876fd51da1