ICLR 2026记忆三剑客：MemGAS/RF-Mem/AMemGym，Agent终于不再失忆了

你问AI助手"我上周说的那个机器人项目进展怎么样了？"，它回答"抱歉，我不太清楚您指的是哪个项目"。不是它不想帮你，是它真的忘了。ICLR 2026上，三篇论文同时出手，试图从根本上解决这个让所有Agent开发者头疼的问题。

一、为什么你的Agent总是"失忆"？三大病灶诊断

在聊论文之前，先搞清楚问题到底是什么。当前主流Agent的记忆方案，几乎全部卡在单一颗粒度陷阱里。

病灶一：颗粒度单一，信息要么太粗要么太细。Session级记忆把整段对话压缩成一段摘要，细节全丢；Turn级记忆每句话单独存，噪音爆炸，检索效率极低。就像一个图书管理员——要么把整本书背下来（累死），要么给每个字建索引（疯掉）。

病灶二：检索是一次性命中，没有"联想"。现有方案几乎全是Top-K向量相似度搜索——输入一个问题，算一下向量距离，取最相似的K条。这就像查字典只看第一个匹配项，不会"顺藤摸瓜"。真实场景中，用户的问题往往是模糊的、需要多段记忆串联才能回答的。

病灶三：静态评测≠真实效果。大部分论文用离线数据集评测（扔一堆对话历史进去，看能不能回答对），但真实Agent场景是循环的——Agent读记忆→回答→用户反馈→写入新记忆→下次再读。静态评测无法捕捉这个循环中的"重用偏差"（reuse bias），导致论文数据好看，上线拉胯。

ICLR 2026的三篇论文，恰好分别对应这三个病灶，而且彼此互补，基本覆盖了Agent长期记忆的全部技术路线。

二、MemGAS：多颗粒度+图传播，让Agent"联想式"回忆

MemGAS（From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents）是这三篇里最系统、工程可用性最高的一篇。

2.1 核心思路：四层记忆，图结构关联

MemGAS的做法看似简单，但没有人系统地做过：同时建四层记忆，再用图把它们串起来。

四层分别是：

记忆层	存储内容	适用场景
Session级	整段对话的LLM摘要	快速定位"这个用户最近在聊什么"
Turn级	每轮对话的原始文本+向量	找回具体细节（日期、人名、数字）
Summary级	多个Turn聚合后的LLM摘要	中粒度话题追踪
Keyword级	LLM提取的关键词+实体	精确锚点，跨会话联想

关键在于层与层之间有边。Session连到它包含的Turn，Turn连到它的Summary，Summary连到Keyword。这样，当一次检索命中了某个Keyword，图传播算法会自动把和它相连的Session、Turn、Summary都"带出来"——这就是"联想式回忆"的数学实现。

2.2 检索算法：不是Top-K，是种子节点+阻尼传播

MemGAS的检索不是简单的向量最近邻搜索，而是一个图传播过程。论文里最核心的几个参数，其实就是这道"联想"题的旋钮：

• num_seednodes=15：先通过向量搜索找到15个最相关的种子节点（可以是任意层的记忆）
• damping=0.1：阻尼系数，控制"联想"能传多远。0.1意味着每传播一层，信号衰减到10%，防止无限扩散
• temp=0.2：温度参数，控制检索结果的"创造力"。越低越保守（只取最相关的），越高越"大胆"（会把弱相关但可能有用的记忆也带出来）
• mem_threshold=30：最终保留的记忆条数阈值

这个设计的精妙之处：它模拟了人类回忆的"蝴蝶效应"——你问"机器人项目进展如何"，先命中"机器人"这个关键词，然后图传播把相连的"上周讨论"、"西雅图搬家"、"新工作"全部带出来，Agent就能给出有上下文的回答。

2.3 实验数据：全面碾压单颗粒度基线

论文在四个主流长程对话记忆基准上做了评测：

• LoCoMo-10：10轮以上的超长对话，测试跨会话记忆关联
• LongMemEval-s/m：短期/中期记忆评测，包含时间推理问题
• Long-MT-Bench+：多轮工具调用场景下的记忆评测

结果：MemGAS在全部四个数据集上，一致优于所有单颗粒度基线（session_level / turn_level / summary_level / key_level）以及简单的混合基线（hybrid_level）。评测方式是用GPT-4o作为judge对检索质量打分，避免了单一指标的偏差。

2.4 一行代码接入：已经可以跑了

这是最实用的一点：MemGAS提供了完整的Python封装，已经在GitHub开源（Applied-Machine-Learning-Lab/ICLR2026_MemGAS）。接入代码：

from quickstart import MemGASMemory, MemoryConfig

mem = MemGASMemory(
    MemoryConfig(
        storage_dir="./memgas_store",
        embedder="contriever",        # contriever / mpnet / minilm
        llm_provider="openai",       # openai 或 vllm（本地）
        llm_model="gpt-4o-mini",
        default_mode="memgas",
    )
)

# 存：支持多段对话批量写入
mem.add(
    session=["[User]: 我搬到西雅图了 [AI]: 天气好吗？",
             "我开始了机器人创业公司的新工作，骑自行车上班。"],
    conversation_id="user_001",
)

# 取：自动多颗粒度图检索
hits = mem.retrieve(query="我最近的工作是什么？", topk=3)

支持用vllm接入本地大模型（比如Qwen2.5-7B），也支持conversation_id做多用户记忆隔离。一个部署就能服务多用户Agent。

三、RF-Mem：借鉴认知科学，让Agent拥有"快检索"和"慢回忆"双系统

RF-Mem（ReFamiliarization-based Memory）来自大连理工大学、香港城市大学、华为和中国科学技术大学，已被ICLR 2026收录。它的切入点更"认知科学"——直接借鉴人类记忆的双加工理论（Dual-Process Theory）。

3.1 核心洞察：一次性Top-K检索是不够的

人类记忆有两种模式：熟悉性（Familiarity）快速但粗糙，回忆（Recollection）慢但精确。RF-Mem把这个双系统搬进了Agent的记忆检索。

具体流程：

Step 1 — Probe Retrieval（探针检索）：先做一轮快速Top-K，拿到初步候选集。同时计算两个信号：平均相似度（候选和问题的匹配程度）和分布熵（候选之间的多样性——熵高说明候选分散，可能没找对方向）。

Step 2 — Familiarity路径 vs Recollection路径：如果平均相似度高且分布熵低（说明"很熟悉，候选很集中"），直接走Familiarity路径，返回Top-K结果——这是"快检索"。如果相似度低或熵高（"不确定，候选很分散"），启动Recollection路径——在嵌入空间里逐步重构证据链，把真正关键的证据一点点"回忆"出来。

这个设计的实用价值非常直接：对于简单明确的问题（"我的API Key是什么？"），系统秒回；对于模糊复杂的问题（"帮我总结一下上个月讨论过的所有技术方案的优缺点"），系统会"想一想"，在嵌入空间里多做几次传播，再给出答案。

3.2 实验：在三个基准上稳定提升

RF-Mem在PersonaMem、PersonaBench和LongMemEval三个基准上取得了稳定提升。论文特别强调了固定预算和延迟约束下的表现——这意味着RF-Mem不仅效果好，而且在工程上可控：你可以设定"最多花500ms做回忆"，系统会自动在Familiarity和Recollection之间做权衡。

对比MemGAS：MemGAS是"全量多颗粒度图传播"，效果更好但计算开销更大；RF-Mem是"按需切换双模式"，在延迟敏感场景下更有优势。两套方案其实是互补关系。

四、AMemGym（美团）：第一次认真评测"Agent记忆"的真实循环

前两篇论文关注"怎么让检索更好"，美团这篇AMemGym关注的则是更底层的问题：你怎么知道你的记忆系统真的好用？

4.1 静态评测的致命缺陷

现有记忆评测几乎全部是"离策略"（off-policy）的：扔一堆对话历史进去，看能不能回答对。但真实Agent场景是同策略（on-policy）循环的：

Agent读记忆 → 生成回答 → 用户反馈 → 新记忆写入 → 下次再读记忆

这个循环中有一个关键问题：记忆的读写会互相影响。坏的记忆检索会导致错的回答，错的回答会产生坏的新记忆，坏的新记忆又会进一步恶化后续检索——这是一个反馈回路。静态评测完全捕捉不到这个动力学过程，导致论文数据好看、上线拉胯的"重用偏差"（reuse bias）。

4.2 AMemGym的解决方案：用户模拟器+结构化数据

AMemGym的核心创新：构建一个交互式评测环境，用用户模拟器来模拟真实的多轮对话循环，从而在同策略（on-policy） setting下评测记忆系统的端到端表现。

具体做法：

• 用LLM构建用户模拟器，能够根据场景设定，持续多轮地"扮演"一个真实用户（有记忆、有偏好、有上下文）
• 构建关联结构化数据，确保评测的可重复性（每次跑同一个seed，用户行为一致）
• 对记忆生命周期进行分解诊断：读记忆→写记忆→更新记忆，每个环节单独打分，告诉你"是检索不行，还是写入不行"

更重要的是，AMemGym可以作为一个持续学习模拟环境来用——你可以在上面训练"如何让Agent自己优化自己的记忆策略"，而不只是评测静态指标。

对业界的意义：这篇论文第一次提供了一套可操作的Agent记忆评测标准。以后做Agent记忆模块，不要再只跑LongMemEval了，用AMemGym跑一下on-policy评测，才知道真实场景下会不会翻车。

五、三篇论文横向对比：选型指南

把三篇放在一起看，它们其实覆盖了Agent记忆系统的三个不同层面：

维度	MemGAS	RF-Mem	AMemGym
解决的核心问题	多颗粒度+图联想检索	快/慢双系统自适应检索	真实循环下的记忆评测
技术路线	图传播（种子节点+阻尼）	双加工理论（Familiarity/Recollection）	用户模拟器+on-policy评测
计算开销	较高（全量图传播）	可控（按需切换）	评测时高（需跑多轮模拟）
工程可用性	✅ 已开源，一行接入	⚠️ 论文已收录，代码待确认	⚠️ 评测框架，需自行集成
适合场景	对检索质量要求高的Agent	延迟敏感、需要自适应	评测/优化记忆系统

选型建议：如果你今天就要接入一个记忆系统，先上MemGAS（有代码、有文档、有API）。如果场景对延迟敏感，研究一下RF-Mem的双系统思路，按需集成。如果你在做Agent记忆模块的研发，用AMemGym做评测基准，别再用静态数据集自嗨了。

六、从ICLR 2026看Agent记忆的下一个战场

把这三篇论文放在一起来看，一个清晰的信号浮现出来：Agent领域正在从"模型能力竞赛"过渡到"系统工程竞赛"。记忆，就是下一个瓶颈和突破口。

趋势一：多颗粒度将成为标配。单一颗粒度的记忆方案会像单一卷积核的CNN一样，被历史淘汰。未来主流Agent框架（LangChain、AutoGen、OpenClaw）都会内置多颗粒度记忆模块。

趋势二：检索≠搜索，记忆需要"动力学"。静态Top-K检索会被动态图传播/双系统自适应检索替代。未来Agent的记忆检索会像一个"小模型"一样，有自己的状态、反馈和自适应逻辑。

趋势三：评测标准正在重建。ICLR 2026之后，静态记忆评测数据集（LongMemEval等）会继续用，但工业界会逐步转向on-policy评测。谁能建立事实上的评测标准，谁就掌握了Agent记忆方向的话语权。

趋势四：记忆+持续学习=终极形态。Google DeepMind预言2026是"持续学习元年"，Anthropic CEO确认持续学习将在2026年实用化。当Agent既能"记住"（MemGAS/RF-Mem），又能"从记忆中学习"（持续学习），才是真正意义上的"不遗忘的AI助手"。

一句话总结：ICLR 2026的这三篇记忆论文，不是三个孤立的技术点，而是Agent记忆系统从"能用"到"好用"的必经之路上的三块路标。现在接入，刚好赶在大规模落地之前。

数据来源于：https://minigpt.top/console/posts/editor?name=33e9e653-e362-4ece-8bf1-56876fd51da1

菜单

分享

ICLR 2026记忆三剑客：MemGAS/RF-Mem/AMemGym，Agent终于不再失忆了

一、为什么你的Agent总是"失忆"？三大病灶诊断

二、MemGAS：多颗粒度+图传播，让Agent"联想式"回忆

2.1 核心思路：四层记忆，图结构关联

2.2 检索算法：不是Top-K，是种子节点+阻尼传播

2.3 实验数据：全面碾压单颗粒度基线

2.4 一行代码接入：已经可以跑了

三、RF-Mem：借鉴认知科学，让Agent拥有"快检索"和"慢回忆"双系统

3.1 核心洞察：一次性Top-K检索是不够的

3.2 实验：在三个基准上稳定提升

四、AMemGym（美团）：第一次认真评测"Agent记忆"的真实循环

4.1 静态评测的致命缺陷

4.2 AMemGym的解决方案：用户模拟器+结构化数据

五、三篇论文横向对比：选型指南

六、从ICLR 2026看Agent记忆的下一个战场

mem0 支持的图形数据库

9 种主流的 RAG（AI 检索增强）技术

langfuse可观测平台

Hello Halo

SFT、RL、OPD 不是三种训练技巧，而是三种”策略分布塑形”方式

Codex自我蒸馏玩法火了！OpenAI员工亲授：复制粘贴就能让AI消灭重复劳动

长篇白话系列：大模型之MoE（Mixture of Experts）

ICLR 2026记忆三剑客：MemGAS/RF-Mem/AMemGym，Agent终于不再失忆了

Agent Skills 综述

Anthropic 再发长文：首次详细揭秘Agent的评估全过程