菜单

作者:cuilinsu

SFT、RL、OPD 不是三种训练技巧,而是三种”策略分布塑形”方式

2023-2026.05 真实论文时间线复盘 如果你只看 pass@1,会觉得 RLVR 当然赢了;如果你把 pass@k、coverage、retention、steerability 一起放上来,结论就开始变复杂。 过去两年,后训练研究真正发生变化的,不是”谁更强”,而是”到底是谁在改模型的策略

cuilinsu 发布于 2026-05-30

Codex自我蒸馏玩法火了!OpenAI员工亲授:复制粘贴就能让AI消灭重复劳动

https://mp.weixin.qq.com/s/88rTMq9zb5xRkbEEn78I-A?version=5.0.8.99856&platform=mac

cuilinsu 发布于 2026-05-28

企业级知识框架Cortexa:RAG、Agent推理、Wiki实现一个基于大语言模型LLM的知识管理框架

介绍 1.1、Cortexa Cortexa 是一个面向企业生产环境的 RAG 知识平台,围绕三大核心能力构建: RAG 快速问答:适合日常知识查询,毫秒级返回带引用的答案 ReAct Agent 智能推理:自主编排知识检索、MCP 工具与网络搜索,完成复杂

cuilinsu 发布于 2026-05-25

长篇白话系列:大模型之MoE(Mixture of Experts)

在大模型领域里越来越火的技术——MoE(Mixture of Experts)。deepseekV

cuilinsu 发布于 2026-05-18

ICLR 2026记忆三剑客:MemGAS/RF-Mem/AMemGym,Agent终于不再失忆了

你问AI助手"我上周说的那个机器人项目进展怎么样了?",它回答"抱歉,我不太清楚您指的是哪个项目"。不是它不想帮你,是它真的忘了。ICLR 2026上,三篇论文同时出手,试图从根本上解决这个让所有Agent开发者头疼的问题。 一、为什么你的Agent总是"失忆"?三大病灶诊断

cuilinsu 发布于 2026-05-15

Agent Skills 综述

摘要:本文围绕智能体技能创建的最佳实践展开,核心是技能需基于领域专业知识和项目实际细节,而非大模型通用知识;通过实战对话沉淀、现有资产合成、多轮实战优化等路径创建,注重精简留白、合理设计范围与指令,同时通过触发测试、质量评估和脚本规范,形成从创建、优化到验证的完整闭环,确保技能实用、精准、可复用。

cuilinsu 发布于 2026-04-04

Anthropic 再发长文:首次详细揭秘Agent的评估全过程

导语 如何自信地发布AI Agent?没有好的评估(Evals),团队很容易陷入"头痛医头、脚痛医脚"的被动循环——问题总是在生产环境中才暴露,修复一个bug又引发了新的问题。 评估的基本结构 任务(Task): 一个单独的测试,包含明确的输入和成功标准 尝试(Trial): 对一个任务的单次尝试。

cuilinsu 发布于 2025-12-31

mem0 支持的图形数据库

综合对比 特性 Neo4j

cuilinsu 发布于 2025-11-20

程序员的新助手

随着 AI 编程工具从简单的代码补全进化为自主代理,我们正见证着“软件公司最小单位”的重写。单纯的“提示词工程”已不足以应对复杂的企业级开发,我们需要的是工程化的 AI 工作流。 本文将深入对比当前最热门的五款 AI 工程化框架:Superpowers、GStack、BMAD-METHOD、Spec

cuilinsu 发布于 2025-11-07