今日候选池91篇,硬过滤 + LLM 打分后通过评估17篇,精选 Top-10,另列 7 篇速览。
关注方向:多 Agent 系统 / LLM 后训练(RL/SFT) / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易
🌟 精选
1. Self-Evolving Multi-Agent Systems via Decentralized Memory
评分8.3·方向cs.MA · Multiagent Systems ·arxiv2605.22721· PDF
💡 提出DecentMem去中心化双池记忆,让各agent在线重加权利用池与探索池轨迹
多智能体记忆系统LLM agent
摘要:针对自进化多智能体系统普遍依赖集中式记忆、带来通信开销、隐私风险与同质化的问题,本文提出去中心化记忆框架 DecentMem。每个 agent 独立维护 exploitation/exploration 双池记忆,并依据 LLM-as-a-judge 的分阶段反馈在线重加权。理论上可保证全局可达并达到 O(log T) regret;在多种 MAS、Qwen/Gemma 骨干和五类任务上,准确率最高提升 23.8%,token 用量最多降 49%。
评分细项:rel 9.0 / nov 7.8 / prac 8.2 / author 6.0
2. Self-Policy Distillation via Capability-Selective Subspace Projection
评分8.2·方向cs.CL · Computation and Language ·arxiv2605.22675· PDF
💡 提出 SPD:从正确性 token 梯度提取低秩能力子空间,并投影 KV 激活生成自蒸馏数据再做 NTP 微调。
后训练自蒸馏KV投影
摘要:现有自蒸馏要么依赖 correctness filtering、执行反馈等外部信号,成本高且不适用于前沿模型;要么直接用原始自生成数据,易混入风格和格式噪声。本文提出 Self-Policy Distillation (SPD):从定义正确性的 token 梯度中提取低秩 capability 子空间,在自生成时将 KV activations 投影到该子空间,再用标准 next-token loss 微调。SPD 在代码、数学和选择题上相对无外部信号基线最高提升 13%,较预训练模型最高提升 16%,泛化更强。
评分细项:rel 8.8 / nov 8.0 / prac 7.5 / author 6.0
3. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems
评分8.4·方向cs.AI · Artificial Intelligence ·arxiv2605.22794· PDF
💡 MOSS 依据生产故障证据执行 source-level rewriting,经 coding-agent CLI 修改 agent harness 代码。
Agent系统自演化代码重写
摘要:多数自进化 agent 只能修改 prompt、技能文件或工作流,无法触及路由、状态不变量和调度等代码层结构缺陷。MOSS 提出面向生产级 agent substrate 的源码级自重写:从真实失败样本自动整理证据,经多阶段确定性流水线生成候选修改,利用外部 coding-agent CLI 改代码,并通过回放验证、健康探针回滚和用户授权完成上线。结果表明,源码级适应能显著修复长期重复故障,较文本层演化更通用、稳定。
评分细项:rel 9.0 / nov 8.5 / prac 8.0 / author 5.5
4. Memory-R2: Fair Credit Assignment for Long-Horizon Memory-Augmented LLM Agents
评分8.1·方向cs.MA · Multiagent Systems ·arxiv2605.21768· PDF
💡 提出 Memory-R2/LoGo-GRPO,对记忆增强 LLM agent 结合 local 与 global rerollout 做长程信用分配。
后训练RL记忆增强agent长程信用分配
摘要:带记忆的 LLM agent 可跨会话工作,但在多轮 RL 训练中,不同 rollout 会写入不同记忆,导致中间状态不一致,像 GRPO 这类组相对比较因此失真。本文提出 Memory-R2,其核心 LoGo-GRPO 结合全局与局部 group-relative optimization:既保留长程轨迹奖励,又在相同中间记忆状态下重采样比较不同记忆操作,实现更公平的 credit assignment。同时以共享参数联合学习事实提取与记忆管理,提升长期记忆构建与演化。
评分细项:rel 8.8 / nov 8.0 / prac 7.5 / author 5.0
5. Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators
评分7.7·方向cs.MA · Multiagent Systems ·arxiv2605.22343· PDF
💡 SIBYL以Scientific Harness记录试验成败,并回写到规划、验证、写作与系统修复
多智能体自主科研agent workflow
摘要:作者认为自动科研系统的关键不在“论文生成”,而在能否把试错经验转化为后续行为。Sibyl-AutoResearch 围绕 Scientific Trial-and-Error Harness 构建:agent 可执行受限试验,保留正负结果,并把经验反馈到规划、验证、论断范围、写作与流程修复中。论文提出 trial-to-behavior 与 trial-to-harness-behavior 两类可审计转换单元,并在文件驱动系统 SIBYL 中实现;回顾性审计发现多次高置信经验转化,常见流程失误也能被持续修复。
评分细项:rel 8.1 / nov 7.4 / prac 7.8 / author 6.0
6. Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning
评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.22642· PDF
💡 构建 Spreadsheet Gym 与 paired start-goal 数据管线,用多轮 RL 微调 Excel 代理处理真实表格工作流。
RL后训练Spreadsheet AgentExcel
摘要:现有 spreadsheet agent 多靠通用 LLM 的提示工程,难以处理真实 Excel 中复杂的多步操作。本文提出 Spreadsheet-RL,在逼真的 Microsoft Excel 环境中用强化学习训练专用 agent。其贡献包括:从在线论坛自动收集起始-目标表格对,构建 Domain-Spreadsheet 基准;设计支持多轮 RL 的 Spreadsheet Gym,通过 Python sandbox 暴露丰富 Excel 工具及路由规则。实验表明,该框架能显著提升通用与行业 spreadsheet 任务表现。
评分细项:rel 7.8 / nov 7.0 / prac 8.5 / author 6.0
7. The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems
评分7.2·方向cs.MA · Multiagent Systems ·arxiv2605.21997· PDF
💡 提出 ActiveGraph 事件溯源式运行时,用 append-only log 实现 agent 的确定性回放、分叉与因果追踪。
agentic workflow事件溯源可回放
摘要:多数 agent 框架以对话循环为核心,日志只是事后附加。本文提出 ActiveGraph,反转这一设计:append-only event log 才是唯一事实源,工作图是其确定性投影,各类函数、类或 LLM 例程仅对图变化做反应并写回新事件。该架构带来三点优势:可从日志确定性重放任意运行、可在任意事件低成本 fork 分支、并可追溯从高层目标到单次模型调用的完整 lineage,为可审计、可分叉和自改进 agent 提供更稳固底座。
评分细项:rel 7.5 / nov 7.0 / prac 8.0 / author 5.0
8. Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents
评分7.1·方向cs.CL · Computation and Language ·arxiv2605.22608· PDF
💡 提出 Agentic CLEAR,在 system/trace/node 三层自动归因代理错误,并据此预测 task success rate。
Agent评测工作流
摘要:随着 agent 更自主地制定策略、执行动作并与环境交互,单靠观测或静态错误 taxonomy 已难以评估其行为。Agentic CLEAR 提出自动、动态且易用的多层评估框架,可在 system、trace、node 三个粒度生成文本化洞察,并构建在 observability 层之上,便于集成且配有直观 UI。作者在四个 benchmark、七类 agent 设置和数万次 LLM 调用上验证,其反馈与人工错误标注高度一致,并能有效预测任务成功率。
评分细项:rel 7.0 / nov 6.5 / prac 8.0 / author 7.0
9. Tokenization with Split Trees
评分7.0·方向cs.CL · Computation and Language ·arxiv2605.22705· PDF
💡 提出 ToaST 分词:用 Split Trees 递归推断并以整数规划选词表,将 token 数较 BPE 降低超 11%。
分词上下文压缩长上下文
摘要:ToaST 提出基于 split tree 的子词分词方法,直接在新的递归推理规则下优化压缩率:先用字节 n-gram 统计将 pretoken 贪心切成二叉树,再通过 IP/LP 近似求解最小总 token 数词表。英语实验中,在 40,960 以上词表规模下较 BPE、WordPiece、UnigramLM 减少 11% 以上 token,并提升 Renyi efficiency;训练 1.5B 模型时 CORE 最优,22 个任务中 13 个第一。
评分细项:rel 7.2 / nov 7.4 / prac 7.2 / author 5.0
10. HarnessAPI: A Skill-First Framework for Unified Streaming APIs and MCP Tools
评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2605.22733· PDF
💡 以 typed skill folder 为单一真源,自动生成 SSE HTTP、OpenAPI 与 FastMCP 工具注册。
Agentic WorkflowMCP工程框架
摘要:HarnessAPI 面向 LLM 工具开发,解决同一 Python 函数需同时维护 HTTP 接口与 MCP 工具的重复工作。它以 typed skill folder 为单一真源,从 handler.py 与 Pydantic schema 自动生成支持 SSE 的流式 API、OpenAPI/Swagger UI 和零配置 MCP 工具;同一 handler 可同时服务流式与 JSON 客户端。六类技能实验显示,相比手写 FastAPI+FastMCP,样板代码减少 74%。
评分细项:rel 7.8 / nov 6.2 / prac 8.7 / author 5.0
📚 速览 · 其他通过评估的工作(7 篇)
一句话扫读,按评分从高到低;点击标题跳转 arxiv。
cs.AI7.1Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention· 💡 在线性注意力中分离 channel-wise erase/write gate,并配合 chunkwise WY 更新稳定压缩记忆。cs.CV7.0WorldKV: Efficient World Memory with World Retrieval and Compression· 💡 WorldKV 用 World Retrieval 回插历史 KV 块,并以 key-key similarity 压缩冗余 token 维持世界记忆。cs.CL6.8Beyond Temperature: Hyperfitting as a Late-Stage Geometric Expansion· 💡 把 Hyperfitting 归因于末层 Terminal Expansion,并用 Late-Stage LoRA 仅更新最后几层。cs.CV6.5Swift Sampling: Selecting Temporal Surprises via Taylor Series· 💡 把视频特征建模为潜空间轨迹,用泰勒展开估计后续路径偏差,选择 temporal surprise 帧用于长视频问答采样。cs.CV6.3SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers· 💡 SEGA 按去噪步与潜变量频谱自适应缩放 RoPE 注意力,提升 DiT 超训练分辨率生成。cs.AI6.0Advancing Mathematics Research with AI-Driven Formal Proof Search· 💡 交替执行 LLM 生成与 Lean 验证的 proof-search agent,在 Erdős 与 OEIS 开放题上产出形式化证明。cs.AI6.0Towards Direct Evaluation of Harness Optimizers via Priority Ranking· 💡 提出 priority ranking,让 harness optimizer 对工具等组件按潜在更新收益排序,替代昂贵 rollout 直接评估步骤级能力。
数据源:arxiv.org · 评分与中文摘要由 LLM 自动生成,仅供初筛参考