05-22 · LLM 最新论文速览-港品优选

今日候选池91篇，硬过滤 + LLM 打分后通过评估17篇，精选 Top-10，另列 7 篇速览。

关注方向：多 Agent 系统 / LLM 后训练（RL/SFT） / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易

🌟 精选

1. Self-Evolving Multi-Agent Systems via Decentralized Memory

评分8.3·方向cs.MA · Multiagent Systems ·arxiv2605.22721· PDF

💡 提出DecentMem去中心化双池记忆，让各agent在线重加权利用池与探索池轨迹

多智能体记忆系统LLM agent

摘要：针对自进化多智能体系统普遍依赖集中式记忆、带来通信开销、隐私风险与同质化的问题，本文提出去中心化记忆框架 DecentMem。每个 agent 独立维护 exploitation/exploration 双池记忆，并依据 LLM-as-a-judge 的分阶段反馈在线重加权。理论上可保证全局可达并达到 O(log T) regret；在多种 MAS、Qwen/Gemma 骨干和五类任务上，准确率最高提升 23.8%，token 用量最多降 49%。

评分细项：rel 9.0 / nov 7.8 / prac 8.2 / author 6.0

2. Self-Policy Distillation via Capability-Selective Subspace Projection

评分8.2·方向cs.CL · Computation and Language ·arxiv2605.22675· PDF

💡 提出 SPD：从正确性 token 梯度提取低秩能力子空间，并投影 KV 激活生成自蒸馏数据再做 NTP 微调。

后训练自蒸馏KV投影

摘要：现有自蒸馏要么依赖 correctness filtering、执行反馈等外部信号，成本高且不适用于前沿模型；要么直接用原始自生成数据，易混入风格和格式噪声。本文提出 Self-Policy Distillation (SPD)：从定义正确性的 token 梯度中提取低秩 capability 子空间，在自生成时将 KV activations 投影到该子空间，再用标准 next-token loss 微调。SPD 在代码、数学和选择题上相对无外部信号基线最高提升 13%，较预训练模型最高提升 16%，泛化更强。

评分细项：rel 8.8 / nov 8.0 / prac 7.5 / author 6.0

3. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

评分8.4·方向cs.AI · Artificial Intelligence ·arxiv2605.22794· PDF

💡 MOSS 依据生产故障证据执行 source-level rewriting，经 coding-agent CLI 修改 agent harness 代码。

Agent系统自演化代码重写

摘要：多数自进化 agent 只能修改 prompt、技能文件或工作流，无法触及路由、状态不变量和调度等代码层结构缺陷。MOSS 提出面向生产级 agent substrate 的源码级自重写：从真实失败样本自动整理证据，经多阶段确定性流水线生成候选修改，利用外部 coding-agent CLI 改代码，并通过回放验证、健康探针回滚和用户授权完成上线。结果表明，源码级适应能显著修复长期重复故障，较文本层演化更通用、稳定。

评分细项：rel 9.0 / nov 8.5 / prac 8.0 / author 5.5

4. Memory-R2: Fair Credit Assignment for Long-Horizon Memory-Augmented LLM Agents

评分8.1·方向cs.MA · Multiagent Systems ·arxiv2605.21768· PDF

💡 提出 Memory-R2/LoGo-GRPO，对记忆增强 LLM agent 结合 local 与 global rerollout 做长程信用分配。

后训练RL记忆增强agent长程信用分配

摘要：带记忆的 LLM agent 可跨会话工作，但在多轮 RL 训练中，不同 rollout 会写入不同记忆，导致中间状态不一致，像 GRPO 这类组相对比较因此失真。本文提出 Memory-R2，其核心 LoGo-GRPO 结合全局与局部 group-relative optimization：既保留长程轨迹奖励，又在相同中间记忆状态下重采样比较不同记忆操作，实现更公平的 credit assignment。同时以共享参数联合学习事实提取与记忆管理，提升长期记忆构建与演化。

评分细项：rel 8.8 / nov 8.0 / prac 7.5 / author 5.0

5. Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators

评分7.7·方向cs.MA · Multiagent Systems ·arxiv2605.22343· PDF

💡 SIBYL以Scientific Harness记录试验成败，并回写到规划、验证、写作与系统修复

多智能体自主科研agent workflow

摘要：作者认为自动科研系统的关键不在“论文生成”，而在能否把试错经验转化为后续行为。Sibyl-AutoResearch 围绕 Scientific Trial-and-Error Harness 构建：agent 可执行受限试验，保留正负结果，并把经验反馈到规划、验证、论断范围、写作与流程修复中。论文提出 trial-to-behavior 与 trial-to-harness-behavior 两类可审计转换单元，并在文件驱动系统 SIBYL 中实现；回顾性审计发现多次高置信经验转化，常见流程失误也能被持续修复。

评分细项：rel 8.1 / nov 7.4 / prac 7.8 / author 6.0

6. Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.22642· PDF

💡 构建 Spreadsheet Gym 与 paired start-goal 数据管线，用多轮 RL 微调 Excel 代理处理真实表格工作流。

RL后训练Spreadsheet AgentExcel

摘要：现有 spreadsheet agent 多靠通用 LLM 的提示工程，难以处理真实 Excel 中复杂的多步操作。本文提出 Spreadsheet-RL，在逼真的 Microsoft Excel 环境中用强化学习训练专用 agent。其贡献包括：从在线论坛自动收集起始-目标表格对，构建 Domain-Spreadsheet 基准；设计支持多轮 RL 的 Spreadsheet Gym，通过 Python sandbox 暴露丰富 Excel 工具及路由规则。实验表明，该框架能显著提升通用与行业 spreadsheet 任务表现。

评分细项：rel 7.8 / nov 7.0 / prac 8.5 / author 6.0

7. The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems

评分7.2·方向cs.MA · Multiagent Systems ·arxiv2605.21997· PDF

💡 提出 ActiveGraph 事件溯源式运行时，用 append-only log 实现 agent 的确定性回放、分叉与因果追踪。

agentic workflow事件溯源可回放

摘要：多数 agent 框架以对话循环为核心，日志只是事后附加。本文提出 ActiveGraph，反转这一设计：append-only event log 才是唯一事实源，工作图是其确定性投影，各类函数、类或 LLM 例程仅对图变化做反应并写回新事件。该架构带来三点优势：可从日志确定性重放任意运行、可在任意事件低成本 fork 分支、并可追溯从高层目标到单次模型调用的完整 lineage，为可审计、可分叉和自改进 agent 提供更稳固底座。

评分细项：rel 7.5 / nov 7.0 / prac 8.0 / author 5.0

8. Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents

评分7.1·方向cs.CL · Computation and Language ·arxiv2605.22608· PDF

💡 提出 Agentic CLEAR，在 system/trace/node 三层自动归因代理错误，并据此预测 task success rate。

Agent评测工作流

摘要：随着 agent 更自主地制定策略、执行动作并与环境交互，单靠观测或静态错误 taxonomy 已难以评估其行为。Agentic CLEAR 提出自动、动态且易用的多层评估框架，可在 system、trace、node 三个粒度生成文本化洞察，并构建在 observability 层之上，便于集成且配有直观 UI。作者在四个 benchmark、七类 agent 设置和数万次 LLM 调用上验证，其反馈与人工错误标注高度一致，并能有效预测任务成功率。

评分细项：rel 7.0 / nov 6.5 / prac 8.0 / author 7.0

9. Tokenization with Split Trees

评分7.0·方向cs.CL · Computation and Language ·arxiv2605.22705· PDF

💡 提出 ToaST 分词：用 Split Trees 递归推断并以整数规划选词表，将 token 数较 BPE 降低超 11%。

分词上下文压缩长上下文

摘要：ToaST 提出基于 split tree 的子词分词方法，直接在新的递归推理规则下优化压缩率：先用字节 n-gram 统计将 pretoken 贪心切成二叉树，再通过 IP/LP 近似求解最小总 token 数词表。英语实验中，在 40,960 以上词表规模下较 BPE、WordPiece、UnigramLM 减少 11% 以上 token，并提升 Renyi efficiency；训练 1.5B 模型时 CORE 最优，22 个任务中 13 个第一。

评分细项：rel 7.2 / nov 7.4 / prac 7.2 / author 5.0

10. HarnessAPI: A Skill-First Framework for Unified Streaming APIs and MCP Tools

评分7.3·方向cs.AI · Artificial Intelligence ·arxiv2605.22733· PDF

💡 以 typed skill folder 为单一真源，自动生成 SSE HTTP、OpenAPI 与 FastMCP 工具注册。

Agentic WorkflowMCP工程框架

摘要：HarnessAPI 面向 LLM 工具开发，解决同一 Python 函数需同时维护 HTTP 接口与 MCP 工具的重复工作。它以 typed skill folder 为单一真源，从 handler.py 与 Pydantic schema 自动生成支持 SSE 的流式 API、OpenAPI/Swagger UI 和零配置 MCP 工具；同一 handler 可同时服务流式与 JSON 客户端。六类技能实验显示，相比手写 FastAPI+FastMCP，样板代码减少 74%。

评分细项：rel 7.8 / nov 6.2 / prac 8.7 / author 5.0

📚 速览 · 其他通过评估的工作（7 篇）

一句话扫读，按评分从高到低；点击标题跳转 arxiv。

cs.AI7.1Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention· 💡 在线性注意力中分离 channel-wise erase/write gate，并配合 chunkwise WY 更新稳定压缩记忆。
cs.CV7.0WorldKV: Efficient World Memory with World Retrieval and Compression· 💡 WorldKV 用 World Retrieval 回插历史 KV 块，并以 key-key similarity 压缩冗余 token 维持世界记忆。
cs.CL6.8Beyond Temperature: Hyperfitting as a Late-Stage Geometric Expansion· 💡 把 Hyperfitting 归因于末层 Terminal Expansion，并用 Late-Stage LoRA 仅更新最后几层。
cs.CV6.5Swift Sampling: Selecting Temporal Surprises via Taylor Series· 💡 把视频特征建模为潜空间轨迹，用泰勒展开估计后续路径偏差，选择 temporal surprise 帧用于长视频问答采样。
cs.CV6.3SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers· 💡 SEGA 按去噪步与潜变量频谱自适应缩放 RoPE 注意力，提升 DiT 超训练分辨率生成。
cs.AI6.0Advancing Mathematics Research with AI-Driven Formal Proof Search· 💡 交替执行 LLM 生成与 Lean 验证的 proof-search agent，在 Erdős 与 OEIS 开放题上产出形式化证明。
cs.AI6.0Towards Direct Evaluation of Harness Optimizers via Priority Ranking· 💡 提出 priority ranking，让 harness optimizer 对工具等组件按潜在更新收益排序，替代昂贵 rollout 直接评估步骤级能力。

数据源：arxiv.org · 评分与中文摘要由 LLM 自动生成，仅供初筛参考

企业官网建设流程全解析

🌟 精选

1. Self-Evolving Multi-Agent Systems via Decentralized Memory

2. Self-Policy Distillation via Capability-Selective Subspace Projection

3. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

4. Memory-R2: Fair Credit Assignment for Long-Horizon Memory-Augmented LLM Agents

5. Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators

6. Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

7. The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems

8. Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents

9. Tokenization with Split Trees

10. HarnessAPI: A Skill-First Framework for Unified Streaming APIs and MCP Tools

📚 速览 · 其他通过评估的工作（7 篇）

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

🌟 精选

1. Self-Evolving Multi-Agent Systems via Decentralized Memory

2. Self-Policy Distillation via Capability-Selective Subspace Projection

3. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

4. Memory-R2: Fair Credit Assignment for Long-Horizon Memory-Augmented LLM Agents

5. Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators

6. Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

7. The Log is the Agent: Event-Sourced Reactive Graphs for Auditable, Forkable Agentic Systems

8. Agentic CLEAR: Automating Multi-Level Evaluation of LLM Agents

9. Tokenization with Split Trees

10. HarnessAPI: A Skill-First Framework for Unified Streaming APIs and MCP Tools

📚 速览 · 其他通过评估的工作（7 篇）

热门文章

文章分类

标签云

相关文章

Windows键盘改造指南：5步学会用SharpKeys解锁键盘隐藏潜力

Perplexity同义词生成不一致？揭秘temperature=0.3与top_k=5背后的概率坍缩机制（附熵值可视化调试工具）

观察Taotoken平台在流量高峰期的API响应稳定性与容灾表现

需要专业的网站建设服务？