🏆 1 StreamMA — 多智能体推理的流式革命
arXiv 2606.05158 | cs.CL/cs.AI/cs.MA
📎 https://arxiv.org/abs/2606.05158
一句话核心:
打破「生成完再传输」范式,步骤级流水线让多 Agent 推理又快又准。
技术创新:
Streaming paradigm:
每个 reasoning step 生成后立即推送给下游 Agent,相邻 Agent 并行执行,端到端延迟从 O(depth) 降为 O(1)
意外发现:
流式传输同时提升准确率——早期推理步骤比晚期更可靠,避免错误末步误导下游
步骤级缩放律(Step-Level Scaling Law):
每个 Agent 分配更多步骤,效率和效果同步提升,与 Agent 数量缩放正交可叠加
闭合形式分析:
首次推导 stream/serial/single 三种协议的效果排序、加速上界、成本比
实验结果:
⦁8 个推理基准(数学/科学/代码),Chain/Tree/Graph 三种拓扑
⦁avg. +7.3pp,HMMT 2026 最高 +22.4pp(Claude Opus 4.6-high)
开源: https://zhenyangcs.github.io/StreamMA-website/
🏆 2 AutoLab — 极长视野 Agent 能力基准
arXiv 2606.05080 | cs.AI/cs.LG
📎 https://arxiv.org/abs/2606.05080
一句话核心:
现有 frontier 模型几乎都无法坚持「持续迭代改进」—— 这才是真正的 Agent 挑战。
技术创新:
⦁超长视野闭环优化:36 个专家设计任务,4 类域:系统优化 / CUDA kernel 优化 / 模型研发 / 谜题挑战
⦁每个任务从「正确但次优」基线出发,在严格 wall-clock 预算内持续迭代提升
⦁评估 17 个 SOTA 模型,成功关键因子:不是初次尝试质量,而是持续 benchmark→edit→反馈的迭代次数
⦁多数模型提前停止或耗尽预算,进展极小;Claude-opus-4.6 长视野优化能力最强
洞察: 自主 Agent 的核心能力缺口 = 时间感知 + 持续迭代耐力
开源: https://github.com/autolabhq/autolab
🏆 3 DistIL — 富反馈 RL 超越 RLVR
arXiv 2606.05152 | cs.LG/cs.AI/cs.CL
📎 https://arxiv.org/abs/2606.05152
一句话核心:
用执行轨迹/工具输出/专家纠错替代单 bit 奖励,训练更好的推理模型。
技术创新:
⦁问题定位:RLVR 只用「最终答案对/错」这 1 bit 反馈,丢弃了工具输出、执行轨迹等大量信号
⦁Distributional DAgger:将富反馈建模为 expert 分布上的模仿学习,Learner 本地访问 Expert 策略访问过的状态分布
⦁前向交叉熵目标:未来 expert-student 分歧反向传播到早期决策(丰富的信度分配)
⦁理论保证:证明 reverse KL / Jensen-Shannon 目标不保证单调策略改进;前向 CE 保证单调改进 + regret 界
⦁实证:在科学推理、代码、数学难题上全面优于 RLVR 和自蒸馏 RL
🏆 4 STRIDE — 激活空间训练数据归因(13x 提速)
arXiv 2606.05165 | cs.LG/cs.CL
📎 https://arxiv.org/abs/2606.05165
一句话核心:
不追踪 10 亿参数的梯度,改在激活空间做稀疏恢复——更快更准。
技术创新:
⦁范式转移:将 Training Data Attribution (TDA) 从参数空间(梯度追踪)迁移到激活空间(功能效应建模)
⦁稀疏恢复框架(压缩感知精神):学习轻量「steering operators」模拟数据子集的行为偏移
⦁测量这些 operators 对测试预测的扰动 → 通过稀疏线性分解还原各训练样本的影响力
⦁速度:比 SOTA 快 13x,同时达到更好的 LLM 预训练归因精度
⦁应用:数据选择、数据污染检测、定性分析
🏆 5 R-APS — 受限设计的组合推理方法
arXiv 2606.04823 | cs.AI
📎 https://arxiv.org/abs/2606.04823
一句话核心:
五种推理模式各司其职,三时间尺度编排,解决 LLM Agent 的结构性失败。
技术创新:
⦁三大结构失败诊断:错误无局部化、最坏情况扰动不评估、积累知识永不失效
⦁根因:归纳/反绎/反事实/纠正/元归纳推理共享单一 context,产生冲突
⦁R-APS 解法:每种推理模式独立 context,跨三个时间尺度编排
⦁带类型验证批评的分阶段组合推理(故障定位)
⦁以敏感度引导的反事实压力测试为 Pareto 目标(鲁棒性)
⦁带显式失效机制的元归纳规则提取(持久记忆)
⦁无需微调,在冻结 LLM 上运行
📚 ICLR 2026 推理方向精华(新出炉解读集)
来源: https://papernotes.org/ICLR2026/llm_reasoning/
精选 5 个最值得关注的方向:
① FastGRPO — GRPO 训练加速 2.35-2.72x
⦁并发感知投机解码 + 在线 draft 学习
⦁生成阶段占 91-98% 的瓶颈被针对性攻克
② NuRL(Nudging) — 解决 GRPO 无法从 pass@k=0 难题学习的根本问题
⦁注入自生成抽象 hint,使不可解题变为可学习样本
③ ATTS — 异步 test-time scaling 最高 56.7x 加速
⦁基于 conformal prediction 的假设检验框架
④ CyclicReflex — 免训练的反思 token 调度
⦁三角波形动态调控 logit,1.5B-8B 模型一致性提升
⑤ DRPO — 解耦奖励策略优化
⦁修复 GRPO 长度惩罚的根本缺陷,正确答案不再被误惩罚
🧭 今日技术趋势总结
「持续迭代」已成为 2026 年 Agent 研究的核心命题——AutoLab 直接证明当前所有 frontier 模型的长视野坚持能力都严重不足;StreamMA 则从通信协议层面给出系统性优化路径。