多智能体推理中的流式通信协议
论文来源: arXiv:2606.05158 |主题: 多智能体推理、流式通信、Pipeline Parallelism、Scaling Law
📌 摘要与核心贡献
传统多智能体推理系统采用“生成后传输”(Generate-then-Transfer)协议,上游智能体必须生成完整回答后,下游智能体才能开始工作。这导致延迟随流水线深度线性增长,且下游智能体必须等待阻塞。
本文提出STREAMMA,一种基于**推理步骤级(Reasoning-step-level)**流式通信的多智能体系统。其核心思想是:上游智能体每生成一个推理步骤,就立即将其推送到下游队列,实现流水线并行。
核心发现:流式通信不仅加速推理,还能提升准确性。因为多步推理的质量是非均匀的,早期步骤通常更可靠,而后期步骤容易出错。流式协议让下游智能体从最可靠的步骤前缀开始推理,当后期错误步骤到达时,下游已生成自己的推理轨迹,稀释了错误的影响。
🌟 主要贡献
- 协议(Protocol):提出 Stream 协议,将传输单位从完整回答细粒度的推理步骤,支持任意 DAG 拓扑的流水线并行。
- 理论(Theory):首次给出 Stream、Serial、Single 协议的闭式联合分析,推导有效性排序、加速比上界与成本比率。
- 实证(Empirics):在数学、科学、代码等领域的8个基准测试中,STREAMMA 平均提升 7.3 个百分点(最高达 22.4 pp),同时减少等待延迟。
- 发现(Discovery):发现“步骤级缩放定律(Step-level Scaling Law)”,即增加每智能体的步骤数(S)可与增加智能体数量(A)互补,同时提升效果与效率。
1. 核心机制与算法
1.1 协议对比
| 协议 | 传输单位 | 等待方式 | 并行性 |
|---|---|---|---|
| Serial (串行) | 完整回答 | 阻塞等待上游结束 | 无 |
| Stream (流式) | 推理步骤 | 即时推送,无需等待 | 流水线并行 |
| Single (单智能体) | 无上下文 | 无 | 无 |
1.2 算法流程 (Stream Execution)
算法 2: STREAM EXECUTION
1:queue1.put(Q)# 所有智能体并发执行2:fora=1to Ainparallel do3:whilemsg<-queuea.get()do4:ctxa.append(msg)# 流式接收步骤5:steps<-LLM(ctxa,stream=True)# 生成推理步骤6:foreach stepfromsteps do7:ifa<A then8:queuea+1.put(step)# 即时推送至下游9:ctxa.append(step)# KV缓存复用10:endfor11:endwhile12:endfor2. 理论分析
2.1 有效性排序定理 (Theorem 1)
根据步骤正确性分布,STREAMMA 在特定条件下最优。定义:
- pˉ\bar{p}pˉ: 均匀平均步骤正确率
- pheadp_{head}phead: 头部加权正确率(早期步骤权重更高)
- ptailp_{tail}ptail: 尾部加权正确率(晚期步骤权重更高)
- p∗=ϵ/(δ+ϵ)p^* = \epsilon / (\delta + \epsilon)p∗=ϵ/(δ+ϵ): 阈值
| 条件 | 排序结果 |
|---|---|
| phead>p∗p_{head} > p^*phead>p∗且ptail<p∗p_{tail} < p^*ptail<p∗(头强尾弱) | sCorrstream>sCorrserial>sCorrsingle\text{sCorr}_{\text{stream}} > \text{sCorr}_{\text{serial}} > \text{sCorr}_{\text{single}}sCorrstream>sCorrserial>sCorrsingle |
| pˉ>p∗\bar{p} > p^*pˉ>p∗且ptail>p∗p_{tail} > p^*ptail>p∗(全阶段有效) | sCorrserial>sCorrstream>sCorrsingle\text{sCorr}_{\text{serial}} > \text{sCorr}_{\text{stream}} > \text{sCorr}_{\text{single}}sCorrserial>sCorrstream>sCorrsingle |
| phead<p∗p_{head} < p^*phead<p∗且pˉ<p∗\bar{p} < p^*pˉ<p∗(头弱全弱) | sCorrsingle>sCorrstream>sCorrserial\text{sCorr}_{\text{single}} > \text{sCorr}_{\text{stream}} > \text{sCorr}_{\text{serial}}sCorrsingle>sCorrstream>sCorrserial |
关键推论:STREAMMA 优势源于“头强尾弱”模式,这是大模型推理中典型的误差累积现象。
2.2 加速比上界 (Theorem 2)
Speedup=A[(S+rpo)rdp+S](S+A−1)(1+αrdp+βrdc) \text{Speedup} = \frac{A \left[ (S + r_{po}) r_{dp} + S \right]}{(S + A - 1)(1 + \alpha r_{dp} + \beta r_{dc})}Speedup=(S+A−1)(1+αrdp+βrdc)A[(S+rpo)rdp+S]
其中:
- AAA: 智能体数量,SSS: 每智能体步骤数
- rdpr_{dp}rdp: 解码与预填速度比,rdcr_{dc}rdc: 解码与缓存读取速度比
- α\alphaα: 非缓存上下文令牌平均数,β\betaβ: 缓存命中令牌平均数
当缓存读取极快 (vc≫vdv_c \gg v_dvc≫vd) 且预填速度远大于解码 (rdp→0r_{dp} \to 0rdp→0) 时,加速比上界收敛至经典流水线理论上限:
Speedupmax=ASS+A−1 \text{Speedup}_{\text{max}} = \frac{AS}{S + A - 1}Speedupmax=S+A−1AS
2.3 成本比率 (Theorem 3)
CoststreamCostserial=ρ⋅rcpd(α+rccpβ)+1rcpd(1+rpo/S)+1 \frac{\text{Cost}_{\text{stream}}}{\text{Cost}_{\text{serial}}} = \frac{\rho \cdot r_{cpd}(\alpha + r_{ccp}\beta) + 1}{r_{cpd}(1 + r_{po}/S) + 1}CostserialCoststream=rcpd(1+rpo/S)+1ρ⋅rcpd(α+rccpβ)+1
其中ρ\rhoρ为输出长度比率。当解码主导成本 (rcpd→0r_{cpd} \to 0rcpd→0) 且启用前缀缓存时,STREAMMA 成本显著低于串行协议。
3. 实验结果
3.1 有效性评估
| 模型 | 拓扑 | 协议 | AIME25 | AIME26 | HMMT26 | GPQA-D | HLE | LCB-G | LCB-E | LCB-T | Avg |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Claude Opus 4.6 | Chain | Single | 67.50 | 60.00 | 48.11 | 83.67 | 18.60 | 90.25 | 77.94 | 84.31 | 66.30 |
| Claude Opus 4.6 | Chain | Serial | 80.42 | 72.08 | 63.26 | 85.86 | 23.90 | 91.33 | 78.64 | 92.38 | 73.48 |
| Claude Opus 4.6 | Chain | STREAMMA | 92.50 | 89.58 | 85.61 | 87.37 | 26.97 | 91.50 | 84.41 | 95.63 | 81.70 |
| GPT-5.4 | Chain | Serial | 60.00 | 70.42 | 54.55 | 75.08 | 14.66 | 90.08 | 97.43 | 99.02 | 70.16 |
| GPT-5.4 | Chain | STREAMMA | 61.25 | 72.50 | 59.10 | 80.30 | 14.94 | 91.17 | 99.30 | 99.47 | 72.25 |
- STREAMMA 在 Claude Opus 4.6 上平均提升+7.3 pp(最高峰值在 HMMT 2026 达到+22.4 pp)。
- 增益与 Serial 基准强度呈逆相关:Serial 基准越强,STREAMMA 相对增益越高。
3.2 步骤级缩放定律 (Step-level Scaling Law)
固定智能体数量AAA,增加每智能体步骤数SSS可一致提升准确性与加速比,形成与“智能体数量缩放”正交的缩放维度。
- 当A=64,S=64A=64, S=64A=64,S=64时,在 HMMT 2026 基准上达到73.5%准确率,并获得26.9×的流水线加速比(达到理论上限的 83%)。
- 这证明步骤级缩放与智能体量级缩放是互补而非冗余的。
3.3 成本-准确率帕累托前沿
STREAM×N 的帕累托前沿严格支配串行协议:STREAM×4 (2.75,90.9%2.75, 90.9\%2.75,90.9%) 在成本减半的情况下精度反超 Serial×16 (5.46,89.4%5.46, 89.4\%5.46,89.4%)。启用 KV 缓存可将成本进一步压缩,但准确率不降。
4. 案例研究 (GPQA-Diamond 化学题)
- 问题: 根据 FTIR 和 NMR 谱图识别有机化合物。
- 现象: Agent1 在早期步骤正确识别羧酸,但在第3步错误排除选项 B。后续步骤均错误(头强尾弱)。
- Serial 协议: Agent2 接收完整输出,继承错误并给出错误答案。
- Stream 协议: Agent2 从可靠的前缀步骤开始推理,形成独立轨迹,稀释后期错误,最终得出正确答案。
- 验证: 符合 Theorem 1 Case I.b 预测,误差扰动实验证实 Stream 在尾部扰动下优势显著(+24.0 pp),而头部扰动下 Serial 占优(-36.0 pp)。
5. 系统提示词 (System Prompts)
STREAMMA 在协议中仅增加一行END_STEP分隔符,保持与串行协议相同的提示词内容。以下为 Chain 拓扑的提示词结构:
[Topology: Chain A→B→C→D] Agent A
You are a problem solver. For each step: solve concisely with key reasoning. After all steps, provide a DETAILED final answer summary. Divide your response into 3 roughly equal parts. End each part with END_STEP on its own line.[Topology: Chain A→B→C→D] Agent B
You are Agent_B. You receive Agent_A's output. You are a reviewer-and-corrector. For each step: verify correctness briefly, CORRECT ANY ERRORS YOU FIND. CRITICAL REQUIREMENT: 1. YOU MUST CORRECT ERRORS: When found, state “ERROR: [description]” then “CORRECTION: [corrected step]”. 2. Pass forward the MOST ACCURATE version. [Stream only] After your response, output END_STEP on its own line.(Agent C/D 遵循相同结构,仅拓扑标签和输入来源不同)
6. 局限性与扩展
- 适用范围: 适用于可分解为步骤的推理任务(如数学、代码、科学),不适用于开放式创意写作等单令牌分类任务。
- 协议选择器: Theorem 1 提供了条件判断,可根据任务步骤正确性分布选择最优协议。
- DAG 拓扑: 算法与理论可自然推广至任意 DAG,只需将 Chain 替换为多前驱节点处理逻辑,成本分析按边独立累加。
📎 附录:资源与配置
- 项目主页: https://zhenyangcs.github.io/StreamMA-website/
- 基准测试: OpenCompass (AIME 2025/26, HMMT 2026, GPQA-Diamond, HLE, LiveCodeBench)
- 实现配置:
gpqa_gen.py,livecodebench_v6_academic.py,hle_gen.pyhmmt2026_cascade_eval_gen_6ff468.py,aime2025_cascade_eval_gen_5e9f4f.py
- API 定价示例: Claude Opus 4.6 ($5/$25/$0.5 per MTok);GPT-5.4 (OpenAI)