多智能体推理中的流式通信协议-港品优选

多智能体推理中的流式通信协议

论文来源: arXiv:2606.05158 |主题: 多智能体推理、流式通信、Pipeline Parallelism、Scaling Law

📌 摘要与核心贡献

传统多智能体推理系统采用“生成后传输”（Generate-then-Transfer）协议，上游智能体必须生成完整回答后，下游智能体才能开始工作。这导致延迟随流水线深度线性增长，且下游智能体必须等待阻塞。

本文提出STREAMMA，一种基于**推理步骤级（Reasoning-step-level）**流式通信的多智能体系统。其核心思想是：上游智能体每生成一个推理步骤，就立即将其推送到下游队列，实现流水线并行。

核心发现：流式通信不仅加速推理，还能提升准确性。因为多步推理的质量是非均匀的，早期步骤通常更可靠，而后期步骤容易出错。流式协议让下游智能体从最可靠的步骤前缀开始推理，当后期错误步骤到达时，下游已生成自己的推理轨迹，稀释了错误的影响。

🌟 主要贡献

协议（Protocol）：提出 Stream 协议，将传输单位从完整回答细粒度的推理步骤，支持任意 DAG 拓扑的流水线并行。
理论（Theory）：首次给出 Stream、Serial、Single 协议的闭式联合分析，推导有效性排序、加速比上界与成本比率。
实证（Empirics）：在数学、科学、代码等领域的8个基准测试中，STREAMMA 平均提升 7.3 个百分点（最高达 22.4 pp），同时减少等待延迟。
发现（Discovery）：发现“步骤级缩放定律（Step-level Scaling Law）”，即增加每智能体的步骤数（S）可与增加智能体数量（A）互补，同时提升效果与效率。

1. 核心机制与算法

1.1 协议对比

协议	传输单位	等待方式	并行性
Serial (串行)	完整回答	阻塞等待上游结束	无
Stream (流式)	推理步骤	即时推送，无需等待	流水线并行
Single (单智能体)	无上下文	无	无

1.2 算法流程 (Stream Execution)

算法 2: STREAM EXECUTION

1:queue1.put(Q)# 所有智能体并发执行2:fora=1to Ainparallel do3:whilemsg<-queuea.get()do4:ctxa.append(msg)# 流式接收步骤5:steps<-LLM(ctxa,stream=True)# 生成推理步骤6:foreach stepfromsteps do7:ifa<A then8:queuea+1.put(step)# 即时推送至下游9:ctxa.append(step)# KV缓存复用10:endfor11:endwhile12:endfor

2. 理论分析

2.1 有效性排序定理 (Theorem 1)

根据步骤正确性分布，STREAMMA 在特定条件下最优。定义：

pˉ\bar{p}pˉ: 均匀平均步骤正确率
pheadp_{head}phead: 头部加权正确率（早期步骤权重更高）
ptailp_{tail}ptail: 尾部加权正确率（晚期步骤权重更高）
p∗=ϵ/(δ+ϵ)p^* = \epsilon / (\delta + \epsilon)p∗=ϵ/(δ+ϵ): 阈值

条件	排序结果
phead>p∗p_{head} > p^phead>p∗且ptail<p∗p_{tail} < p^ptail<p∗(头强尾弱)	sCorrstream>sCorrserial>sCorrsingle\text{sCorr}_{\text{stream}} > \text{sCorr}_{\text{serial}} > \text{sCorr}_{\text{single}}sCorrstream>sCorrserial>sCorrsingle
pˉ>p∗\bar{p} > p^pˉ>p∗且ptail>p∗p_{tail} > p^ptail>p∗(全阶段有效)	sCorrserial>sCorrstream>sCorrsingle\text{sCorr}_{\text{serial}} > \text{sCorr}_{\text{stream}} > \text{sCorr}_{\text{single}}sCorrserial>sCorrstream>sCorrsingle
phead<p∗p_{head} < p^phead<p∗且pˉ<p∗\bar{p} < p^pˉ<p∗(头弱全弱)	sCorrsingle>sCorrstream>sCorrserial\text{sCorr}_{\text{single}} > \text{sCorr}_{\text{stream}} > \text{sCorr}_{\text{serial}}sCorrsingle>sCorrstream>sCorrserial

关键推论：STREAMMA 优势源于“头强尾弱”模式，这是大模型推理中典型的误差累积现象。

2.2 加速比上界 (Theorem 2)

Speedup=A[(S+rpo)rdp+S](S+A−1)(1+αrdp+βrdc) \text{Speedup} = \frac{A \left[ (S + r_{po}) r_{dp} + S \right]}{(S + A - 1)(1 + \alpha r_{dp} + \beta r_{dc})}Speedup=(S+A−1)(1+αrdp+βrdc)A[(S+rpo)rdp+S]
其中：

AAA: 智能体数量，SSS: 每智能体步骤数
rdpr_{dp}rdp: 解码与预填速度比，rdcr_{dc}rdc: 解码与缓存读取速度比
α\alphaα: 非缓存上下文令牌平均数，β\betaβ: 缓存命中令牌平均数

当缓存读取极快 (vc≫vdv_c \gg v_dvc≫vd) 且预填速度远大于解码 (rdp→0r_{dp} \to 0rdp→0) 时，加速比上界收敛至经典流水线理论上限：
Speedupmax=ASS+A−1 \text{Speedup}_{\text{max}} = \frac{AS}{S + A - 1}Speedupmax=S+A−1AS

2.3 成本比率 (Theorem 3)

CoststreamCostserial=ρ⋅rcpd(α+rccpβ)+1rcpd(1+rpo/S)+1 \frac{\text{Cost}_{\text{stream}}}{\text{Cost}_{\text{serial}}} = \frac{\rho \cdot r_{cpd}(\alpha + r_{ccp}\beta) + 1}{r_{cpd}(1 + r_{po}/S) + 1}CostserialCoststream=rcpd(1+rpo/S)+1ρ⋅rcpd(α+rccpβ)+1
其中ρ\rhoρ为输出长度比率。当解码主导成本 (rcpd→0r_{cpd} \to 0rcpd→0) 且启用前缀缓存时，STREAMMA 成本显著低于串行协议。

3. 实验结果

3.1 有效性评估

模型	拓扑	协议	AIME25	AIME26	HMMT26	GPQA-D	HLE	LCB-G	LCB-E	LCB-T	Avg
Claude Opus 4.6	Chain	Single	67.50	60.00	48.11	83.67	18.60	90.25	77.94	84.31	66.30
Claude Opus 4.6	Chain	Serial	80.42	72.08	63.26	85.86	23.90	91.33	78.64	92.38	73.48
Claude Opus 4.6	Chain	STREAMMA	92.50	89.58	85.61	87.37	26.97	91.50	84.41	95.63	81.70
GPT-5.4	Chain	Serial	60.00	70.42	54.55	75.08	14.66	90.08	97.43	99.02	70.16
GPT-5.4	Chain	STREAMMA	61.25	72.50	59.10	80.30	14.94	91.17	99.30	99.47	72.25

STREAMMA 在 Claude Opus 4.6 上平均提升+7.3 pp（最高峰值在 HMMT 2026 达到+22.4 pp）。
增益与 Serial 基准强度呈逆相关：Serial 基准越强，STREAMMA 相对增益越高。

3.2 步骤级缩放定律 (Step-level Scaling Law)

固定智能体数量AAA，增加每智能体步骤数SSS可一致提升准确性与加速比，形成与“智能体数量缩放”正交的缩放维度。

当A=64,S=64A=64, S=64A=64,S=64时，在 HMMT 2026 基准上达到73.5%准确率，并获得26.9×的流水线加速比（达到理论上限的 83%）。
这证明步骤级缩放与智能体量级缩放是互补而非冗余的。

3.3 成本-准确率帕累托前沿

STREAM×N 的帕累托前沿严格支配串行协议：STREAM×4 (2.75,90.9%2.75, 90.9\%2.75,90.9%) 在成本减半的情况下精度反超 Serial×16 (5.46,89.4%5.46, 89.4\%5.46,89.4%)。启用 KV 缓存可将成本进一步压缩，但准确率不降。

4. 案例研究 (GPQA-Diamond 化学题)

问题: 根据 FTIR 和 NMR 谱图识别有机化合物。
现象: Agent1 在早期步骤正确识别羧酸，但在第3步错误排除选项 B。后续步骤均错误（头强尾弱）。
Serial 协议: Agent2 接收完整输出，继承错误并给出错误答案。
Stream 协议: Agent2 从可靠的前缀步骤开始推理，形成独立轨迹，稀释后期错误，最终得出正确答案。
验证: 符合 Theorem 1 Case I.b 预测，误差扰动实验证实 Stream 在尾部扰动下优势显著（+24.0 pp），而头部扰动下 Serial 占优（-36.0 pp）。

5. 系统提示词 (System Prompts)

STREAMMA 在协议中仅增加一行END_STEP分隔符，保持与串行协议相同的提示词内容。以下为 Chain 拓扑的提示词结构：

[Topology: Chain A→B→C→D] Agent A

You are a problem solver. For each step: solve concisely with key reasoning. After all steps, provide a DETAILED final answer summary. Divide your response into 3 roughly equal parts. End each part with END_STEP on its own line.

[Topology: Chain A→B→C→D] Agent B

You are Agent_B. You receive Agent_A's output. You are a reviewer-and-corrector. For each step: verify correctness briefly, CORRECT ANY ERRORS YOU FIND. CRITICAL REQUIREMENT: 1. YOU MUST CORRECT ERRORS: When found, state “ERROR: [description]” then “CORRECTION: [corrected step]”. 2. Pass forward the MOST ACCURATE version. [Stream only] After your response, output END_STEP on its own line.

(Agent C/D 遵循相同结构，仅拓扑标签和输入来源不同)

6. 局限性与扩展

适用范围: 适用于可分解为步骤的推理任务（如数学、代码、科学），不适用于开放式创意写作等单令牌分类任务。
协议选择器: Theorem 1 提供了条件判断，可根据任务步骤正确性分布选择最优协议。
DAG 拓扑: 算法与理论可自然推广至任意 DAG，只需将 Chain 替换为多前驱节点处理逻辑，成本分析按边独立累加。

📎 附录：资源与配置

项目主页: https://zhenyangcs.github.io/StreamMA-website/
基准测试: OpenCompass (AIME 2025/26, HMMT 2026, GPQA-Diamond, HLE, LiveCodeBench)
实现配置:
- gpqa_gen.py,livecodebench_v6_academic.py,hle_gen.py
- hmmt2026_cascade_eval_gen_6ff468.py,aime2025_cascade_eval_gen_5e9f4f.py
API 定价示例: Claude Opus 4.6 ($5/$25/$0.5 per MTok)；GPT-5.4 (OpenAI)

企业官网建设流程全解析