速读顶会论文：GoodSpeed - 让分布式LLM推理既快又公平的自适应推测解码框架-港品优选

论文标题：
GoodSpeed: Optimizing Fair Goodput with Adaptive Speculative Decoding in Distributed Edge Inference
论文链接：
https://arxiv.org/pdf/2512.09963

GoodSpeed解决了多用户分布式LLM推理中资源分配不公平和效率低下的问题，通过梯度调度算法动态分配推测解码任务，在保证公平性的同时将系统吞吐量提升了25-40%。

当前，大型语言模型在边缘设备上的部署面临一个核心矛盾：轻量级模型响应快但精度不足，而高精度大模型又难以满足实时性要求。推测解码技术虽然能加速推理，但在分布式边缘环境中，多个轻量级"草案"服务器同时向中央验证服务器提交任务时，如何公平高效地分配有限的计算资源成为了关键瓶颈。

传统的静态分配方案要么造成资源浪费（如固定配额），要么导致某些用户长期被"饿死"（如随机分配）。特别是在用户负载动态变化、提示词类型各异的真实场景中，缺乏一个能够自适应调整的智能调度机制。

GoodSpeed的核心思想可以类比为一个"智能交通管理系统"：多个草案服务器就像不同方向来的车辆，验证服务器则是有限的通行路口。系统通过实时监测各方向的"车流量"（接受率）来动态调整绿灯时间。

三个关键技术组件：

企业官网建设流程全解析