速读顶会论文:GoodSpeed - 让分布式LLM推理既快又公平的自适应推测解码框架
2026/6/25 18:06:13 网站建设 项目流程
  • 论文标题:

    GoodSpeed: Optimizing Fair Goodput with Adaptive Speculative Decoding in Distributed Edge Inference

  • 论文链接:

    https://arxiv.org/pdf/2512.09963

一句话总结 (TL;DR):

GoodSpeed解决了多用户分布式LLM推理中资源分配不公平和效率低下的问题,通过梯度调度算法动态分配推测解码任务,在保证公平性的同时将系统吞吐量提升了25-40%。

研究背景:为什么这项研究很重要?

当前,大型语言模型在边缘设备上的部署面临一个核心矛盾:轻量级模型响应快但精度不足,而高精度大模型又难以满足实时性要求。推测解码技术虽然能加速推理,但在分布式边缘环境中,多个轻量级"草案"服务器同时向中央验证服务器提交任务时,如何公平高效地分配有限的计算资源成为了关键瓶颈。

传统的静态分配方案要么造成资源浪费(如固定配额),要么导致某些用户长期被"饿死"(如随机分配)。特别是在用户负载动态变化、提示词类型各异的真实场景中,缺乏一个能够自适应调整的智能调度机制。

核心思想与方法:它的解决方案是什么?

GoodSpeed的核心思想可以类比为一个"智能交通管理系统":多个草案服务器就像不同方向来的车辆,验证服务器则是有限的通行路口。系统通过实时监测各方向的"车流量"(接受率)来动态调整绿灯时间。

三个关键技术组件

  1. 分布式推测解码架构:轻量级草案模型在边缘设备上并行生成候选token序列,中央验证服务器批量验证这些草案,显著减少响应时间。

  2. 梯度调度算法:基于对数效用

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询