RankMixer：工业级推荐系统中排序模型的规模化扩展-港品优选

引言

RankMixer——一种面向统一可扩展特征交互架构的硬件感知模型设计。RankMixer在保持Transformer高并行性的同时，将二次复杂度的自注意力机制替换为多头令牌混合模块以提升效率。此外，通过逐令牌前馈网络，RankMixer实现了对异构特征子空间的独立建模与跨特征空间交互。稀疏混合专家（Sparse-MoE）变体，将参数量提升至十亿级以获得更高投资回报率，并采用动态路由策略缓解专家训练不充分与负载不均衡问题。实验表明，RankMixer在万亿级生产数据集上展现出卓越的扩展能力：通过替换原有低MFU的手工设计模块，模型MFU从4.5%提升至45%，在线排序模型参数量扩展两个数量级的同时保持近似推理延迟。

现有模型问题

早期模型仅通过拓宽或堆叠特征交互层进行扩展，未改变模型结构，这种方式带来的性能提升有限甚至可能产生负面效果。
DHEN和Wukong则聚焦于设计创新的深度神经网络结构以提升扩展性能。然而，在推荐领域的挑战为，工业级推荐系统必须严格遵循毫秒级延迟约束，并支持极高的每秒查询量（QPS）。因此，核心在于寻找模型效能与计算效率的最佳平衡点。
历史上，推荐系统的排序模型架构深受CPU时代设计理念影响。这类模型通常依赖组合异构的手工交叉特征模块来提取特征交互，但其核心算子在现代GPU上多受限于内存带宽而非计算能力，导致GPU并行效率低下，模型浮点运算利用率常低于个位数百分比。此外，由于CPU时代模型的计算成本与参数量大致成正比，即便扩展定律提示激进扩参可能带来回报，实践中仍难以实现理想的投入产出比。

核心创新

提出RankMixer架构，遵循硬件感知的模型设计理念设计了多头令牌混合与逐令牌前馈网络策略，以高效捕捉异构特征交互，并采用动态路由策略提升RankMixer中稀疏混合专家模型的可扩展性。
通过利用高模型浮点运算利用率（MFU）和性能优化的杠杆，我们在不增加推理成本的情况下，将模型参数规模扩展了70 × 70 \times70×，包括提升MFU和量化技术。
在万亿级别的工业推荐数据集上进行了广泛的离线与在线实验，并探究了模型的扩展规律。RankMixer模型已成功部署于抖音信息流推荐排序系统，实现全流量服务，使活跃天数和应用使用时长分别提升0.3%和1.08%。

整体架构

RankMixer的整体架构包含T个输入标记，这些标记经过L个连续的RankMixer块处理，随后接一个输出池化操作。每个RankMixer块包含两个主要组件：(1) 多头令牌混合层，以及(2) 逐令牌前馈网络层，如图所示。首先，输入向量e i n p u t \mathbf{e}_{\mathrm{input}}einput被切分为T个特征令牌x 1 , x 2 , … , x T \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_Tx1,x2,…,xT，每个令牌代表一个连贯的特征向量。RankMixer块通过以下方式对标记表示进行L层迭代优化：
S n − 1 = L N ( T o k e n M i x i n g ( X n − 1 ) + X n − 1 ) , X n = LN ⁡ ( PFFN ⁡ ( S n − 1 ) + S n − 1 ) , (1) \begin{array}{l} \mathrm {S} _ {n - 1} = \mathrm {L N} (\text {T o k e n M i x i n g} (\mathrm {X} _ {n - 1}) + \mathrm {X} _ {n - 1}), \\ \mathrm {X} _ {n} = \operatorname {L N} \left(\operatorname {P F F N} \left(\mathrm {S} _ {n - 1}\right) + \mathrm {S} _ {n - 1}\right), \tag {1} \\ \end{array}Sn−1=LN(T o k e n M i x i n g(Xn−1)+Xn−1),Xn=LN(PFFN(Sn−1)+Sn−1),(1)
其中L N ( ⋅ ) \mathrm{LN}(\cdot)LN(⋅)表示层归一化函数，TokenMixing(⋅ \cdot⋅) 与 PFFN(⋅ \cdot⋅) 分别为多头令牌混合模块与逐令牌前馈网络模块，X n ∈ R T × D \mathbf{X}_n \in \mathbb{R}^{T \times D}Xn∈RT×D是第n nn个 RankMixer 块的输出，X 0 ∈ R T × D \mathbf{X}_0 \in \mathbb{R}^{T \times D}X0∈RT×D由x 1 , x 2 , … , x T \mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_Tx1,x2,…,xT堆叠而成，D DD为模型的隐藏维度。输出表示o o u t p u t \mathbf{o}_{\mathrm{output}}ooutput源自最终层表示X L \mathbf{X}_LXL的平均池化，该表示将用于计算不同任务的预测结果。

输入层和特征令牌化

为了后续阶段的高效并行计算，需要将所有特征的嵌入向量转换为维度相同向量，称为特征令牌。即Token化，具体逻辑是将所有嵌入向量分组，通过设定值D在每个组内划分向量，对维度不够D的做映射，最终生成T个D维的向量，组合成RankMixer的输入Token序列。
- 这么做的原因：
  - 若每个特征做一个Token，Token越多，每个Token分到的计算参数就越少，导致重要特征训练不足，GPU利用率低下

RankMixer模块

Multi-head Token Mixing

为了做高效的特征交叉，将每个Token（令牌）划分为H个头，令牌x t \mathbf{x}_txt的第h hh个头记为x t h x_t^hxth：
[ x t ( 1 ) ∥ x t ( 2 ) ∥ … ∥ x t ( H ) ] = SplitHead ⁡ ( x t ) . (3) \left[ \mathbf {x} _ {t} ^ {(1)} \| \mathbf {x} _ {t} ^ {(2)} \| \dots \| \mathbf {x} _ {t} ^ {(H)} \right] = \operatorname {S p l i t H e a d} \left(\mathbf {x} _ {t}\right). \tag {3}[xt(1)∥xt(2)∥…∥xt(H)]=SplitHead(xt).(3)
这些头部可视为将标记x t \mathbf{x}_txt投影到低维特征子空间，因为推荐任务需要从不同视角进行考量。Token混合用于融合这些子空间向量以实现全局特征交互。形式上，经过多头标记混合后，第h hh个头部对应的第h hh个标记s h \mathbf{s}^hsh构建如下：
s h = Concat ⁡ ( x 1 h , x 2 h , … , x T h ) . (4) \mathbf {s} ^ {h} = \operatorname {C o n c a t} \left(\mathbf {x} _ {1} ^ {h}, \mathbf {x} _ {2} ^ {h}, \dots , \mathbf {x} _ {T} ^ {h}\right). \tag {4}sh=Concat(x1h,x2h,…,xTh).(4)
多头令牌混合模块的输出为S ∈ R H × T D H \mathbf{S} \in \mathbb{R}^{H \times \frac{T D}{H}}S∈RH×HTD，由所有重排后的令牌s 1 , s 2 , … , s H \mathbf{s}_1, \mathbf{s}_2, \dots, \mathbf{s}_Hs1,s2,…,sH堆叠而成。本研究中，论文中设定H = T H = TH=T以保持令牌混合后残差连接所需的令牌数量不变。
最后的形式如下：
s 1 , s 2 , … , s T = LN ⁡ ( 令牌混合 ( x 1 , x 2 , … , x T ) + ( x 1 , x 2 , … , x T ) ) (5) \mathbf {s} _ {1}, \mathbf {s} _ {2}, \dots , \mathbf {s} _ {T} = \operatorname {L N} (\text {令牌混合} (\mathbf {x} _ {1}, \mathbf {x} _ {2}, \dots , \mathbf {x} _ {T}) + (\mathbf {x} _ {1}, \mathbf {x} _ {2}, \dots , \mathbf {x} _ {T})) \tag {5}s1,s2,…,sT=LN(令牌混合(x1,x2,…,xT)+(x1,x2,…,xT))(5)
为何不用自注意机制：
- 自注意力机制使用内积计算相似度，默认所有Token都在同一个语义空间，而在推荐系统中，不同的特征可能并不在同一个语义空间中，所以从使用自注意力机制带来的效果和效率方面看，不如使用无参数的多头Token混合方法。

Per-Token FFN

实际上就是每个Token单独对应一个FFN全连接层，参数独立计算，保证模型在不用的特征子空间中学习多样性，不会让高频字段占主导地位。且保持计算复杂度不变。

Sparse-Moe

在后续对Per-Token FFN做优化，将每个Per-Token的稠密前馈网络替换为Sparse-Moe结构，让模型在容量增长的同时计算成本大致保持不变。

然而，在RankMixer中，传统的稀疏专家混合方案效果会下降，原因在于：(i) 均匀的k专家路由机制。Top-k选择对所有特征令牌一视同仁，导致低信息量令牌浪费计算资源，而高信息量令牌却资源不足，这阻碍了模型捕捉令牌间的差异。(ii) 专家训练不足。每个令牌的前馈网络已经将参数数量乘以令牌数；添加非共享专家会进一步激增专家数量，导致路由高度不平衡，专家训练效果不佳。

RankMixer 中使用ReLU路由结合l 1 l1l1惩罚代替常见的Top-k+softmax机制。
对于令牌s i ∈ R d h s_i \in \mathbb{R}^{d_h}si∈Rdh及其第j jj个专家e i , j ( ⋅ ) e_{i,j}(\cdot)ei,j(⋅)，通过路由器h ( ⋅ ) h(\cdot)h(⋅)计算：
G i , j = ReLU ⁡ ( h ( s i ) ) , v i = ∑ j = 1 N e G i , j e i , j ( s i ) , (10) G_{i,j} = \operatorname{ReLU}\left(h\left(\mathbf{s}_{i}\right)\right), \quad \mathbf{v}_{i} = \sum_{j=1}^{N_{e}} G_{i,j} e_{i,j}\left(\mathbf{s}_{i}\right), \tag{10}Gi,j=ReLU(h(si)),vi=j=1∑NeGi,jei,j(si),(10)
其中N e N_{e}Ne表示每个词元的专家数量，N t N_{t}Nt表示词元总数。ReLU路由机制将为高信息量词元激活更多专家，从而提升参数效率。稀疏性通过L r e g \mathcal{L}_{\mathrm{reg}}Lreg正则项进行调控，其系数λ \lambdaλ使平均激活专家比例维持在预算阈值附近：
L = L 任务 + λ L 正则 , L 正则 = ∑ i = 1 N t ∑ j = 1 N e G i , j . (11) \mathcal {L} = \mathcal {L} _ {\text {任务}} + \lambda \mathcal {L} _ {\text {正则}}, \quad \mathcal {L} _ {\text {正则}} = \sum_ {i = 1} ^ {N _ {t}} \sum_ {j = 1} ^ {N _ {e}} G _ {i, j}. \tag {11}L=L任务+λL正则,L正则=i=1∑Ntj=1∑NeGi,j.(11)
密集训练/稀疏推理（DTSI-MoE）部分，采用两个路由器h t r a i n h_{\mathrm{train}}htrain和h i n f e r h_{\mathrm{infer}}hinfer，且正则化损失L r e g \mathcal{L}_{\mathrm{reg}}Lreg仅作用于h i n f e r h_{\mathrm{infer}}hinfer。训练期间h t r a i n h_{\mathrm{train}}htrain与h i n f e r h_{\mathrm{infer}}hinfer同步更新，而推理阶段仅使用h i n f e r h_{\mathrm{infer}}hinfer。该方法使专家模型在降低推理成本的同时避免了训练不足的问题。

本质上是低成本扩大模型参数的模型。
实验、消融、在线略，具体参考论文 https://arxiv.org/abs/2507.15551

企业官网建设流程全解析

引言

现有模型问题

核心创新

整体架构

输入层和特征令牌化

RankMixer模块

Multi-head Token Mixing

Per-Token FFN

Sparse-Moe

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

引言

现有模型问题

核心创新

整体架构

输入层和特征令牌化

RankMixer模块

Multi-head Token Mixing

Per-Token FFN

Sparse-Moe

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？