论文 / 来源:RiT: Vanilla Diffusion Transformers Suffice in Representation Space 原文:https://arxiv.org/abs/2605.21981一句话先看懂:它的思路很直接:把生成放到更合适的表示空间里,模型反而能少折腾、还更稳。
很多人做图像生成,第一反应还是像素空间、扩散模型、变体叠变体。 但这篇 RiT 的意思很明确:有些时候,真正该先改的不是模型结构,而是你把问题放在哪个空间里去学。 作者先把像素、VAE 表示和 DINOv2 表示放在一起比,结论是表示空间本身的几何性质差很多。换句话说,不是所有“能喂进去的特征”,都同样适合做生成。
这类题我会优先把原论文首图贴进来,先用一张图把问题摆在桌面上。
论文速读
这篇论文一共 4 个部分,核心思路是:它的思路很直接:把生成放到更合适的表示空间里,模型反而能少折腾、还更稳
先看问题:图像生成里有个老毛病,大家都太容易把注意力放在“模型是不是更大”。 但对生成任务来说,输入空间本身就是一半答案。如果表示空间太散、太难回归、几何结构太差,再强的 tr…
再看方法:作者先做了一件很务实的事:比较不同表示空间的统计性质。 不是只看维度,而是看有效秩、协方差条件、流形几何这些更底层的东西。结果发现,DINOv2 的表示在很多方面更适…
最后落到结论:对开发者来说,这篇论文最像一个提醒:别只盯着生成器本身,先看看表示空间是不是已经帮了大忙。 如果空间结构选得好,模型可以更轻,训练也更稳,推理阶段还可能更省。 对企业…
你可以把它理解成 问题 → 方法 → 结果 → 落地启示。
图示:论文速读
Figure 6 compares RiT-XL against baselines. Against RAE-XL (DINOv2-S) [44]—a v-prediction DiT-XL with the same encoder, decoder, and parame…
图示:论文速读
Figure 1: Manifold analysis across Pixel, SD-VAE, and DINOv2. (a) PCA spectrum: cumulative variance (top) and per-component variance on log…
它真正解决的是什么问题?
图像生成里有个老毛病,大家都太容易把注意力放在“模型是不是更大”。 但对生成任务来说,输入空间本身就是一半答案。如果表示空间太散、太难回归、几何结构太差,再强的 transformer 也会学得很累。 RiT 这篇论文是在提醒大家,生成难题不只在架构,也在表示。空间选错了,后面很多优化都只是补洞。
图示:它真正解决的是什么问题?
Figure 2: Kurtosis distribution. DINOv2 marginals concentrate tightly around κ=0 (Gaussian); SD-VAE is intermediate; pixels deviate strongly
它是怎么做的?
作者先做了一件很务实的事:比较不同表示空间的统计性质。 不是只看维度,而是看有效秩、协方差条件、流形几何这些更底层的东西。结果发现,DINOv2 的表示在很多方面更适合做流匹配和生成回归。 于是 RiT 的方案就顺着这个结论往前走:冻结表示提取器,把生成主干放在表示空间里训练。架构没有故意做复杂,但训练目标和空间选择变得更顺手了。 这类方法的价值在于,它证明生成质量不一定只靠把模型堆厚,也可以靠把问题摆对。
图示:它是怎么做的?
Figure 3: Cross-class interpolation. Top row of each pair: pixel-space blending xt=(1−t)xa+txb (ghosting artifacts). Bottom row: interpolat…
对开发者和企业意味着什么?
对开发者来说,这篇论文最像一个提醒:别只盯着生成器本身,先看看表示空间是不是已经帮了大忙。 如果空间结构选得好,模型可以更轻,训练也更稳,推理阶段还可能更省。 对企业来说,这种路线更像是一种产品化信号。很多场景真正缺的不是“再大一点的模型”,而是“更容易训练、更稳定、更可控的生成管线”。空间选对以后,工程成本往往会比你想得更低。
图示:对开发者和企业意味着什么?![]()
Figure 8: DINOv2 ODE converges in few Heun steps. Pixel-space truncation error ∥x(K)−x(ref)∥F vs step count K (mean ±1σ over 128 trajectori…
如果你觉得多模型切换Q、工具订阅的流程太繁琐,也可以试试我们的「胜算云」平台,一站式搞定AI创作与开发相关需求。官网:https://www.shengsuanyun.com/?from=CH_5VQOF8WB