【2025 NeurIPS】Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance-港品优选

paper: https://arxiv.org/pdf/2512.08765
code: https://github.com/ali-vilab/Wan-Move/

核心问题

旨在解决现有运动可控视频生成方法中存在的控制粒度粗糙和模型可扩展性有限的问题。

挑战性：现有的方法通常依赖额外的运动编码器（如 ControlNet），这不仅增加了模型复杂性，还可能在编码过程中导致运动信号衰减，且难以在大规模基础模型上进行高效微调。

关键洞察是：直接通过编辑图像条件特征来注入运动信息，而无需添加任何辅助模块。

动机：利用 VAE 模型的平移等变性（Translation Equivariance）。如果第一帧的特征代表了物体外观，那么将这些特征沿轨迹传播到后续帧的对应位置，就能自然地引导模型合成符合预期运动的视频。

Wan-Move构建在 Wan-I2V-14B 基础模型之上，核心流程如下：