突破单角色!英伟达多Agent世界模型,把单机玩法变成联机游戏
2026/6/1 16:03:01 网站建设 项目流程

两人训练,四人零样本泛化,γ-World让世界模型告别单人模式。

这就是英伟达联合清华大学、多伦多大学和Vector Institute推出的γ-World。

它把世界模型从单人单机时代拉进了多人共享空间,让多个Agent在同一套物理规则下同时行动、互相影响、实时交互。

三项核心技术:一套不用参数的几何编码方案解决了Agent身份问题,一种线性代价的跨Agent注意力机制解决了交互效率问题,一份从教师到学生的蒸馏流水线解决了实时推理问题。

多人世界的结构瓶颈

过去两年,Sora、Cosmos、Genie这些系统把生成式世界模型的视觉质量和时间一致性推到了相当可观的水平。

它们有一个共同的简化假设,就是世界里只有一个主动参与者。

单人操控,单人视角,单条动作流驱动一切。在单Agent场景下,世界模型只需要根据一个动作信号生成未来观测就行了。

真实世界远比单人场景复杂。

多人游戏里,你的走位改变队友和对手的可选策略,一个人开了枪,其他人都要做出反应。

工厂车间里,一台机械臂的运动轨迹约束了另一台的空间,两者的路径规划必须协调。

具身智能训练中,多个Agent同时探索同一个环境,谁推了一下门、谁挪了一下椅子,都会改变别人面对的世界状态。

这些场景有一个共同特征:多个智能体在同一个共享空间里行动,彼此之间有因果联系,一个人的动作改变其他人的观测。

把世界模型从单人搬到多人,远不是在一个画面里多放几个角色那么简单。

它要同时满足三个互相拉扯的条件。

每个Agent需要独立可控,每个玩家的动作指令只驱动自己的行为,不会串到别人身上。

每个Agent的身份地位需要对称等价,谁先谁后不应该影响模型的行为。

推理效率还要撑得住,多个Agent同时在线,计算开销不能爆炸式增长。

现有方案在这三点上常常顾此失彼。

固定槽位方案给玩家1、玩家2分别学一套身份参数,模型学到的往往是这两个特定槽位之间的互动模式,一种绑定顺序的局部经验。

想加玩家3和玩家4,就得重新训练,因为模型从来没有见过第三个槽位长什么样。

密集交互方案让所有Agent的Token两两做注意力计算,计算量随Agent数量呈二次增长。两个玩家还撑得住,四个玩家的计算量就翻了四倍,再往上加就更难收场。

γ-World的目标是设计一套从底层架构出发的多Agent机制,让身份不依赖学习参数,让交互不依赖全连接,让推理不依赖重复计算。

几何编码和枢纽注意力

γ-World的前两件武器分别攻破身份和交互两个瓶颈。

第一件叫Simplex Rotary Agent Encoding(单纯形旋转Agent编码),简称SRAE。它是对3D RoPE(旋转位置编码)的一种参数免费扩展。

3D RoPE本身在Transformer架构中被广泛用来编码空间位置信息,通过旋转矩阵把三维坐标映射到角度空间,让模型感知不同Token之间的相对位置关系。

SRAE在这个基础上做了一步关键延伸,把Agent的身份也编码进旋转角度空间。

具体做法是把N个Agent映射到旋转角度空间中正则单纯形的N个顶点上。

正则单纯形是高维几何中的基本对象,它有一个关键性质:任意两个顶点之间的距离完全相等。

在二维空间里,正则单纯形就是等边三角形;在三维空间里,是正四面体。维度再高,依然保持所有顶点等距的对称结构。

映射到角度空间后,每个Agent拿到一个独特的旋转相位,同时任意两个Agent之间的编码距离是一样的。谁也不比谁特殊,谁也不依赖谁先来后到。

不需要学参数,不需要固定顺序,不需要为每个槽位预留身份嵌入。Agent数量变了,只要算出新顶点的坐标就行,整个编码方案自动适配。

排列等价性直接带来了泛化能力。γ-World用双玩家数据训练,推理时直接扩展到四个玩家,不需要额外训练。

模型学到的已经超越了两个特定位置之间的互动方式,它掌握的是多个Agent在共享空间里共处的一般规律。位置可以换,数量可以加,底层编码逻辑不变。

第二件叫Sparse Hub Attention(稀疏枢纽注意力),简称SHA。它解决的是跨Agent通信的效率问题。

传统的全连接方案里,每个Agent的Token都要和所有其他Agent的Token做注意力计算,代价是O(N²)。N代表Agent数量,两个玩家时交互对数是2,四个玩家时变成12,增长很快。

SHA的思路是引入一组可学习的Hub Token作为中介。Agent把信息发给枢纽,枢纽再把整合后的信息广播回来。通信路径从两两直连变成了Agent到枢纽再到Agent,跨Agent注意力代价从二次降到了线性,和Agent数量成正比。

这个设计跟现实世界的信息流通逻辑很像:与其让所有人两两对话,不如设立一个信息中心,大家各自汇报、各自听取。

枢纽Token是可学习的,它能学会怎么高效地压缩和分配跨Agent信息,哪些特征需要广播给所有人,哪些只需要在局部消化,都由模型在训练中自己决定。英伟达的项目页面提到,SHA在四个Agent的场景下已经展现出明显的计算优势,Agent越多,优势越大。

两件武器配合起来,SRAE保证了身份的对称性和可扩展性,SHA保证了交互的可负担性。整个架构不再为某个特定的玩家数量做硬编码,Agent数量从2变到4甚至更多,结构不用改,参数不用重新学。

蒸馏出实时世界

身份和交互的问题解决了,还有一个现实挑战摆在面前:推理速度。

世界模型要能实时响应玩家的动作输入,延迟一大,交互感就崩了。玩过游戏的都知道,输入延迟超过几十毫秒,手感就会明显变差。对于交互式视频生成来说,帧率就是生命线。

γ-World用了一套教师到学生的蒸馏方案来应对。

教师是一个双向多Agent扩散模型,能同时看到所有时间步的信息,生成质量高,但没法逐帧流式输出。扩散模型的天性就是反复去噪、逐步细化,每一次生成都需要多步迭代,实时推理困难。

学生是一个分块因果模型,按时间顺序逐块生成,只依赖已生成的过去帧,支持KV(键值)缓存。

蒸馏过程把教师的生成能力转移到学生身上,学生在保持因果性的同时逼近教师的输出质量。关键在于,教师的双向视野让它能学会Agent之间完整的时空交互关系,学生在受限的因果条件下尽量复现这些关系,同时获得流式输出的能力。

有了因果结构和KV缓存,推理时每生成一个新的时间块,只需要计算当前块的增量,不用重新处理整个序列。之前已经算过的Key和Value都存在缓存里,直接复用。

最终24 FPS的实时动作响应生成,画面按顺序流出,玩家操作即刻反馈。

实验在多人虚拟环境中展开,对比对象包括基于槽位的方案和密集注意力基线。

结果显示γ-World在视频保真度、动作可控性和Agent间一致性三项指标上全面领先。

在两玩家的标准测试中,γ-World生成的画面更清晰、动作跟踪更准、Agent之间的物理交互更合理。

双玩家训练、四玩家推理的零样本泛化实验尤其值得关注。没有用四玩家数据做过任何额外训练,模型在四Agent场景下依然能生成连贯的同步视角,保持共享世界状态的一致性。

每个Agent独立可控,同时画面里所有Agent共享同一个物理世界,一个人的动作改变其他人的视角和可用选项。SRAE的对称编码保证了四个Agent之间的身份等价性,SHA的线性通信保证了四个Agent同时在线时计算量依然可控。

虚拟游戏之外,γ-World还在真实机器人协作场景中做了验证。

两只机械臂在桌面上各自动作,模型生成的未来帧保持了两条臂共享的空间布局和交互关系。每个机械臂作为一个独立Agent,生成的画面在空间上协调一致。

虚拟环境和真实机器人两种场景的验证,说明γ-World的架构设计对环境类型没有硬依赖,只要场景中存在多个独立可控的Agent,就能适用。

具身AI、多机器人协作、自动驾驶多车交互,任何需要多个智能体在同一物理空间里行动的场景,都在射程之内。

大语言模型吃的是整个互联网的语料,规模以万亿Token计。而机器人没有同等级别的数据源。采集一小时的双臂协作数据,需要硬件、场地、监督和时间,成本高昂,规模有限。

一个可扩展的多Agent世界模型能改变这个等式。在生成环境中模拟协作、竞争、探索和失败,用仿真轨迹训练策略,用策略产出更好的数据,再用数据反哺下一代世界模型。

γ-World指向的,正是这个飞轮的起点。

从固定两人到弹性多人,从二次方到线性,从离线扩散到实时流式,γ-World的每一步都在让生成式世界模型真正适配多人共享的物理现实。

零样本从2到4的泛化结果,让人有理由相信,5个、8个、甚至更多Agent同屏交互,也是有可能的。

参考资料:

https://research.nvidia.com/labs/sil/projects/gamma-world/

https://github.com/nv-tlabs/Gamma-World

https://arxiv.org/pdf/2605.28816

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询