前几天刷到京东刚发布的一个新模型,叫 JoyAI-VL-Interaction。
有意思的不是它又刷了什么榜,也不是参数又涨了多少。恰恰相反,这个模型只有8B 参数,放在今天动不动几十上百亿的大模型里,简直算个小个子。
却做了一件以前 AI 不会做的事。
你有没有过这种感觉,用 AI 的时候总觉得它慢半拍。锅里的汤扑出来了,你得先喊一声,它才反应过来。老人在家摔倒了,等你想到要 AI 去看一眼,人可能已经在地上躺了好几分钟。
以前我一直以为这是速度问题。模型不够快,网络不够好。
看完这个模型的技术报告和演示,我才发现这根本不是快不快的问题。是设计问题。
一、你不问,它不说
今天我们用的所有 AI,骨子里都是一个模式,回合制。
你问一句,它答一句。你不问,它就不说。哪怕有视频通话功能,能看见你屏幕上的内容,说到底也还是你触发一下,它反应一下。
聊天、查资料、写东西,这模式没问题,甚至挺好的——需要的时候才出现,不打扰你。
但放到真实世界里,这个设计就有大问题了。真实世界不会等你。汤扑出来不会等你喊完再扑,人摔倒了不会等你想起来再摔。
而回合制的 AI,永远是在你问的那个瞬间才开始「看」。之前发生了什么不知道,之后会发生什么也不关心,只处理你抛给它的那一帧、那一个问题。
问题出在「谁决定什么时候说话」。回合制 AI,决策权在你手里。它永远不会主动开口,哪怕天塌下来了,只要你没问,它就假装没看见。
二、一个新东西,叫交互模型
那有没有一种 AI,不是这样工作的?
有。京东这次发布的 JoyAI-VL-Interaction,走的就是另一条路。官方把它叫做「视觉驱动的交互模型」。
最简单的理解,就是把「什么时候说话」的决策权,从你手里交到了 AI 手里。
它不是等你问了才看、才想、才说。它是一直在看,一直在判断,然后自己决定,这个时刻值不值得开口。
值得,它就说。不值得,它就闭嘴。
就这么一个变化,把整个 AI 的工作方式都改变了。
以前的 AI 像顾问,你去找它,它才出主意。交互模型像一个跟你一起在场的人,同处一个空间,看着同一件事发生。它不会一直说话烦你,但关键时刻会开口。
这个差异说起来好像不大,不就是主动和被动的区别吗。
但你仔细想,这个区别太大了。我觉得是从命令行到图形界面那么大——不是功能更强了,是整个交互的范式变了。
图形界面为什么是范式跃迁?因为它把「你告诉电脑做什么」变成了「电脑展示选项,你选」。决策权和信息呈现的方式,整个反过来了。
交互模型也是一样。以前你得知道「什么时候该问 AI 什么」,AI 再聪明,你想不到问,它就等于不存在。以后 AI 一直在那儿,它判断什么时候该说话。大多数时候它是安静的,但该出现的时候,它就在。
难的不是「能说话」,是「知道什么时候该说话、什么时候该闭嘴」。
三、每秒都在做选择,以及怎么做到的
难在哪里呢。难在分寸感。
说早了聒噪,说晚了错过时机,说多了烦人,说少了像摆设。你想想那些聚会里总插话的人,或者该说话时又沉默的人,就知道「知道什么时候开口」有多难。
JoyAI-VL-Interaction 的核心机制说起来简单,每秒钟做一次决策,有三个选项。
说话,觉得值得说就开口。沉默,没什么好说的就继续看。委托,觉得自己搞不定就丢给后台大模型处理,自己继续盯着画面。
就这三个选项,每秒选一次。
要把这三个选择做得像个正常人,背后需要的东西不少。得看懂眼前发生了什么,能持续跟踪场景;得有时间感和记忆;最难的是,得有「判断什么时候该说」的直觉,这个没法用规则写死。
京东的做法是,用400 万+带时间戳的交互样本去训练,让模型自己从数据里学出分寸感。
8B 的小模型,又要实时跑又要做决策,怎么做到的。有几个关键设计。
第一个是双循环架构。前台是 8B 交互模型,快、轻,负责实时盯画面、做决策;后台接更大的模型和工具,处理前台搞不定的任务。前台把重活丢给后台,自己继续盯着画面不中断。小的干轻活、大的干重活,各司其职。
另外两个关键设计是AdaCodec预测性视频编码和时间对齐的训练数据。前者挑变化大的帧细看、变化小的帧略过,省 token;后者的核心是 400 万+样本每一帧都标注了「该不该说话」,是连续的时序标注。数据的形态变了,模型长出来的能力就变了。
四、这些事,以前真的做不到
说起来有点抽象,我挑一个最有代表性的场景——监控告警。
这个场景最能体现交互模型和回合制的区别。你让回合制 AI 「帮我盯着,有人摔倒了告诉我」,官网上的对比演示里,Doubao 在摔倒发生后大约 20 秒才反应过来,Gemini 干脆把它当成了视频问答任务,往后看而不是实时告警。
20 秒是什么概念。老人摔到地上,黄金救助时间可能就那几分钟。20 秒延迟,放在安全监控里,基本等于没用。
JoyAI-VL-Interaction 呢,摔倒发生的瞬间就发出警告了。不是因为它推理更快,是因为它一直在看,事件发生的那一刻它就在场。
这不是速度的胜利,是范式的胜利。
实时翻译、实时计数、长时记忆这些场景也是一个道理——不是大模型能力不行,是「持续跟进」这个动作,回合制模型根本就不会。官网展示的九大能力,有一个共同点:都需要持续在场这个前提。而持续在场,恰恰是回合制模型的设计盲区。
就像一条鱼,在水里游得比谁都快,但你让它在路上走,它一步都走不了。不是不够强壮,是身体结构不对。
五、8B 的小个子,赢了大模型
光看演示可能有人会说,是不是挑了对自己有利的场景啊。有没有更客观的评估。
有的。
京东做了一个挺扎实的评测,找了 58 个真实的视觉交互场景,涵盖监控告警、实时翻译、直播解说、实时计数、时间感知、长时记忆这些方向,然后让人来做两两对比评估。
对比的对手是豆包和 Gemini 的视频通话助手。
结果是这样的,人类评估员认为 JoyAI-VL-Interaction 表现更好的比例,对豆包是77.6%,对 Gemini 是87.9%。
这个数字挺震撼的。因为 JoyAI-VL-Interaction 只有 8B 参数。而它对比的这两位,都是比它大得多的模型。
小模型赢大模型,而且赢的幅度还不小,这在 AI 领域是挺少见的事。
分场景看更有意思。监控告警 100% 赢两者,范式碾压。实时翻译 80% 赢豆包,实时计数 70% 赢豆包,长时视觉记忆 77.8% 赢两者。这些数据来源是官方技术报告和官网的评估页面,测试方法是人类评估员的两两对比。
当然这里得说一句,这个评测是京东自己做的,场景也是他们选的。你可以说它有偏向性,专门挑了自己擅长的场景。这也合理。
但我觉得哪怕打个折看,结论也是站得住的。就是在「需要持续在场、主动决策」的场景里,一个专门为交互设计的小模型,确实比一个大得多的回合制模型表现更好。
这不是因为小模型更聪明。
是因为路线对了。
六、一个彩蛋,没教过也会
我觉得这篇报告里最有意思的发现,是涌现能力。
什么叫涌现呢,就是训练的时候没教过,但模型练完了自己就会了。
最典型的是购物 APP 引导——跟着用户在 APP 里操作,实时指路。训练数据里根本没这个,主要是监控、翻译、计数这些场景,没教过它怎么陪人逛购物 APP。但它就是会了。还有即兴演讲也一样,给个幻灯片能一边翻页一边即兴讲解,跟上节奏,这个训练数据里也完全没有。
为什么会这样呢。
我自己的理解是,当模型真正学会了「持续在场 + 主动决策」这个底层能力之后,很多具体的应用场景就自然长出来了。底层能力通了,上层的具体表现就会自动涌现。
「在场」是一个底层能力。一旦模型真的理解了「我要一直看着,该说的时候说,不该说的时候不说」,那么监控、翻译、购物引导,其实只是换了个内容而已,形式是一样的。
这意味着交互模型可能还有很多我们没想到的应用场景。现在展示的九大能力,可能只是冰山一角。
七、它的边界在哪里
说了这么多好的,也得说说不好的。我一直觉得,看一个技术靠不靠谱,很重要的标准就是看它敢不敢说自己不行的地方。
JoyAI-VL-Interaction 的局限性,官方自己也列了,挺实在的。
第一个就是规模差距。8B 毕竟是 8B,在需要深度推理、复杂知识的任务上,跟大模型还是有差距的。比如数学证明、复杂代码,它肯定不如 GPT 或 Claude。这也是为什么它设计了双循环架构,遇到难的就丢给后台。前台 8B 模型的定位就是「看场子的」,不是「干重活的」。
第二个是幻觉问题。所有大模型都有幻觉,交互模型也不例外。而且因为它是主动说话的,幻觉可能更麻烦——被动的 AI 你问了它才瞎答,主动的 AI 可能自己就开始瞎说了。官方也承认,某些场景下会出现不准确的描述,长时间观察后记忆偏差的概率更高。这个问题短期内不会完全解决,是整个行业的通病。
除此之外,目前评测的 58 个场景主要集中在视觉交互比较直接的领域,更复杂的场景效果还有待验证。隐私问题也是一个现实挑战。
所以我觉得,交互模型是一个很重要的方向,但现在还很早。它打开了一扇门,但门后面的路还很长。
八、全栈开源,才是真正的杀招
说到这儿还得提一下开源。
京东这次不是只开源了模型权重,是全栈开源。模型、训练配方、数据、完整的可部署系统,全放出来了。官方说计划 2026 年 6 月 20 日在 GitHub 完整发布。
什么概念呢,拿到仓库照着文档搭一下,自己就能跑一个实时在场的 AI 助手。接个摄像头就能用,不用依赖任何大厂的 API。
我觉得这个事的意义,可能比模型本身还大。
一个范式能不能普及,关键看门槛。只有少数大厂能玩,发展速度就有限。人人都能拿来用、拿来改、做自己的东西,生态速度就完全不一样了。
而且这个模型只有 8B,一张消费级显卡就能跑。门槛低到什么程度,一个学生、一个小团队,就能基于它做自己的交互应用。
不是这个模型有多厉害。是从此以后,「在场 AI」不再是只有大厂实验室里才有的概念,变成了人人都能摸到、能玩、能改的东西。
九、从工具到在场者
收尾的时候,我想聊点更远的。
我一直在想,AI 到底会以什么样的方式进入我们的生活。最早以为是工具,需要的时候打开,用完就关掉。后来大模型出来了,以为是助理,对话式地帮你完成任务。
但现在我越来越觉得,可能都不是。
AI 最终的形态,可能是「在场」。它不是你打开 APP 才能用的东西,也不是喊一声才出现的东西。它一直在那儿,像空气一样,大多数时候沉默,但关键时刻永远在场。
人类发明工具的历史,就是不断「延长在场」的过程。望远镜让视线到场,电话让声音到场,视频让影像到场。而 AI,第一次让「注意力」和「判断力」也能到场。你的人不用在那儿,但 AI 代理可以替你看着、听着、判断着。
这不是遥远的科幻。京东这个 8B 的小模型,已经在这条路上走出了扎扎实实的第一步。
当然,这条路还很长。技术的、伦理的、法律的,问题一大堆。但方向,我觉得是对的。
从「你问我答」到「主动在场」。
从「工具」到「在场者」。
这可能就是 AI 的下一个范式。而我们,刚好站在这个转变的起点上。
如果你对大模型、视频生成这些方向感兴趣,也欢迎来群里一起学习交流。 扫码即可加入: