77.6%胜豆包，87.9%胜Gemini：京东8B小模型，藏着AI的新范式-港品优选

前几天刷到京东刚发布的一个新模型，叫 JoyAI-VL-Interaction。

有意思的不是它又刷了什么榜，也不是参数又涨了多少。恰恰相反，这个模型只有8B 参数，放在今天动不动几十上百亿的大模型里，简直算个小个子。

却做了一件以前 AI 不会做的事。

你有没有过这种感觉，用 AI 的时候总觉得它慢半拍。锅里的汤扑出来了，你得先喊一声，它才反应过来。老人在家摔倒了，等你想到要 AI 去看一眼，人可能已经在地上躺了好几分钟。

以前我一直以为这是速度问题。模型不够快，网络不够好。

看完这个模型的技术报告和演示，我才发现这根本不是快不快的问题。是设计问题。

一、你不问，它不说

今天我们用的所有 AI，骨子里都是一个模式，回合制。

你问一句，它答一句。你不问，它就不说。哪怕有视频通话功能，能看见你屏幕上的内容，说到底也还是你触发一下，它反应一下。

聊天、查资料、写东西，这模式没问题，甚至挺好的——需要的时候才出现，不打扰你。

但放到真实世界里，这个设计就有大问题了。真实世界不会等你。汤扑出来不会等你喊完再扑，人摔倒了不会等你想起来再摔。

而回合制的 AI，永远是在你问的那个瞬间才开始「看」。之前发生了什么不知道，之后会发生什么也不关心，只处理你抛给它的那一帧、那一个问题。

问题出在「谁决定什么时候说话」。回合制 AI，决策权在你手里。它永远不会主动开口，哪怕天塌下来了，只要你没问，它就假装没看见。

二、一个新东西，叫交互模型

那有没有一种 AI，不是这样工作的？

有。京东这次发布的 JoyAI-VL-Interaction，走的就是另一条路。官方把它叫做「视觉驱动的交互模型」。

最简单的理解，就是把「什么时候说话」的决策权，从你手里交到了 AI 手里。

它不是等你问了才看、才想、才说。它是一直在看，一直在判断，然后自己决定，这个时刻值不值得开口。

值得，它就说。不值得，它就闭嘴。

就这么一个变化，把整个 AI 的工作方式都改变了。

以前的 AI 像顾问，你去找它，它才出主意。交互模型像一个跟你一起在场的人，同处一个空间，看着同一件事发生。它不会一直说话烦你，但关键时刻会开口。

这个差异说起来好像不大，不就是主动和被动的区别吗。

但你仔细想，这个区别太大了。我觉得是从命令行到图形界面那么大——不是功能更强了，是整个交互的范式变了。

图形界面为什么是范式跃迁？因为它把「你告诉电脑做什么」变成了「电脑展示选项，你选」。决策权和信息呈现的方式，整个反过来了。

交互模型也是一样。以前你得知道「什么时候该问 AI 什么」，AI 再聪明，你想不到问，它就等于不存在。以后 AI 一直在那儿，它判断什么时候该说话。大多数时候它是安静的，但该出现的时候，它就在。

难的不是「能说话」，是「知道什么时候该说话、什么时候该闭嘴」。

三、每秒都在做选择，以及怎么做到的

难在哪里呢。难在分寸感。

说早了聒噪，说晚了错过时机，说多了烦人，说少了像摆设。你想想那些聚会里总插话的人，或者该说话时又沉默的人，就知道「知道什么时候开口」有多难。

JoyAI-VL-Interaction 的核心机制说起来简单，每秒钟做一次决策，有三个选项。

说话，觉得值得说就开口。沉默，没什么好说的就继续看。委托，觉得自己搞不定就丢给后台大模型处理，自己继续盯着画面。

就这三个选项，每秒选一次。

要把这三个选择做得像个正常人，背后需要的东西不少。得看懂眼前发生了什么，能持续跟踪场景；得有时间感和记忆；最难的是，得有「判断什么时候该说」的直觉，这个没法用规则写死。

京东的做法是，用400 万+带时间戳的交互样本去训练，让模型自己从数据里学出分寸感。

8B 的小模型，又要实时跑又要做决策，怎么做到的。有几个关键设计。

第一个是双循环架构。前台是 8B 交互模型，快、轻，负责实时盯画面、做决策；后台接更大的模型和工具，处理前台搞不定的任务。前台把重活丢给后台，自己继续盯着画面不中断。小的干轻活、大的干重活，各司其职。

另外两个关键设计是AdaCodec预测性视频编码和时间对齐的训练数据。前者挑变化大的帧细看、变化小的帧略过，省 token；后者的核心是 400 万+样本每一帧都标注了「该不该说话」，是连续的时序标注。数据的形态变了，模型长出来的能力就变了。

四、这些事，以前真的做不到

说起来有点抽象，我挑一个最有代表性的场景——监控告警。

这个场景最能体现交互模型和回合制的区别。你让回合制 AI 「帮我盯着，有人摔倒了告诉我」，官网上的对比演示里，Doubao 在摔倒发生后大约 20 秒才反应过来，Gemini 干脆把它当成了视频问答任务，往后看而不是实时告警。

20 秒是什么概念。老人摔到地上，黄金救助时间可能就那几分钟。20 秒延迟，放在安全监控里，基本等于没用。

JoyAI-VL-Interaction 呢，摔倒发生的瞬间就发出警告了。不是因为它推理更快，是因为它一直在看，事件发生的那一刻它就在场。

这不是速度的胜利，是范式的胜利。

实时翻译、实时计数、长时记忆这些场景也是一个道理——不是大模型能力不行，是「持续跟进」这个动作，回合制模型根本就不会。官网展示的九大能力，有一个共同点：都需要持续在场这个前提。而持续在场，恰恰是回合制模型的设计盲区。

就像一条鱼，在水里游得比谁都快，但你让它在路上走，它一步都走不了。不是不够强壮，是身体结构不对。

五、8B 的小个子，赢了大模型

光看演示可能有人会说，是不是挑了对自己有利的场景啊。有没有更客观的评估。

有的。

京东做了一个挺扎实的评测，找了 58 个真实的视觉交互场景，涵盖监控告警、实时翻译、直播解说、实时计数、时间感知、长时记忆这些方向，然后让人来做两两对比评估。

对比的对手是豆包和 Gemini 的视频通话助手。

结果是这样的，人类评估员认为 JoyAI-VL-Interaction 表现更好的比例，对豆包是77.6%，对 Gemini 是87.9%。

这个数字挺震撼的。因为 JoyAI-VL-Interaction 只有 8B 参数。而它对比的这两位，都是比它大得多的模型。

小模型赢大模型，而且赢的幅度还不小，这在 AI 领域是挺少见的事。

分场景看更有意思。监控告警 100% 赢两者，范式碾压。实时翻译 80% 赢豆包，实时计数 70% 赢豆包，长时视觉记忆 77.8% 赢两者。这些数据来源是官方技术报告和官网的评估页面，测试方法是人类评估员的两两对比。

当然这里得说一句，这个评测是京东自己做的，场景也是他们选的。你可以说它有偏向性，专门挑了自己擅长的场景。这也合理。

但我觉得哪怕打个折看，结论也是站得住的。就是在「需要持续在场、主动决策」的场景里，一个专门为交互设计的小模型，确实比一个大得多的回合制模型表现更好。

这不是因为小模型更聪明。

是因为路线对了。

六、一个彩蛋，没教过也会

我觉得这篇报告里最有意思的发现，是涌现能力。

什么叫涌现呢，就是训练的时候没教过，但模型练完了自己就会了。

最典型的是购物 APP 引导——跟着用户在 APP 里操作，实时指路。训练数据里根本没这个，主要是监控、翻译、计数这些场景，没教过它怎么陪人逛购物 APP。但它就是会了。还有即兴演讲也一样，给个幻灯片能一边翻页一边即兴讲解，跟上节奏，这个训练数据里也完全没有。

为什么会这样呢。

我自己的理解是，当模型真正学会了「持续在场 + 主动决策」这个底层能力之后，很多具体的应用场景就自然长出来了。底层能力通了，上层的具体表现就会自动涌现。

「在场」是一个底层能力。一旦模型真的理解了「我要一直看着，该说的时候说，不该说的时候不说」，那么监控、翻译、购物引导，其实只是换了个内容而已，形式是一样的。

这意味着交互模型可能还有很多我们没想到的应用场景。现在展示的九大能力，可能只是冰山一角。

七、它的边界在哪里

说了这么多好的，也得说说不好的。我一直觉得，看一个技术靠不靠谱，很重要的标准就是看它敢不敢说自己不行的地方。

JoyAI-VL-Interaction 的局限性，官方自己也列了，挺实在的。

第一个就是规模差距。8B 毕竟是 8B，在需要深度推理、复杂知识的任务上，跟大模型还是有差距的。比如数学证明、复杂代码，它肯定不如 GPT 或 Claude。这也是为什么它设计了双循环架构，遇到难的就丢给后台。前台 8B 模型的定位就是「看场子的」，不是「干重活的」。

第二个是幻觉问题。所有大模型都有幻觉，交互模型也不例外。而且因为它是主动说话的，幻觉可能更麻烦——被动的 AI 你问了它才瞎答，主动的 AI 可能自己就开始瞎说了。官方也承认，某些场景下会出现不准确的描述，长时间观察后记忆偏差的概率更高。这个问题短期内不会完全解决，是整个行业的通病。

除此之外，目前评测的 58 个场景主要集中在视觉交互比较直接的领域，更复杂的场景效果还有待验证。隐私问题也是一个现实挑战。

所以我觉得，交互模型是一个很重要的方向，但现在还很早。它打开了一扇门，但门后面的路还很长。

八、全栈开源，才是真正的杀招

说到这儿还得提一下开源。

京东这次不是只开源了模型权重，是全栈开源。模型、训练配方、数据、完整的可部署系统，全放出来了。官方说计划 2026 年 6 月 20 日在 GitHub 完整发布。

什么概念呢，拿到仓库照着文档搭一下，自己就能跑一个实时在场的 AI 助手。接个摄像头就能用，不用依赖任何大厂的 API。

我觉得这个事的意义，可能比模型本身还大。

一个范式能不能普及，关键看门槛。只有少数大厂能玩，发展速度就有限。人人都能拿来用、拿来改、做自己的东西，生态速度就完全不一样了。

而且这个模型只有 8B，一张消费级显卡就能跑。门槛低到什么程度，一个学生、一个小团队，就能基于它做自己的交互应用。

不是这个模型有多厉害。是从此以后，「在场 AI」不再是只有大厂实验室里才有的概念，变成了人人都能摸到、能玩、能改的东西。

九、从工具到在场者

收尾的时候，我想聊点更远的。

我一直在想，AI 到底会以什么样的方式进入我们的生活。最早以为是工具，需要的时候打开，用完就关掉。后来大模型出来了，以为是助理，对话式地帮你完成任务。

但现在我越来越觉得，可能都不是。

AI 最终的形态，可能是「在场」。它不是你打开 APP 才能用的东西，也不是喊一声才出现的东西。它一直在那儿，像空气一样，大多数时候沉默，但关键时刻永远在场。

人类发明工具的历史，就是不断「延长在场」的过程。望远镜让视线到场，电话让声音到场，视频让影像到场。而 AI，第一次让「注意力」和「判断力」也能到场。你的人不用在那儿，但 AI 代理可以替你看着、听着、判断着。

这不是遥远的科幻。京东这个 8B 的小模型，已经在这条路上走出了扎扎实实的第一步。

当然，这条路还很长。技术的、伦理的、法律的，问题一大堆。但方向，我觉得是对的。

从「你问我答」到「主动在场」。

从「工具」到「在场者」。

这可能就是 AI 的下一个范式。而我们，刚好站在这个转变的起点上。

如果你对大模型、视频生成这些方向感兴趣，也欢迎来群里一起学习交流。扫码即可加入：

企业官网建设流程全解析

一、你不问，它不说

二、一个新东西，叫交互模型

三、每秒都在做选择，以及怎么做到的

四、这些事，以前真的做不到

五、8B 的小个子，赢了大模型

六、一个彩蛋，没教过也会

七、它的边界在哪里

八、全栈开源，才是真正的杀招

九、从工具到在场者

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

一、你不问，它不说

二、一个新东西，叫交互模型

三、每秒都在做选择，以及怎么做到的

四、这些事，以前真的做不到

五、8B 的小个子，赢了大模型

六、一个彩蛋，没教过也会

七、它的边界在哪里

八、全栈开源，才是真正的杀招

九、从工具到在场者

热门文章

文章分类

标签云

相关文章

seata2.3版本,2.6版本安装步骤-以及遇上的坑

服务行业新趋势：技师正成为最被低估的流量入口

wifi理解

需要专业的网站建设服务？