2026年5月,我调研了7款主流大模型
2026/6/25 18:29:11 网站建设 项目流程

本文聚焦各模型5月的最新动向、社区反馈和公司战略,以及博主个人的看法。
本文原始素材由博主通过多种渠道收集整理,客观信息摘自公开渠道,个人评价会带有主观色彩,请读者自行鉴别。

写在前面

5月和6月,我在医院陪护家人。限于精力,我决定把这个名单从15家砍到7家。不是说其他家不值得关注,剔掉的那几家,未来有值得说的动向,我还是会写进来。保留的标准很简单:要么是我自己在实际用、觉得对我工作流有价值的;要么是我觉得它背后的公司和技术路线有长期跟踪的意义。目前保留的名单里有:OpenAI、Google、Anthropic、DeepSeek、Kimi、MiniMax、GLM这7家。

在6月底,我觉得不能让这个事情停下来,所以让AI帮我整理了5月的动态,然后再加上我自己的思考。6月的调研会在本月结束后发。

国际模型

1. OpenAI — GPT 系列

最新版本:GPT-5.5(2026年4月23日,截至5月底最新版本),开源状态:闭源

最新动向:5月OpenAI没发新的主干版本,这在过去半年里算比较罕见的。主要动作集中在两块:一是Codex Agent全面接入企业版Operator,把5.5的多步骤执行能力打包成一个可以直接给企业IT部门托管使用的服务,降低了接入门槛;二是API层新增了Function Calling优先微调选项,让企业可以在自己的数据集上微调出更稳定的工具调用行为。消费侧,ChatGPT桌面客户端5月上线了"持续代理模式",能在后台监听任务进度并自动触发下一步操作,这让ChatGPT开始从"问答窗口"往"后台代理"的方向迁移。

个人评价:OpenAI这个月没发新版本,但把能力转化成了托管服务,这步棋的意义不在技术,在于商业化路径开始跑通。对企业客户来说,模型能不能用不是唯一的问题,稳不稳、能不能集成进现有IT系统才是。OpenAI在做的,就是把这些摩擦一个一个消掉。对个人用户我的看法没变,GPT-5.5我还没切进来,但得承认,如果GPT-5.6在6月出来继续压低token成本,Claude在中间价位的竞争压力会更大。


2. Anthropic — Claude 系列

最新版本:Claude Opus 4.8(2026年5月28日),开源状态:闭源

最新动向:5月Anthropic主干更新是 Opus 4.8。官方把这次升级定义成一次更稳、更会协作的 Opus 迭代:在编码、代理任务、专业工作上都有提升,尤其是长程任务的持续性和判断质量更好。Claude Code 同步上线了 dynamic workflows,能让模型规划任务并在一个会话里拉起大量并行子代理,再回头核验结果;对真正的大型代码库迁移和复杂工作流,这比单纯把模型做强更重要。claude.ai 和 Cowork 新增了 effort control,用户可以自己选择 Claude 在响应里投入多少推理;API 侧也更新了 Messages API,支持在消息数组里插入 system entries,方便代理任务中途改指令、改权限或改环境。价格上,Opus 4.8 维持不变,fast mode 还更便宜了,这说明 Anthropic 这次不是单纯冲分,而是在把企业和开发者真正会用到的能力做成产品。

个人评价:Opus 4.8 更像 Anthropic 一贯风格的延续:不靠花活,靠把复杂任务做得更稳、更像人。对我来说,最有价值的不是某个单项分数,而是它把 Claude Code 继续往“能真正托管工作”的方向推了一步。dynamic workflows 这个东西如果跑顺了,Anthropic 在企业端的壁垒会更厚,因为它卖的就不只是模型,而是执行能力和工作流可靠性。对个人用户,我还是这样认为,Claude 的强项不在便宜,而在你把它扔进复杂任务里时,它往往最少让你返工。


3. Google DeepMind — Gemini / Gemma 系列

最新版本:Gemini 3.5 Flash(2026年5月Google I/O发布),Gemini Omni Flash(同月发布),开源状态:Gemini闭源

最新动向:Google I/O在5月把 Gemini 直接推到了“agentic era”这条线上。Gemini 3.5 Flash 是这次最核心的模型更新,主打 agentic coding、长程任务和更快的输出速度;Gemini Omni 则把“从任何输入生成任何输出”这件事往前推了一大步,先从视频输出开始,后面再扩到图像和文本。产品层面,Gemini app 变得更主动,开始做 personal brief、收件箱和日程的背景管理;Android 这边有 Android Halo 这样的新任务空间,让用户能看见 agent 的进度;Search 也开始把 Gemini 3.5 Flash 的编码和生成能力塞进信息代理和动态界面里。TPU 8t/8i 的双芯片路线也在这次 I/O 被讲得更明白了,Google 的逻辑很清楚:模型、产品、芯片三条线一起往前推,不再只是单点发模型。

个人评价:5月的 Gemini 让我更确定一件事,Google 不是在做一个“聊天模型”,而是在做一个覆盖搜索、Android、Workspace、创作工具和代理工作流的系统级能力。3.5 Flash 这种命名变化其实比版本号本身更说明问题:它不再只是追求某个单点 benchmark,而是更强调行动能力、速度和产品化落地。对我来说,Gemini 这条线最值得看的地方不是它单次回答有多聪明,而是它有没有可能成为 Google 全家桶里的那个持续在线的中枢。这个方向如果跑通,Google 的护城河会非常厚,因为它不是靠单独卖模型,而是把模型嵌进了用户每天都在用的东西里。


国内模型

4. 深度求索 — DeepSeek 系列

最新版本:DeepSeek-V4(2026年5月正式版,去Preview标签),开源状态:开源

最新动向:4月的V4 Preview版在社区里被持续反映工具调用不稳定,5月初DeepSeek发了补丁版本,正式去掉Preview标签,社区反馈工具调用稳定性明显改善,基本达到生产可用的标准。这个月还有一件被低估的事:DeepSeek官方5月正式发布了V4在华为昇腾950PR上的完整性能报告,第一次把昇腾与英伟达的推理侧对比数字公开放在桌上。这意味着DeepSeek-华为这条供应链组合,在推理侧已经不是"将就着用",而是"基本够打"了。

个人评价:昇腾那份性能报告背后的意义我想多说一句,这不只是DeepSeek一家的事,这是在证明"国内算力独立自主"这条路在推理侧已经走通了。对整个国内AI行业来说,推理侧的芯片依赖一旦解开,后面的护城河会越来越厚,而且这个结果是幻方踏踏实实做出来的,不是靠PPT吹出来的。技术上V4是扎实的,长上下文+低算力消耗的组合对Agent时代的基础设施很关键;商业上,国家队+腾讯联合入场,意味着它从"幻方的技术实验"正式进入主流资本叙事。


5. 月之暗面 — Kimi 系列

最新版本:Kimi K2.6(2026年4月21日,5月无新版本),开源状态:开源(有商业限制)

最新动向:5月Kimi没发新版本,主要精力在把K2.6的300子代理并发能力往企业侧推进,头部量化机构和自动化测试团队陆续公布了接入案例,多代理并发调度在真实生产环境里的表现开始有数据可以看了。另外Kimi在5月对外公布了K3的部分技术方向:目标突破单次24小时稳定执行时间,子代理颗粒度更细,预计年底前发布。

个人评价:K2.6这个月没发新版本,但企业接入案例陆续出来,其实比发新版本更重要——有人愿意把它用在真实生产里,这是能力最硬的验证。K3的24小时目标我认为方向是对的,编程和自动化领域真正有价值的任务周期都不短,能跑多久是个真正的差异化门槛,不是看SWE-bench能说清楚的。


6. 稀宇科技 — MiniMax 系列

最新版本:MiniMax M3(2026年5月底完成内测,6月1日正式发布),开源状态:M3权重部分公开

最新动向:M3在5月底完成内测,是M2.x以来最大的一次跃升。原生支持图文混合多模态输入,在工具调用稳定性和主动性上补足了M2.x长期以来的一个短板。上下文窗口扩展到1M,对长文档的理解质量有明显改善。Music 2.6在5月发布了API版本,支持根据旋律提示词直接生成完整编曲。MMX-CLI同期更新,加了多Agent编排的图形化预览功能,工作流设计变得更直观。M3的完整跑分和Coding Plan定价将随6月正式发布同步公布。

个人评价:在3月份我就吐槽过MiniMax上下文过短的问题,M3这次提供的1M上下文补齐了我最在意的短板。4月说"如果M3真出来而且带原生多模态,MiniMax有机会再上一个台阶"。内测阶段的多模态体验反馈比M2.7有质感多了,之前M2.7理解图文混合内容的时候有时候会绕弯子。但是M3没有提供highspeed版本,这让我有点失望。完整评价等6月正式版跑分出来之后再说。


7. 智谱 AI — GLM 系列

最新版本:GLM-5.1(2026年4月,5月无新版本发布),开源状态:部分开源(MIT协议)

最新动向:5月智谱没有发新模型,但有几件事值得记录。4月提价10%之后,社区的抵触情绪在5月逐渐平息,企业侧新增API接入数在5月反而创了单月新高——资本市场读对了,这个提价筛掉了靠免费额度薅羊毛的用户,留下了真实有付费意愿的企业客户。GLM-5V-Turbo在5月继续往工业垂直场景推进,和几家制造业头部企业的合作案例开始对外公开,这条垂直线做得安静但扎实。GLM-4-Flash免费版的调用量在5月继续增长,开发者生态的覆盖面在扩大,但愿意付费的比例还有待观察。

个人评价:4月提价之后我说"我个人不会切过去",5月这个判断没变。但我得承认智谱这步棋走的逻辑是通的——提价+筛企业客户+资本市场背书,这是一条有意识的商业化路径,不是碰运气。它可能压根就不打算走"通用旗舰正面硬刚Claude/GPT"这条路,而是往"特定行业深度嵌入"走,这对背靠清华的它来说反而更合理——清华的工科积累在工业、制造、基础科学这些场景里有真正的数据优势和场景理解,是别家买不来的。但作为个人开发者,GLM目前对我的实际工作流没有不可替代的价值。等它在工程可靠性上再交几份稳定的成绩单,我会认真重新评估。


写在最后

5月整体的节奏比4月缓了一档,没有密集的版本轰炸,基于当前状态,我的个人推荐是:

  • Claude 依然是我日常工作流的核心,Opus 4.8在复杂任务里的稳定性更加明显,如果你也在用Claude Code做长程任务,这个月值得切到Opus 4.8。
  • Kimi 是国内长程编码任务的首选,没有变化。K2.6的企业接入案例陆续出来,有人愿意用在真实生产里才是最硬的验证,继续推荐。
  • MiniMax M3 如果你之前因为上下文短一直没认真用MiniMax,现在可以再考虑一下了。
  • DeepSeek V4 工具调用稳定之后,适合作为大批量任务的成本压舱石。在Claude跑方案设计、DeepSeek跑批量执行这种分工里,性价比很高。

这期写得比往常简短,是因为精力确实有限。6月的调研会在7月发,下篇见。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询