2026年5月,我调研了7款主流大模型-港品优选

本文聚焦各模型5月的最新动向、社区反馈和公司战略，以及博主个人的看法。
本文原始素材由博主通过多种渠道收集整理，客观信息摘自公开渠道，个人评价会带有主观色彩，请读者自行鉴别。

写在前面

5月和6月，我在医院陪护家人。限于精力，我决定把这个名单从15家砍到7家。不是说其他家不值得关注，剔掉的那几家，未来有值得说的动向，我还是会写进来。保留的标准很简单：要么是我自己在实际用、觉得对我工作流有价值的；要么是我觉得它背后的公司和技术路线有长期跟踪的意义。目前保留的名单里有：OpenAI、Google、Anthropic、DeepSeek、Kimi、MiniMax、GLM这7家。

在6月底，我觉得不能让这个事情停下来，所以让AI帮我整理了5月的动态，然后再加上我自己的思考。6月的调研会在本月结束后发。

国际模型

1. OpenAI — GPT 系列

最新版本：GPT-5.5（2026年4月23日，截至5月底最新版本），开源状态：闭源

最新动向：5月OpenAI没发新的主干版本，这在过去半年里算比较罕见的。主要动作集中在两块：一是Codex Agent全面接入企业版Operator，把5.5的多步骤执行能力打包成一个可以直接给企业IT部门托管使用的服务，降低了接入门槛；二是API层新增了Function Calling优先微调选项，让企业可以在自己的数据集上微调出更稳定的工具调用行为。消费侧，ChatGPT桌面客户端5月上线了"持续代理模式"，能在后台监听任务进度并自动触发下一步操作，这让ChatGPT开始从"问答窗口"往"后台代理"的方向迁移。

个人评价：OpenAI这个月没发新版本，但把能力转化成了托管服务，这步棋的意义不在技术，在于商业化路径开始跑通。对企业客户来说，模型能不能用不是唯一的问题，稳不稳、能不能集成进现有IT系统才是。OpenAI在做的，就是把这些摩擦一个一个消掉。对个人用户我的看法没变，GPT-5.5我还没切进来，但得承认，如果GPT-5.6在6月出来继续压低token成本，Claude在中间价位的竞争压力会更大。

2. Anthropic — Claude 系列

最新版本：Claude Opus 4.8（2026年5月28日），开源状态：闭源

最新动向：5月Anthropic主干更新是 Opus 4.8。官方把这次升级定义成一次更稳、更会协作的 Opus 迭代：在编码、代理任务、专业工作上都有提升，尤其是长程任务的持续性和判断质量更好。Claude Code 同步上线了 dynamic workflows，能让模型规划任务并在一个会话里拉起大量并行子代理，再回头核验结果；对真正的大型代码库迁移和复杂工作流，这比单纯把模型做强更重要。claude.ai 和 Cowork 新增了 effort control，用户可以自己选择 Claude 在响应里投入多少推理；API 侧也更新了 Messages API，支持在消息数组里插入 system entries，方便代理任务中途改指令、改权限或改环境。价格上，Opus 4.8 维持不变，fast mode 还更便宜了，这说明 Anthropic 这次不是单纯冲分，而是在把企业和开发者真正会用到的能力做成产品。

个人评价：Opus 4.8 更像 Anthropic 一贯风格的延续：不靠花活，靠把复杂任务做得更稳、更像人。对我来说，最有价值的不是某个单项分数，而是它把 Claude Code 继续往“能真正托管工作”的方向推了一步。dynamic workflows 这个东西如果跑顺了，Anthropic 在企业端的壁垒会更厚，因为它卖的就不只是模型，而是执行能力和工作流可靠性。对个人用户，我还是这样认为，Claude 的强项不在便宜，而在你把它扔进复杂任务里时，它往往最少让你返工。

3. Google DeepMind — Gemini / Gemma 系列

最新版本：Gemini 3.5 Flash（2026年5月Google I/O发布），Gemini Omni Flash（同月发布），开源状态：Gemini闭源

最新动向：Google I/O在5月把 Gemini 直接推到了“agentic era”这条线上。Gemini 3.5 Flash 是这次最核心的模型更新，主打 agentic coding、长程任务和更快的输出速度；Gemini Omni 则把“从任何输入生成任何输出”这件事往前推了一大步，先从视频输出开始，后面再扩到图像和文本。产品层面，Gemini app 变得更主动，开始做 personal brief、收件箱和日程的背景管理；Android 这边有 Android Halo 这样的新任务空间，让用户能看见 agent 的进度；Search 也开始把 Gemini 3.5 Flash 的编码和生成能力塞进信息代理和动态界面里。TPU 8t/8i 的双芯片路线也在这次 I/O 被讲得更明白了，Google 的逻辑很清楚：模型、产品、芯片三条线一起往前推，不再只是单点发模型。

个人评价：5月的 Gemini 让我更确定一件事，Google 不是在做一个“聊天模型”，而是在做一个覆盖搜索、Android、Workspace、创作工具和代理工作流的系统级能力。3.5 Flash 这种命名变化其实比版本号本身更说明问题：它不再只是追求某个单点 benchmark，而是更强调行动能力、速度和产品化落地。对我来说，Gemini 这条线最值得看的地方不是它单次回答有多聪明，而是它有没有可能成为 Google 全家桶里的那个持续在线的中枢。这个方向如果跑通，Google 的护城河会非常厚，因为它不是靠单独卖模型，而是把模型嵌进了用户每天都在用的东西里。

国内模型

4. 深度求索 — DeepSeek 系列

最新版本：DeepSeek-V4（2026年5月正式版，去Preview标签），开源状态：开源

最新动向：4月的V4 Preview版在社区里被持续反映工具调用不稳定，5月初DeepSeek发了补丁版本，正式去掉Preview标签，社区反馈工具调用稳定性明显改善，基本达到生产可用的标准。这个月还有一件被低估的事：DeepSeek官方5月正式发布了V4在华为昇腾950PR上的完整性能报告，第一次把昇腾与英伟达的推理侧对比数字公开放在桌上。这意味着DeepSeek-华为这条供应链组合，在推理侧已经不是"将就着用"，而是"基本够打"了。

个人评价：昇腾那份性能报告背后的意义我想多说一句，这不只是DeepSeek一家的事，这是在证明"国内算力独立自主"这条路在推理侧已经走通了。对整个国内AI行业来说，推理侧的芯片依赖一旦解开，后面的护城河会越来越厚，而且这个结果是幻方踏踏实实做出来的，不是靠PPT吹出来的。技术上V4是扎实的，长上下文+低算力消耗的组合对Agent时代的基础设施很关键；商业上，国家队+腾讯联合入场，意味着它从"幻方的技术实验"正式进入主流资本叙事。

5. 月之暗面 — Kimi 系列

最新版本：Kimi K2.6（2026年4月21日，5月无新版本），开源状态：开源（有商业限制）

最新动向：5月Kimi没发新版本，主要精力在把K2.6的300子代理并发能力往企业侧推进，头部量化机构和自动化测试团队陆续公布了接入案例，多代理并发调度在真实生产环境里的表现开始有数据可以看了。另外Kimi在5月对外公布了K3的部分技术方向：目标突破单次24小时稳定执行时间，子代理颗粒度更细，预计年底前发布。

个人评价：K2.6这个月没发新版本，但企业接入案例陆续出来，其实比发新版本更重要——有人愿意把它用在真实生产里，这是能力最硬的验证。K3的24小时目标我认为方向是对的，编程和自动化领域真正有价值的任务周期都不短，能跑多久是个真正的差异化门槛，不是看SWE-bench能说清楚的。

6. 稀宇科技 — MiniMax 系列

最新版本：MiniMax M3（2026年5月底完成内测，6月1日正式发布），开源状态：M3权重部分公开

最新动向：M3在5月底完成内测，是M2.x以来最大的一次跃升。原生支持图文混合多模态输入，在工具调用稳定性和主动性上补足了M2.x长期以来的一个短板。上下文窗口扩展到1M，对长文档的理解质量有明显改善。Music 2.6在5月发布了API版本，支持根据旋律提示词直接生成完整编曲。MMX-CLI同期更新，加了多Agent编排的图形化预览功能，工作流设计变得更直观。M3的完整跑分和Coding Plan定价将随6月正式发布同步公布。

个人评价：在3月份我就吐槽过MiniMax上下文过短的问题，M3这次提供的1M上下文补齐了我最在意的短板。4月说"如果M3真出来而且带原生多模态，MiniMax有机会再上一个台阶"。内测阶段的多模态体验反馈比M2.7有质感多了，之前M2.7理解图文混合内容的时候有时候会绕弯子。但是M3没有提供highspeed版本，这让我有点失望。完整评价等6月正式版跑分出来之后再说。

7. 智谱 AI — GLM 系列

最新版本：GLM-5.1（2026年4月，5月无新版本发布），开源状态：部分开源（MIT协议）

最新动向：5月智谱没有发新模型，但有几件事值得记录。4月提价10%之后，社区的抵触情绪在5月逐渐平息，企业侧新增API接入数在5月反而创了单月新高——资本市场读对了，这个提价筛掉了靠免费额度薅羊毛的用户，留下了真实有付费意愿的企业客户。GLM-5V-Turbo在5月继续往工业垂直场景推进，和几家制造业头部企业的合作案例开始对外公开，这条垂直线做得安静但扎实。GLM-4-Flash免费版的调用量在5月继续增长，开发者生态的覆盖面在扩大，但愿意付费的比例还有待观察。

个人评价：4月提价之后我说"我个人不会切过去"，5月这个判断没变。但我得承认智谱这步棋走的逻辑是通的——提价+筛企业客户+资本市场背书，这是一条有意识的商业化路径，不是碰运气。它可能压根就不打算走"通用旗舰正面硬刚Claude/GPT"这条路，而是往"特定行业深度嵌入"走，这对背靠清华的它来说反而更合理——清华的工科积累在工业、制造、基础科学这些场景里有真正的数据优势和场景理解，是别家买不来的。但作为个人开发者，GLM目前对我的实际工作流没有不可替代的价值。等它在工程可靠性上再交几份稳定的成绩单，我会认真重新评估。

写在最后

5月整体的节奏比4月缓了一档，没有密集的版本轰炸，基于当前状态，我的个人推荐是：

Claude 依然是我日常工作流的核心，Opus 4.8在复杂任务里的稳定性更加明显，如果你也在用Claude Code做长程任务，这个月值得切到Opus 4.8。
Kimi 是国内长程编码任务的首选，没有变化。K2.6的企业接入案例陆续出来，有人愿意用在真实生产里才是最硬的验证，继续推荐。
MiniMax M3 如果你之前因为上下文短一直没认真用MiniMax，现在可以再考虑一下了。
DeepSeek V4 工具调用稳定之后，适合作为大批量任务的成本压舱石。在Claude跑方案设计、DeepSeek跑批量执行这种分工里，性价比很高。

这期写得比往常简短，是因为精力确实有限。6月的调研会在7月发，下篇见。

企业官网建设流程全解析

写在前面

国际模型

1. OpenAI — GPT 系列

2. Anthropic — Claude 系列

3. Google DeepMind — Gemini / Gemma 系列

国内模型

4. 深度求索 — DeepSeek 系列

5. 月之暗面 — Kimi 系列

6. 稀宇科技 — MiniMax 系列

7. 智谱 AI — GLM 系列

写在最后

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

写在前面

国际模型

1. OpenAI — GPT 系列

2. Anthropic — Claude 系列

3. Google DeepMind — Gemini / Gemma 系列

国内模型

4. 深度求索 — DeepSeek 系列

5. 月之暗面 — Kimi 系列

6. 稀宇科技 — MiniMax 系列

7. 智谱 AI — GLM 系列

写在最后

热门文章

文章分类

标签云

相关文章

思源宋体终极指南：如何在5分钟内免费获得专业级中文字体

CBCX：把执行效率做扎实，更谨慎的使用者更容易感受到的路径

LRC歌词制作工具：三步实现专业级滚动歌词的自动化方案

需要专业的网站建设服务？