「AI 研发的最后一条流水线上,已经没有人类工位了」——Anthropic 把镜子对准自己,照出了每个人最不想看到的倒影
2026/6/8 15:11:29 网站建设 项目流程

一个工程师已经 5 个月没写过一行代码。不是他懒。是他发现自己的手指已经插不进那个循环了。

2021 年,十几个研究员围在笔记本前,写代码,训模型,订外卖。那时候的 Anthropic 和硅谷任何一家创业公司一样——人是一切的主导。代码是人写的,实验是人做的,方向是人定的。

2023 年,Claude 能帮忙写代码片段了。研究员把 Copilot 的补全复制粘贴进编辑器,觉得自己变快了一点。

2025 年,Claude Code 上线。它不只是建议代码——它能直接写完整文件、自己运行、自己调试。人开始从一个"操作者"变成了一个"审核者"。事情开始变得微妙。

2026 年 6 月 5 日。Anthropic Institute 发了一篇报告。标题叫《When AI builds itself》。

这不是一篇技术博客。这不是一次产品发布。这是世界上最强 AI 公司之一,在深夜独自站在镜子前,看了很久,然后转身对我们说——

"我们内部的数字是这样的。你们自己看。"

我看了。

那些数字拼起来不是趋势图。是一张"逐退令"——人类正在被逐出自己的研发流水线,一个环节一个环节地。


你以为是未来。其实是取证报告。

先把事情说清楚。

Anthropic 的 AI 研发可以拆成四个环节:

  1. 写代码—— 把想法变成能跑的软件

  2. 做实验—— 跑那个软件,收集数据

  3. 判断结果—— 看懂数据在说什么,决定下一步往哪走

  4. 选择方向—— 决定"我们到底要研究什么"

这四个环节,2021 年的时候 100% 是人类在做。

现在,它们正在从下往上、从外到里,一层一层被 AI 吃掉。

不是辅助。是替代。

不是"AI 帮人写得更快"。是"AI 写完之后人发现自己已经插不上手了"。

就像一条流水线,机器人先替换了拧螺丝的工人,然后是质检员,然后是车间主任。每一次替换都很安静,直到有一天你走进工厂,发现——

整条线上,只剩你一个人。而且你手里的扳手已经生锈了。


第一层:代码。80% 不是人写的。

先给你一个数字,你自己感受一下:

截至 2026 年 5 月,Anthropic 代码库里超过80%的合并代码,作者是 Claude。

2025 年 2 月,Claude Code 公测的时候,这个数字还是个位数。16 个月后:80%。

这不是增长曲线。这是占领

过程分成两步,每一脚都踩在一个不可逆转的拐点上:

拐点一(2025 年):Claude 不再只是"建议代码、等你复制粘贴"。它能自己跑代码了。工程师从"写代码的人"变成"给 Claude 分配任务的人"。日产出开始起飞。

拐点二(2026 年):Claude 能自己连续工作数小时,不需要人类中途接管。一个典型的 Anthropic 工程师,2026 年 Q2 每天产出的代码量是 2024 年的8 倍

Anthropic 自己补了一句话,诚实到让人不知道该怎么接:行数是个粗暴的指标,8× 可能夸大了。

但紧接着他们又说了另一句:130 位研究员的问卷调查里,中位数认为,有 Mythos Preview 的生产力是没有 AI 时的 4 倍

注意这个措辞。不是"快 4 倍"。是"产出 4 倍"。

翻译——你今天一天干的活,相当于 2024 年的你干一周。而你并没觉得自己在加班。

然后,藏着整篇报告里最恐怖的一条数据。

2026 年 4 月,Claude 连续提交了 800 多个修复,把某一类 API 错误降低了1000 倍

盯着这个任务的人类工程师说了一句:"人类需要四年才能完成。"

不是"AI 比人快"。是"人根本做不了这件事"。

过去我们说 AI 是工具,是因为它只在人的能力边界内提速。现在它飞过了边界。你在边界这边看着。


第二层:实验。你说了一句话,它回来时论文已经写好了。

代码被接管了。但研究实验——需要设计、需要试错、需要"智慧"的那种——总还是人在做吧?

2026 年 4 月,Anthropic 做了一个实验:让 AI 独立研究一个经典安全问题——"弱模型能不能监督强模型?"

给了它 800 小时算力和 18000 美元预算。给了他一句话的方向。没有实验设计。没有步骤。没有中间检查。

结果:

  • 人类研究员用了一个星期,恢复了基准结果的23%

  • Claude Agent用 800 小时,恢复了97%

还有一个细节——同一个任务上,Agent 的代码优化速度从 2025 年 5 月的提升到了 2026 年 4 月的52×

同期人类最佳成绩:4×,需要 4-8 小时。

这不是"跟人差不多"。这是碾压。

过去你派一个实习生去做实验,你得写提纲、给步骤、中间检查几次。现在你派 Claude 去——你只说了一句"研究一下这个",它回来的时候,论文已经写好了。

而且比你的实习生强得多。


第三层:判断。"这个实验值不值得跑"——AI 的选择已经赢你了。

现在事情开始变得危险了。

实验能做,这不奇怪。但"判断实验结果"、"决定下一步该干什么"——这是研发里最需要人类直觉的部分。

你跑完一个实验,看到一堆数据。有些是信号,有些是噪声。你知道哪个方向值得追,哪个坑不要再踩。这种嗅觉,我们花了整个职业生涯去培养。我们曾经笃定 AI 学不会。

Anthropic 攒了 129 个真实研究场景,做了一个测试:

如果当初选了 Claude 的建议方案,而不是人类研究员的方案——结果会不会更好?

  • 2025 年 11 月(Opus 4.5):Claude 的选择赢了51%。勉强算平手。

  • 2026 年 4 月(Mythos Preview):Claude 的选择赢了64%

六个月。从"跟你差不多"到"明显比你强"。

这不是执行速度的差距。这是判断质量的差距

你以为你在顶层做决策。数据说你正在变成瓶颈。


第四层:方向。最后一道堤坝——Anthropic 自己不确定它是混凝土还是沙子。

所有环节都沦陷了。只剩下最后一个:选择研究方向

"我们到底应该研究什么?"

Anthropic 说:目前 AI 还不行。

但紧接着他们加了一句,这句话可能是整篇报告里最诚实也最让人后脊发凉的一句:

"研究品味可能也只是另一个 AI 能力——AI 暂时不擅长,然后突然就擅长了。我们已经在其他定性技能上见过这个模式了。"

然后他们用了爱迪生的公式推演了一下:

天才 = 1% 灵感 + 99% 汗水。

现在,99% 的汗水正在被自动化。而且——Anthropic 特意强调——AI 进步的大部分,不是靠那个 1% 的"尤里卡时刻",而是靠循环:放大、发现断裂、修复、再试

换句话说:推动前沿的大部分工作,本质上是可自动化的。

潜台词:如果 99% 被自动化了,那 1% 正在被空前放大。但也可能——那个 1% 本身也是可分解、可学习的。

这道堤坝,可能不是混凝土。


用自动驾驶做类比:人只剩一个按钮了

把整段历史铺开,像交通事故分析一样:

代际

时间

人类角色

AI 角色

你该紧张的地方

L0 纯人工

2021-2023

写代码+做实验+做判断+定方向

慢,但安全

L2 辅助驾驶

2023-2025

同上

建议代码片段

AI 是副驾驶,人还是司机

L3 条件自动

2025-2026

定方向+做判断+审代码

写代码+运行代码+做实验

人变成了监控员

L4 高度自动

2026-今天

只剩"定方向"

写代码+做实验+判断下一步

人只剩一个按钮

L5 完全自动

20XX?

全部

按钮也不在了

自动驾驶行业有个著名的死亡鸿沟:L2 到 L3 之间。驾驶员的注意力从"主动驾驶"转移到"被动监控",反应时间反而变长,事故率飙升。这个行业至今没跨过去。

AI 研发面临一个镜像版的死亡鸿沟:

AI 生成代码的速度 > 人类审阅代码的速度。

输入速度远超审阅速度 → 审阅变成形式主义 → 一旦你不再认真审阅 AI 的产出,你就不再是"监督者"。你是"点击通过按钮的机器"。

Anthropic 自己把这句话写出来了:

"一旦人类代码和 AI 代码质量持平,人类将完全停止写代码,转向只审代码。但如果人审代码的速度跟不上 Claude 生成代码的速度,人类审阅就会成为 AI 研发的瓶颈。"

翻译:一个公司最大的瓶颈,是人的存在本身。

不是资源。不是算力。不是数据。

是你。


三颗藏在平淡句子里的人肉炸弹

整篇报告读下来,最让我毛骨悚然的不是那些统计数字。是藏在段落里的三句人话。Anthropic 的工程师开口了:

1. "我已经 5 个月没写过一行代码了。"

"I started using Claude heavily about a year ago. It's been a crazy ride. It's now been ~5 months since I've written a single line of code." — Anthropic 工程师

这不是外包公司的初级程序员。是 Anthropic 的正式工程师。世界上门槛最高的 AI 公司的核心研发人员。

不是"辅助"。是完全替代。

他每天的工作,就是告诉 Claude 要做什么,然后审 Claude 做的东西。但他自己已经不会写了。或者更准确地说——他的手已经插不进那个循环了

2. "一切正常时我觉得自己没用。出问题时我发现我完全不懂。"

"In the days where everything goes right, I can't help but think—nothing I am doing matters, everything is automated and better and faster than I am. Then the days when something goes wrong, I understand nothing, I realise I have no clue how any of this works."

这段让我停了几秒。

我们造了一台机器。这台机器运行得越来越好,好到有一天,造它的人已经读不懂它的内部运作了。

这就像你修了一辈子的车,有一天车开始自己改自己的发动机。你打开引擎盖,看到的不是零件——是你完全不认识的一套系统。

而你是这辆车的唯一安全员

3. 每一次"不用麻烦你了",都是对人类协作的一次放弃。

"Work functioned on an economy of small human favours. 'Could you help me get this script running?' Each request created a little bit of debt, a little bit of mutual understanding. Claude is faster. Zero debt. But each time, it's a forfeiture of human collaboration."

这可能是整篇报告里最深刻的一段。

过去,团队是靠"人的不完美"连接的。你不会某个东西,你去问同事。那个问题制造了一点社交债务,你们之间多了一层理解。下一次他知道你在做什么,你知道他能帮你什么。

现在你问 Claude。它更快,更精确,零债务。但零债务也意味着零连接。

每一次你选择 Claude 而不是旁边的同事,你不只是在省时间——你在拆除你们之间的一座小桥。

一个团队从"一群人"变成"一个人和一群 Agent"。这群 Agent 从不犯困,从不抱怨,从不问你周末过得怎么样。它们也不在乎你还在不在这个房间里。


两个未来,同一个方向

Anthropic 给出了两条推演路径:

保守版:就算 AI 永远学不会"研究品味",人类把所有时间花在方向设定上,AI 做剩下的一切——这种组合已经让 Anthropic 的研发速度比以前快出了一个数量级。而且这已经发生了,不是预测。

激进版:"研究品味"可能不是什么神秘的人类特权。它只是到目前为止还没被 AI 学会的另一个技能。所有曾经被贴上"AI 学不会"标签的定性能力——解释因果、判断审美、评估可信度——都逐一被拆解和习得了。

两个版本之间的差距,不是"会不会"。是"多快"。


堤坝

2021 年。你写代码,你做实验,你判断结果,你选择方向。堤坝是完整的。

2026 年。80% 的代码不是你写的。实验 AI 能独立做了。结果判断 AI 正在赢你。你只剩方向选择。

那道堤坝只剩最后一截露在水面上。

202X 年?如果方向选择也是一道堤坝——它的材料可能不是混凝土。

真正值得问的问题不是"AI 会不会自己建造自己"。

是——

当它建造自己的时候,你还站在那个车间里吗?

你还能读懂墙壁上的图纸吗?

你还记得哪个开关控制什么吗?

那个 Anthropic 工程师已经给了不全的答案:"出问题的时候我什么都搞不懂了。"

这不是对未来的恐惧。

这是对现在的描述。

这道堤坝不在 20XX 年。在你的下一行代码是不是你写的。在你的下一个"Can you help me?"是对着同事说的,还是对着 Claude 说的。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询