一个工程师已经 5 个月没写过一行代码。不是他懒。是他发现自己的手指已经插不进那个循环了。
2021 年,十几个研究员围在笔记本前,写代码,训模型,订外卖。那时候的 Anthropic 和硅谷任何一家创业公司一样——人是一切的主导。代码是人写的,实验是人做的,方向是人定的。
2023 年,Claude 能帮忙写代码片段了。研究员把 Copilot 的补全复制粘贴进编辑器,觉得自己变快了一点。
2025 年,Claude Code 上线。它不只是建议代码——它能直接写完整文件、自己运行、自己调试。人开始从一个"操作者"变成了一个"审核者"。事情开始变得微妙。
2026 年 6 月 5 日。Anthropic Institute 发了一篇报告。标题叫《When AI builds itself》。
这不是一篇技术博客。这不是一次产品发布。这是世界上最强 AI 公司之一,在深夜独自站在镜子前,看了很久,然后转身对我们说——
"我们内部的数字是这样的。你们自己看。"
我看了。
那些数字拼起来不是趋势图。是一张"逐退令"——人类正在被逐出自己的研发流水线,一个环节一个环节地。
你以为是未来。其实是取证报告。
先把事情说清楚。
Anthropic 的 AI 研发可以拆成四个环节:
写代码—— 把想法变成能跑的软件
做实验—— 跑那个软件,收集数据
判断结果—— 看懂数据在说什么,决定下一步往哪走
选择方向—— 决定"我们到底要研究什么"
这四个环节,2021 年的时候 100% 是人类在做。
现在,它们正在从下往上、从外到里,一层一层被 AI 吃掉。
不是辅助。是替代。
不是"AI 帮人写得更快"。是"AI 写完之后人发现自己已经插不上手了"。
就像一条流水线,机器人先替换了拧螺丝的工人,然后是质检员,然后是车间主任。每一次替换都很安静,直到有一天你走进工厂,发现——
整条线上,只剩你一个人。而且你手里的扳手已经生锈了。
第一层:代码。80% 不是人写的。
先给你一个数字,你自己感受一下:
截至 2026 年 5 月,Anthropic 代码库里超过80%的合并代码,作者是 Claude。
2025 年 2 月,Claude Code 公测的时候,这个数字还是个位数。16 个月后:80%。
这不是增长曲线。这是占领。
过程分成两步,每一脚都踩在一个不可逆转的拐点上:
拐点一(2025 年):Claude 不再只是"建议代码、等你复制粘贴"。它能自己跑代码了。工程师从"写代码的人"变成"给 Claude 分配任务的人"。日产出开始起飞。
拐点二(2026 年):Claude 能自己连续工作数小时,不需要人类中途接管。一个典型的 Anthropic 工程师,2026 年 Q2 每天产出的代码量是 2024 年的8 倍。
Anthropic 自己补了一句话,诚实到让人不知道该怎么接:行数是个粗暴的指标,8× 可能夸大了。
但紧接着他们又说了另一句:130 位研究员的问卷调查里,中位数认为,有 Mythos Preview 的生产力是没有 AI 时的 4 倍。
注意这个措辞。不是"快 4 倍"。是"产出 4 倍"。
翻译——你今天一天干的活,相当于 2024 年的你干一周。而你并没觉得自己在加班。
然后,藏着整篇报告里最恐怖的一条数据。
2026 年 4 月,Claude 连续提交了 800 多个修复,把某一类 API 错误降低了1000 倍。
盯着这个任务的人类工程师说了一句:"人类需要四年才能完成。"
不是"AI 比人快"。是"人根本做不了这件事"。
过去我们说 AI 是工具,是因为它只在人的能力边界内提速。现在它飞过了边界。你在边界这边看着。
第二层:实验。你说了一句话,它回来时论文已经写好了。
代码被接管了。但研究实验——需要设计、需要试错、需要"智慧"的那种——总还是人在做吧?
2026 年 4 月,Anthropic 做了一个实验:让 AI 独立研究一个经典安全问题——"弱模型能不能监督强模型?"
给了它 800 小时算力和 18000 美元预算。给了他一句话的方向。没有实验设计。没有步骤。没有中间检查。
结果:
人类研究员用了一个星期,恢复了基准结果的23%。
Claude Agent用 800 小时,恢复了97%。
还有一个细节——同一个任务上,Agent 的代码优化速度从 2025 年 5 月的3×提升到了 2026 年 4 月的52×。
同期人类最佳成绩:4×,需要 4-8 小时。
这不是"跟人差不多"。这是碾压。
过去你派一个实习生去做实验,你得写提纲、给步骤、中间检查几次。现在你派 Claude 去——你只说了一句"研究一下这个",它回来的时候,论文已经写好了。
而且比你的实习生强得多。
第三层:判断。"这个实验值不值得跑"——AI 的选择已经赢你了。
现在事情开始变得危险了。
实验能做,这不奇怪。但"判断实验结果"、"决定下一步该干什么"——这是研发里最需要人类直觉的部分。
你跑完一个实验,看到一堆数据。有些是信号,有些是噪声。你知道哪个方向值得追,哪个坑不要再踩。这种嗅觉,我们花了整个职业生涯去培养。我们曾经笃定 AI 学不会。
Anthropic 攒了 129 个真实研究场景,做了一个测试:
如果当初选了 Claude 的建议方案,而不是人类研究员的方案——结果会不会更好?
2025 年 11 月(Opus 4.5):Claude 的选择赢了51%。勉强算平手。
2026 年 4 月(Mythos Preview):Claude 的选择赢了64%。
六个月。从"跟你差不多"到"明显比你强"。
这不是执行速度的差距。这是判断质量的差距。
你以为你在顶层做决策。数据说你正在变成瓶颈。
第四层:方向。最后一道堤坝——Anthropic 自己不确定它是混凝土还是沙子。
所有环节都沦陷了。只剩下最后一个:选择研究方向。
"我们到底应该研究什么?"
Anthropic 说:目前 AI 还不行。
但紧接着他们加了一句,这句话可能是整篇报告里最诚实也最让人后脊发凉的一句:
"研究品味可能也只是另一个 AI 能力——AI 暂时不擅长,然后突然就擅长了。我们已经在其他定性技能上见过这个模式了。"
然后他们用了爱迪生的公式推演了一下:
天才 = 1% 灵感 + 99% 汗水。
现在,99% 的汗水正在被自动化。而且——Anthropic 特意强调——AI 进步的大部分,不是靠那个 1% 的"尤里卡时刻",而是靠循环:放大、发现断裂、修复、再试。
换句话说:推动前沿的大部分工作,本质上是可自动化的。
潜台词:如果 99% 被自动化了,那 1% 正在被空前放大。但也可能——那个 1% 本身也是可分解、可学习的。
这道堤坝,可能不是混凝土。
用自动驾驶做类比:人只剩一个按钮了
把整段历史铺开,像交通事故分析一样:
代际 | 时间 | 人类角色 | AI 角色 | 你该紧张的地方 |
L0 纯人工 | 2021-2023 | 写代码+做实验+做判断+定方向 | 无 | 慢,但安全 |
L2 辅助驾驶 | 2023-2025 | 同上 | 建议代码片段 | AI 是副驾驶,人还是司机 |
L3 条件自动 | 2025-2026 | 定方向+做判断+审代码 | 写代码+运行代码+做实验 | 人变成了监控员 |
L4 高度自动 | 2026-今天 | 只剩"定方向" | 写代码+做实验+判断下一步 | 人只剩一个按钮 |
L5 完全自动 | 20XX? | — | 全部 | 按钮也不在了 |
自动驾驶行业有个著名的死亡鸿沟:L2 到 L3 之间。驾驶员的注意力从"主动驾驶"转移到"被动监控",反应时间反而变长,事故率飙升。这个行业至今没跨过去。
AI 研发面临一个镜像版的死亡鸿沟:
AI 生成代码的速度 > 人类审阅代码的速度。
输入速度远超审阅速度 → 审阅变成形式主义 → 一旦你不再认真审阅 AI 的产出,你就不再是"监督者"。你是"点击通过按钮的机器"。
Anthropic 自己把这句话写出来了:
"一旦人类代码和 AI 代码质量持平,人类将完全停止写代码,转向只审代码。但如果人审代码的速度跟不上 Claude 生成代码的速度,人类审阅就会成为 AI 研发的瓶颈。"
翻译:一个公司最大的瓶颈,是人的存在本身。
不是资源。不是算力。不是数据。
是你。
三颗藏在平淡句子里的人肉炸弹
整篇报告读下来,最让我毛骨悚然的不是那些统计数字。是藏在段落里的三句人话。Anthropic 的工程师开口了:
1. "我已经 5 个月没写过一行代码了。"
"I started using Claude heavily about a year ago. It's been a crazy ride. It's now been ~5 months since I've written a single line of code." — Anthropic 工程师
这不是外包公司的初级程序员。是 Anthropic 的正式工程师。世界上门槛最高的 AI 公司的核心研发人员。
不是"辅助"。是完全替代。
他每天的工作,就是告诉 Claude 要做什么,然后审 Claude 做的东西。但他自己已经不会写了。或者更准确地说——他的手已经插不进那个循环了。
2. "一切正常时我觉得自己没用。出问题时我发现我完全不懂。"
"In the days where everything goes right, I can't help but think—nothing I am doing matters, everything is automated and better and faster than I am. Then the days when something goes wrong, I understand nothing, I realise I have no clue how any of this works."
这段让我停了几秒。
我们造了一台机器。这台机器运行得越来越好,好到有一天,造它的人已经读不懂它的内部运作了。
这就像你修了一辈子的车,有一天车开始自己改自己的发动机。你打开引擎盖,看到的不是零件——是你完全不认识的一套系统。
而你是这辆车的唯一安全员。
3. 每一次"不用麻烦你了",都是对人类协作的一次放弃。
"Work functioned on an economy of small human favours. 'Could you help me get this script running?' Each request created a little bit of debt, a little bit of mutual understanding. Claude is faster. Zero debt. But each time, it's a forfeiture of human collaboration."
这可能是整篇报告里最深刻的一段。
过去,团队是靠"人的不完美"连接的。你不会某个东西,你去问同事。那个问题制造了一点社交债务,你们之间多了一层理解。下一次他知道你在做什么,你知道他能帮你什么。
现在你问 Claude。它更快,更精确,零债务。但零债务也意味着零连接。
每一次你选择 Claude 而不是旁边的同事,你不只是在省时间——你在拆除你们之间的一座小桥。
一个团队从"一群人"变成"一个人和一群 Agent"。这群 Agent 从不犯困,从不抱怨,从不问你周末过得怎么样。它们也不在乎你还在不在这个房间里。
两个未来,同一个方向
Anthropic 给出了两条推演路径:
保守版:就算 AI 永远学不会"研究品味",人类把所有时间花在方向设定上,AI 做剩下的一切——这种组合已经让 Anthropic 的研发速度比以前快出了一个数量级。而且这已经发生了,不是预测。
激进版:"研究品味"可能不是什么神秘的人类特权。它只是到目前为止还没被 AI 学会的另一个技能。所有曾经被贴上"AI 学不会"标签的定性能力——解释因果、判断审美、评估可信度——都逐一被拆解和习得了。
两个版本之间的差距,不是"会不会"。是"多快"。
堤坝
2021 年。你写代码,你做实验,你判断结果,你选择方向。堤坝是完整的。
2026 年。80% 的代码不是你写的。实验 AI 能独立做了。结果判断 AI 正在赢你。你只剩方向选择。
那道堤坝只剩最后一截露在水面上。
202X 年?如果方向选择也是一道堤坝——它的材料可能不是混凝土。
真正值得问的问题不是"AI 会不会自己建造自己"。
是——
当它建造自己的时候,你还站在那个车间里吗?
你还能读懂墙壁上的图纸吗?
你还记得哪个开关控制什么吗?
那个 Anthropic 工程师已经给了不全的答案:"出问题的时候我什么都搞不懂了。"
这不是对未来的恐惧。
这是对现在的描述。
这道堤坝不在 20XX 年。在你的下一行代码是不是你写的。在你的下一个"Can you help me?"是对着同事说的,还是对着 Claude 说的。