导读
想象一下:你部署了一个AI Agent来处理客户订单。凌晨两点,系统开始运行。中午十二点,你收到账单——是预期的200倍。你的Agent在过去10个小时里一直在循环重试,消耗了数万美元的Token,却什么都没完成。
这不是虚构的极端案例。2026年,一家基于开源技术栈构建多Agent研究工具的公司就遇到了这种情况:两个Agent陷入了递归循环,运行了11天才被发现,最终账单高达47,000美元。
这一章解决什么问题:作为PM,你不需要知道如何写代码,但你需要知道Agent系统会怎么失败、为什么失败、以及如何在产品设计层面预防这些问题。Agent系统的失败模式和传统软件完全不同——它们不会抛出明确的异常,而是会以一种看似“正常运行”但实际在疯狂消耗资源的方式失败。
读完你能学到什么:
- 7种核心失败模式的原理和表现
- 每种失败模式的PM可操作应对策略
- 如何在产品设计阶段就考虑Agent的容错性
- 主流框架的失败处理机制对比
前置知识:建议先阅读第10章(Agent基础)和第11章(人机协作流程),但不是必需的。
一、循环调用:Agent的"鬼打墙"
什么是循环调用
循环调用(Infinite Loop)是Agent系统最常见也最直观的失败模式。Agent在执行任务时陷入重复推理,无法自行判断任务完成,从而一遍又一遍地