推理成本正在杀死 AI 创业公司？-港品优选

子玥酱（掘金 / 知乎 / CSDN / 简书同名）

大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向：前端 / 跨端 / 小程序 / 移动端工程化
内容平台：掘金、知乎、CSDN、简书
创作特点：实战导向、源码拆解、少空谈多落地
文章状态：长期稳定更新，大量原创输出

我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”，而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍，希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端，或准备长期走前端这条路
📚 关注我，第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源（工程化 / 框架 / 跨端 / 面试 / 架构）
💡 一起把技术学“明白”，也用“到位”

持续写作，持续进阶。
愿我们都能在代码和生活里，走得更稳一点 🌱

文章目录

- 引言
- 一、AI 公司最大的支出已经不是训练
- 二、真正烧钱的不是参数，而是 Token
- 三、为什么用户越多，反而越亏钱？
- 四、Agent 正在放大推理成本
- 五、长上下文成为新的成本黑洞
- 六、GPU 利用率低，却依然很贵
- 七、为什么 AI Infra 比模型更重要？
- 八、真正赚钱的公司，都在优化每一个 Token
- 总结

引言

最近两年，AI 创业圈出现了一个越来越明显的现象。

很多公司融资越来越多。但是：

收入越来越高 利润越来越低

甚至有不少 AI 创业公司发现：

用户越多 亏损越大

看起来十分反常。互联网时代，我们经常听到的是：

用户增长 ↓ 规模效应 ↓ 成本下降

但到了大模型时代，事情开始发生变化。

很多 AI 产品上线之后，成本曲线变成了：

用户增长 ↓ GPU需求增长 ↓ 推理成本增长 ↓ 利润下降

于是整个 AI 行业开始讨论一个新的问题：

真正限制 AI 商业化的，已经不是模型能力，而是推理成本。

今天，我们就从 AI Infra 的角度，聊聊：

为什么推理成本正在成为 AI 创业公司最大的生存挑战？

一、AI 公司最大的支出已经不是训练

很多人认为，大模型最烧钱的是训练。例如：

GPT DeepSeek Qwen Llama

训练一次：

几百万美元 甚至上亿美元

听起来非常昂贵，但如果把时间拉长，你会发现：

训练 一次完成

而：

推理 每天都在发生

假设一家 AI 公司拥有：

100 万日活用户

每人每天调用模型：

20 次

那么一天需要完成：

2000 万次推理

一年下来：

超过 70 亿次请求

很多企业最终发现：

累计推理成本 远远超过训练成本

于是行业开始流传一句话：

Train Once，Infer Forever。

二、真正烧钱的不是参数，而是 Token

很多人觉得：

70B 模型 一定比 7B 贵。

其实并不完全正确，真正决定成本的是：

生成多少 Token

例如，用户问：

你好

模型回答：

你好！

可能只生成：

10 个 Token

而另一个用户要求：

请写一篇一万字的行业分析。

模型可能需要生成：

上万个 Token

对于 GPU 来说：

每生成一个 Token 都需要执行一次 Decoder。

因此：

Token 越多 GPU 占用时间越长

所以推理系统真正计费单位其实更像：

GPU 时间 × Token 数量

而不是模型参数。

三、为什么用户越多，反而越亏钱？

互联网产品有一个经典规律：

用户越多 单位成本越低

例如，视频网站。增加一万个用户：

CDN 成本 不会增加一万倍

因为：

缓存可以共享

但是 AI 不一样，每一个用户都有自己的：

Prompt Context KV Cache

例如，用户 A：

翻译论文

用户 B：

生成 PPT

用户 C：

编写代码

三个人的上下文完全不同，意味着：

KV Cache 无法共享

于是：

用户增加 ↓ 显存增加 ↓ GPU 增加 ↓ 成本同步增加

规模效应第一次失灵。

四、Agent 正在放大推理成本

如果只是聊天机器人，一次请求：

输入 ↓ 回答 结束

成本相对可控，但是 Agent 不一样。例如：

用户： 帮我规划一次日本旅行。

Agent 可能执行：

理解需求 ↓ 制定计划 ↓ 搜索酒店 ↓ 查询天气 ↓ 调用地图 ↓ 比较价格 ↓ 整理结果

整个过程：

几十次模型调用

甚至：

上百次推理

对于用户来说，只是：

一个问题

但后台已经消耗了大量 GPU 时间，Agent 越智能，推理成本往往越高。

五、长上下文成为新的成本黑洞

今天越来越多模型支持：

128K 256K 1M Context

看起来体验越来越好，但从系统角度来看上下文越长。

意味着：

KV Cache 越大

例如，一个普通聊天：

8K Context

可能只需要几百 MB 显存，而：

128K Context

可能需要数 GB，如果：

1000 个用户同时在线

GPU 很快就会被：

KV Cache

完全占满，很多企业最终发现 GPU 不是算满的。

而是：

显存先满了。

六、GPU 利用率低，却依然很贵

很多公司看到监控时都会疑惑：

GPU 利用率 只有 30%

为什么费用还是这么高？原因在于：推理阶段并不是一直计算。

GPU 很多时间都在等待：

KV Cache 网络通信 Token 输出

虽然：

SM 没有满载

但是：

GPU 依然被独占。

对于云厂商来说：

占用 GPU 就需要付费。

因此：

GPU Utilization ≠ GPU Cost

七、为什么 AI Infra 比模型更重要？

过去几年，很多创业公司的核心竞争力是：

训练模型

现在越来越多团队发现，真正决定盈利能力的是：

推理系统

例如，同样部署：

Llama Qwen DeepSeek

不同团队的成本可能相差：

2～5 倍

原因就在于，是否采用：

Continuous Batching PagedAttention FlashAttention PD Separation Speculative Decoding Quantization

这些技术决定了：

同一张 GPU 能够服务多少用户。

因此，越来越多 AI 公司开始把资源投入：

Runtime Inference Engine Scheduler

而不仅仅是模型训练。

八、真正赚钱的公司，都在优化每一个 Token

过去 AI 公司竞争的是：

谁模型更大。

今天竞争开始变成：

谁每秒生成更多 Token。 谁每美元生成更多 Token。

例如，同样一张 GPU。

公司 A：

100 Token/s

公司 B：

300 Token/s

即使模型能力接近，后者的利润空间也会高得多。

因此未来 AI 创业公司的竞争，很可能不是：

Model First

而是：

Inference First

总结

如果用一句话解释：

为什么推理成本正在杀死 AI 创业公司？

答案其实很简单：

因为训练是一笔一次性的投入，而推理是一项会随着用户规模持续增长的长期运营成本。

从工程角度来看，推理成本主要来自几个方面：

GPU 占用时间 Token 数量 KV Cache 显存 长上下文 高并发请求 Agent 多轮推理 GPU 利用率不足

过去十年，AI 行业竞争的是：

谁拥有更大的模型。

未来十年，竞争的核心将逐渐变成：

谁拥有更高效的推理系统。

因为对于一家 AI 创业公司来说，模型决定产品的能力上限，而推理效率决定公司的盈利下限。

未来真正能够活下来的企业，未必拥有最大的模型，但一定拥有最低的单位 Token 成本、最高的 GPU 利用率，以及最优秀的 AI Runtime 与推理基础设施。

企业官网建设流程全解析

文章目录

引言

一、AI 公司最大的支出已经不是训练

二、真正烧钱的不是参数，而是 Token

三、为什么用户越多，反而越亏钱？

四、Agent 正在放大推理成本

五、长上下文成为新的成本黑洞

六、GPU 利用率低，却依然很贵

七、为什么 AI Infra 比模型更重要？

八、真正赚钱的公司，都在优化每一个 Token

总结

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

文章目录

引言

一、AI 公司最大的支出已经不是训练

二、真正烧钱的不是参数，而是 Token

三、为什么用户越多，反而越亏钱？

四、Agent 正在放大推理成本

五、长上下文成为新的成本黑洞

六、GPU 利用率低，却依然很贵

七、为什么 AI Infra 比模型更重要？

八、真正赚钱的公司，都在优化每一个 Token

总结

热门文章

文章分类

标签云

相关文章

医疗X光机高频差分晶振选型与电路设计要点

PotatoNV技术解析：基于麒麟芯片的华为设备引导程序解锁机制深度剖析

13.5~200MHz频段在现代电子系统中的关键应用

需要专业的网站建设服务？