大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。
我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案,
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。
技术方向:前端 / 跨端 / 小程序 / 移动端工程化
内容平台:掘金、知乎、CSDN、简书
创作特点:实战导向、源码拆解、少空谈多落地
文章状态:长期稳定更新,大量原创输出
我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。
子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源(工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学“明白”,也用“到位”
持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱
文章目录
- 引言
- 一、AI 公司最大的支出已经不是训练
- 二、真正烧钱的不是参数,而是 Token
- 三、为什么用户越多,反而越亏钱?
- 四、Agent 正在放大推理成本
- 五、长上下文成为新的成本黑洞
- 六、GPU 利用率低,却依然很贵
- 七、为什么 AI Infra 比模型更重要?
- 八、真正赚钱的公司,都在优化每一个 Token
- 总结
引言
最近两年,AI 创业圈出现了一个越来越明显的现象。
很多公司融资越来越多。但是:
收入越来越高 利润越来越低甚至有不少 AI 创业公司发现:
用户越多 亏损越大看起来十分反常。互联网时代,我们经常听到的是:
用户增长 ↓ 规模效应 ↓ 成本下降但到了大模型时代,事情开始发生变化。
很多 AI 产品上线之后,成本曲线变成了:
用户增长 ↓ GPU需求增长 ↓ 推理成本增长 ↓ 利润下降于是整个 AI 行业开始讨论一个新的问题:
真正限制 AI 商业化的,已经不是模型能力,而是推理成本。
今天,我们就从 AI Infra 的角度,聊聊:
为什么推理成本正在成为 AI 创业公司最大的生存挑战?
一、AI 公司最大的支出已经不是训练
很多人认为,大模型最烧钱的是训练。例如:
GPT DeepSeek Qwen Llama训练一次:
几百万美元 甚至上亿美元听起来非常昂贵,但如果把时间拉长,你会发现:
训练 一次完成而:
推理 每天都在发生假设一家 AI 公司拥有:
100 万日活用户每人每天调用模型:
20 次那么一天需要完成:
2000 万次推理一年下来:
超过 70 亿次请求很多企业最终发现:
累计推理成本 远远超过训练成本于是行业开始流传一句话:
Train Once,Infer Forever。
二、真正烧钱的不是参数,而是 Token
很多人觉得:
70B 模型 一定比 7B 贵。其实并不完全正确,真正决定成本的是:
生成多少 Token例如,用户问:
你好模型回答:
你好!可能只生成:
10 个 Token而另一个用户要求:
请写一篇一万字的行业分析。模型可能需要生成:
上万个 Token对于 GPU 来说:
每生成一个 Token 都需要执行一次 Decoder。因此:
Token 越多 GPU 占用时间越长所以推理系统真正计费单位其实更像:
GPU 时间 × Token 数量而不是模型参数。
三、为什么用户越多,反而越亏钱?
互联网产品有一个经典规律:
用户越多 单位成本越低例如,视频网站。增加一万个用户:
CDN 成本 不会增加一万倍因为:
缓存可以共享但是 AI 不一样,每一个用户都有自己的:
Prompt Context KV Cache例如,用户 A:
翻译论文用户 B:
生成 PPT用户 C:
编写代码三个人的上下文完全不同,意味着:
KV Cache 无法共享于是:
用户增加 ↓ 显存增加 ↓ GPU 增加 ↓ 成本同步增加规模效应第一次失灵。
四、Agent 正在放大推理成本
如果只是聊天机器人,一次请求:
输入 ↓ 回答 结束成本相对可控,但是 Agent 不一样。例如:
用户: 帮我规划一次日本旅行。Agent 可能执行:
理解需求 ↓ 制定计划 ↓ 搜索酒店 ↓ 查询天气 ↓ 调用地图 ↓ 比较价格 ↓ 整理结果整个过程:
几十次模型调用甚至:
上百次推理对于用户来说,只是:
一个问题但后台已经消耗了大量 GPU 时间,Agent 越智能,推理成本往往越高。
五、长上下文成为新的成本黑洞
今天越来越多模型支持:
128K 256K 1M Context看起来体验越来越好,但从系统角度来看上下文越长。
意味着:
KV Cache 越大例如,一个普通聊天:
8K Context可能只需要几百 MB 显存,而:
128K Context可能需要数 GB,如果:
1000 个用户同时在线GPU 很快就会被:
KV Cache完全占满,很多企业最终发现 GPU 不是算满的。
而是:
显存先满了。六、GPU 利用率低,却依然很贵
很多公司看到监控时都会疑惑:
GPU 利用率 只有 30%为什么费用还是这么高?原因在于:推理阶段并不是一直计算。
GPU 很多时间都在等待:
KV Cache 网络通信 Token 输出虽然:
SM 没有满载但是:
GPU 依然被独占。对于云厂商来说:
占用 GPU 就需要付费。因此:
GPU Utilization ≠ GPU Cost七、为什么 AI Infra 比模型更重要?
过去几年,很多创业公司的核心竞争力是:
训练模型现在越来越多团队发现,真正决定盈利能力的是:
推理系统例如,同样部署:
Llama Qwen DeepSeek不同团队的成本可能相差:
2~5 倍原因就在于,是否采用:
Continuous Batching PagedAttention FlashAttention PD Separation Speculative Decoding Quantization这些技术决定了:
同一张 GPU 能够服务多少用户。因此,越来越多 AI 公司开始把资源投入:
Runtime Inference Engine Scheduler而不仅仅是模型训练。
八、真正赚钱的公司,都在优化每一个 Token
过去 AI 公司竞争的是:
谁模型更大。今天竞争开始变成:
谁每秒生成更多 Token。 谁每美元生成更多 Token。例如,同样一张 GPU。
公司 A:
100 Token/s公司 B:
300 Token/s即使模型能力接近,后者的利润空间也会高得多。
因此未来 AI 创业公司的竞争,很可能不是:
Model First而是:
Inference First总结
如果用一句话解释:
为什么推理成本正在杀死 AI 创业公司?
答案其实很简单:
因为训练是一笔一次性的投入,而推理是一项会随着用户规模持续增长的长期运营成本。
从工程角度来看,推理成本主要来自几个方面:
GPU 占用时间 Token 数量 KV Cache 显存 长上下文 高并发请求 Agent 多轮推理 GPU 利用率不足过去十年,AI 行业竞争的是:
谁拥有更大的模型。未来十年,竞争的核心将逐渐变成:
谁拥有更高效的推理系统。因为对于一家 AI 创业公司来说,模型决定产品的能力上限,而推理效率决定公司的盈利下限。
未来真正能够活下来的企业,未必拥有最大的模型,但一定拥有最低的单位 Token 成本、最高的 GPU 利用率,以及最优秀的 AI Runtime 与推理基础设施。