140、API 成本控制体系:Token 计数、预算预警、模型降级与审计日志
从一次凌晨3点的报警说起
那天晚上我正睡得迷糊,手机突然像触电一样狂震——Prometheus告警说OpenAI API账单在2小时内飙了3000美元。爬起来一看日志,某个新上线的对话功能在循环调用GPT-4,因为一个while True的bug没设最大轮数,模型在死循环里疯狂输出。更讽刺的是,这个功能连Token计数都没做,直到信用卡被刷爆才被发现。
从那以后,我给自己定了个规矩:任何接入大模型API的代码,第一版必须先写成本控制,再写业务逻辑。这不是小题大做,是拿真金白银换来的教训。
Token计数:别信官方文档的“近似值”
很多人觉得Token计数就是调个len(text.split()),或者直接用OpenAI的tiktoken库。但这里有个坑——不同模型的Tokenizer不一样,GPT-3.5和GPT-4的编码规则有细微差异,更别说Claude、文心一言这些第三方模型了。
我踩过的坑是这样的:
# 别这样写!这是错的def