引言:一个令人深思的信号
2026年6月,一条来自硅谷的消息在开发者社区引发了广泛讨论:Uber对所有软件工程师实施了严格的LLM API花费上限。据Simon Willison引用Gergely Orosz的报道,大多数工程师的月度预算在100-200美元之间,高级别可达1,500美元。超出预算后,访问会被完全切断——没有例外,没有临时扩展。
这并非孤例。据TechCrunch报道,Uber在四个月内就烧光了全年的AI预算。这一事件不仅仅是成本控制的故事,它折射出当前企业AI落地的一个核心矛盾:AI能力在指数级增长,但企业的成本治理体系却远远没有跟上。
一、Uber的AI花费治理架构
Uber的做法具有很强的工程参考价值。据分析,他们构建了一套集中式LLM代理层(Centralized LLM Proxy Layer),所有对大模型API的调用都必须经过这一层。这个代理层实现了三个核心功能:
- 用量追踪:精确记录每个工程师、每个团队、每个功能模块的API调用量和花费
- 预算执行:硬性限制,达到上限后立即切断访问,不允许绕过
- 多供应商路由:代理层可以智能路由到不同的模型供应商(OpenAI、Anthropic、Google等),在成本和质量之间做权衡
这种架构本质上是将AI调用视为一等基础设施资源,与计算资源、存储资源同等管理。这一点看似简单,却是大多数企业尚未做到的。
二、为什么企业AI成本失控?
Uber四个月烧光全年预算的故事并非个例。从技术角度看,企业AI成本失控有几个根本原因:
2.1 推理成本的隐性膨胀
与传统的API调用不同,LLM推理的成本结构是非线性的。一次看似简单的代码补全请求,可能因为上下文窗口的膨胀而导致成本翻倍。以OpenAI的定价为例(OpenAI前沿模型现已登陆AWS),o3推理模型的每次调用成本是GPT-4o的数倍,而工程师往往在不自觉中使用了过度强大的模型来完成简单任务。
2.2 Agent循环的无限消费风险
随着AI Agent的普及,一个更大的成本陷阱出现了。当Agent进入自主循环——例如在调试代码时反复调用模型、在搜索信息时进行多轮检索——每一次循环都是一次API调用。一个设计不当的Agent工作流,可能在几分钟内消耗数百美元。
2.3 可见性的缺失
大多数企业在引入AI工具时,关注的是能不能用,而非花了多少钱。当月底账单到来时,才发现花费已经远超预期。这种可见性的缺失是成本失控的最根本原因。
三、LLM Gateway:企业AI治理的新范式
Uber的做法正在被越来越多的企业效仿。一个被称为LLM Gateway(大模型网关)的架构模式正在成为企业AI基础设施的标准组件。其核心设计包括:
- 统一入口:所有LLM调用通过单一网关,实现集中管控
- Per-User预算:类似云计算的资源配额,每个用户/团队有独立的花费上限
- 智能路由:根据任务复杂度自动选择最经济的模型(简单任务用小模型,复杂任务用大模型)
- 审计日志:完整的调用链路追踪,支持成本归因和优化
这种模式与云计算时代的FinOps实践一脉相承。正如企业在AWS/Azure上设置预算告警和资源限制一样,AI调用也需要同等的治理力度。
四、更宏观的视角:AI成本与企业战略
Uber的案例只是一个缩影。从更宏观的视角看,企业AI成本治理面临着几个战略层面的挑战:
4.1 模型定价的军备竞赛
当前大模型市场正处于激烈的竞争中。OpenAI的前沿模型(GPT-4.1、o3、o4-mini)已登陆AWS,与Azure、Google Cloud形成三足鼎立。模型价格在持续下降,但同时模型能力在持续提升,导致企业倾向于使用更强大的模型——最终花费不降反升。
4.2 安全与成本的博弈
值得注意的是,Anthropic正在推进Project Glasswing,将Claude模型部署到全球15个国家的关键基础设施安全领域,扩展至约150个新组织,覆盖电力、水务、医疗、通信等行业。这表明AI的应用场景正在从提高效率扩展到保障安全,而安全领域的AI花费更难用简单的ROI来衡量。
4.3 监管的不确定性
佛罗里达州近期起诉OpenAI和Sam Altman,指控AI风险。这一事件提醒企业:在AI投入上不仅要考虑成本,还要考虑合规风险。未来,企业的AI花费可能需要同时满足财务和合规两个维度的要求。
五、实践建议:企业如何构建AI成本治理体系
基于Uber等先行者的经验,以下是构建企业AI成本治理体系的关键步骤:
- 建立LLM Gateway:这是基础。所有AI调用必须经过统一网关,实现集中可见性和控制。
- 实施Per-User预算:从无限制使用转向有预算的自由。预算应该足够宽裕,不会扼杀创新,但要有明确的上限。
- 智能模型选择:不要用大炮打蚊子。简单任务(格式化、翻译)用轻量模型,复杂任务(推理、编码)才用前沿模型。
- 成本归因:能够精确追踪这笔花费是哪个团队、哪个功能、哪次调用产生的。只有可见,才能优化。
- 定期审计:月度花费报告,季度成本优化审查,年度战略评估。
结语:从无限幻觉到有限现实
Uber的故事告诉我们一个朴素的道理:AI不是免费的午餐。当整个行业沉浸在AI能力指数级增长的兴奋中时,企业需要冷静地面对一个现实——每一次推理调用都有真实的成本,每一个Agent循环都在消耗真实的预算。
这不是要限制AI的使用,恰恰相反,是为了让AI的使用更加可持续。正如云计算时代催生了FinOps,AI时代正在催生一种新的治理范式。那些能够率先建立这种治理体系的企业,将在AI竞争中获得持久的优势。
当无限可能遇上有限预算,答案不是减少可能性,而是更聪明地分配预算。