Token Efficiency 的出路在哪里?
想象一下这个场景:工程师把一次 Agent 任务从 10 万 Token 压到 4 万,仪表盘绿了六成。月底账单到了,云成本一分钱没少。公司租了 8 张 GPU,包月。模型少说了 6 万 Token,机器照样开着,合同照样付钱。
工程师优化出一大片空闲算力,财务却找不到一美元 Savings。Token Efficiency 的问题就这样暴露了:它从来不是一个孤立的技术指标,计费方式一变,财务含义就跟着变。
上一篇《疯狂烧 Token 的日子要结束了》里,我把 Token 称为 AI 时代新的 COGS。这个判断隐含了一个前提:企业按 Token 买模型。
继续追问一步:企业一定要买 Token 吗?
当然不一定。它可以按调用量买 API,按时间租 GPU,按吞吐购买 Provisioned Throughput,也可以把 AI 藏进 SaaS 的 Seat、Credit 和套餐里。底层跑的可能是同一个模型,财务看到的却是四门完全不同的生意。
同一个模型,四张完全不同的账
| 商业模式 | 付费单位 | 真正该优化的指标 | 适合的 Workload |
|---|---|---|---|
| Token API | Input / Output Token | 每美元完成的有效任务 | 新业务、低频、波动大 |
| 裸 GPU / Dedicated Endpoint | GPU-second、GPU-hour | 每 GPU-hour 的有效吞吐 | 稳定、高并发、模型可控 |
| 托管推理容量 | Model Unit、Provisioned Throughput | 承诺容量利用率与 SLO | 稳定生产流量、强治理需求 |
| AI SaaS | Seat、Credit、Conversation、Action | 套餐利用率与单位毛利 | 已嵌入业务系统的 Workflow |
很多 Token Efficiency 的争论之所以鸡同鸭讲,是因为大家拿着不同的账单,却试图使用同一个指标。
按 Token 付费的人,关心模型少说了多少。租 GPU 的人,关心机器有没有吃满。买托管容量的人,关心承诺档位能不能降。买 SaaS 的人,甚至看不到 Token,只会看到 Credit 快用完了。
技术可以用同一套 Benchmark,经济账不行。
买 Token:省下来的每一个 Token 都能进账单
Token API 是 AI 时代的 Serverless。
不用买机器,不用管推理框架,不用预测半年后的容量。今天调用 100 次就付 100 次,明天突然涨到 100 万次,模型厂商替你扛峰值。对 PoC、低频任务、长尾 Workflow 和流量极不稳定的新产品,这通常是最合理的起点。
在这张账上,Token Efficiency 很直接。
缩短 Context、做 Prompt Caching、把简单任务路由给小模型、提前结束无效 Reasoning、用确定性代码替代 LLM 调用,这些优化只要不伤成功率,就会体现在下个月账单里。
风险也很直接:模型厂商按使用量收钱,企业承担每一次过度思考、重试和上下文膨胀。模型能力榜排得再漂亮,最后还是客户替 Token 买单。
按量买 Token,Token Efficiency 才是现金指标。
租 GPU:Token 消失了,空转出现了
企业也可以绕过 Token 单价,直接向 AI Cloud 租 GPU。
这条路已经很成熟。Together AI 的 Dedicated Endpoint按硬件运行时间计费,不管有没有请求;Fireworks 的 On-demand Deployment按 GPU-second 计费;Lambda则提供按小时的 GPU Instance 和预留容量。
账单从语言单位切回了时间单位。
此时,一次任务用了 4 万还是 10 万 Token,已经不再直接决定成本。真正的公式变成:
如果 Token 降低让同样的 8 张 GPU 多处理一倍请求,当然有价值。如果流量没有增长,GPU 数也没减少,那只是空出了更多机器时间。
想把这部分 Headroom 变成钱,至少要发生一件事:少租一张 GPU、降低一个容量档位、缩短运行时间,或者推迟下一轮扩容。
这时最重要的优化也会变化。Continuous Batching、KV Cache、Quantization、并发调度、模型大小、显存占用和 Autoscaling,往往比删掉几句 Prompt 更值钱。
还有一个常被忽略的限制:租 GPU 不等于租到 GPT 或 Claude。闭源模型权重不在客户手里,裸 GPU 主要承载开源模型、自有模型和可部署的 Fine-tuned Model。
按 GPU 买,Token Efficiency 只有穿透到 GPU 数量和利用率时才成立。
GPU 租赁也把另一堆麻烦交回企业:模型部署、升级、容灾、延迟、容量预测、推理框架和夜里三点的告警。省掉模型厂商的 Margin,不代表这部分能力凭空免费。
托管容量:云厂商把 GPU 换成吞吐套餐
大多数企业不会直接管理一排裸 GPU。它们更可能购买中间态:托管推理容量。
比如 Amazon Bedrock Provisioned Throughput,企业购买 Model Unit 和承诺期限,账单按小时产生;Microsoft Foundry也提供按 PTU 计费的 Provisioned Capacity,闲置时照样收费。
企业不需要知道底下到底跑了几张卡,只需要拿到稳定吞吐、延迟 SLO、权限体系和云上治理。这很符合企业采购习惯:技术细节交给厂商,容量风险留在合同里。
麻烦也在合同里。
假设企业已经买了 6 个月 Provisioned Throughput。工程团队把 Token 降低 40%,只要承诺容量没变,当月账单就不会动。优化带来的是更高余量,真正的 Savings 要等到缩减 Model Unit、降低续约承诺,或者用这部分容量接住更多业务。
容量没有被退掉,优化就还没变成现金。
这不代表优化没价值。更大的 Headroom、更低的排队时间、更稳的延迟都很重要。财务语言必须诚实:Capacity Gain 是 Capacity Gain,Cash Saving 是 Cash Saving。
SaaS:Token 被藏进 Seat、Credit 和 Action
到了 SaaS 层,账更复杂。
今天的企业 AI 产品很少只有一种价格。Salesforce Agentforce同时提供 Flex Credits、按 Conversation、按 User、Pre-Purchase、Pre-Commit 和 PayGo;同一个产品里,既有固定 Seat,也有按 Action 消耗的 Credit,还有 Unmetered Usage。
这些定价看起来很乱,背后是三股力量在拉扯:客户需要预算可预测,使用量又高度不确定,底层推理成本还会随模型和 Workflow 改变。
对客户来说,Token 被包装成了可采购的 SKU。对 SaaS 厂商来说,Token 仍然是 COGS。它需要做 Model Routing、Cache、配额、Fair Use、套餐分层和 Overage,防止某个重度客户把整档产品的 Gross Margin 吃光。
固定 Seat 适合使用频率低、成本可控的功能;Credit 适合波动大的 Agent;预承诺适合稳定的大客户;PayGo 用来接住未知需求。没有一种模式能通吃。
SaaS 卖的是可采购性,Token 只是藏在背后的成本。
企业云上的现实:AI 从来不会落在一张白纸上
讨论“买 Token 还是租 GPU”时,最容易忽略企业已经在云上生活了十年。
数据在 Snowflake、BigQuery、S3 和各种 SaaS 里,身份在 IAM 或 Entra ID,日志进了 Observability 平台,安全、合规、网络和采购流程也已经围绕 AWS、Azure、Google Cloud 建好。换一家 AI Cloud 可能让 GPU 单价更低,也可能同时制造数据搬运、专线、审计、双套监控和新的 Vendor Risk。
Flexera 2026 State of the Cloud Report 显示,73% 的组织采用 Hybrid Cloud;企业运行在 Public Cloud 上的 Workload 已从 52% 升到 54%,51% 的企业数据也已经在 Public Cloud。AI Workload 到来之前,Data Plane 和 Control Plane 早就落位了。
AI Cloud 自己也在适应这个现实。CoreWeave Direct Connect 的用途,就是把 CoreWeave VPC 直接连到企业 On-premises 或 Hyperscaler Network。企业不会为了 AI 整体搬家,更可能给现有云再接一根算力管道。
更现实的是,企业早就签了各种 Commitment。AWS Savings Plans按每小时用量承诺一到三年。账单不会因为某个团队这个月少跑一点就自动下降;承诺没吃满,省下来的只是 Utilization。
State of FinOps 2026 的数据很有意思:98% 的受访者管理 AI Spend;90% 已经或计划管理 SaaS,57% 管理 Private Cloud,48% 管理 Data Center,28% 开始或计划把 Labor Cost 纳入同一套体系。FinOps Foundation 也把使命里的 "Cloud" 改成了 "Technology"。
这就是企业 AI 的真实背景:模型账单只是技术支出的一部分,旁边还站着云承诺、SaaS License、数据平台、安全、网络、运维和人。
所以,“每百万 Token 最便宜”的方案,未必是企业 P&L 最便宜的方案。一个单价更高、却能吃掉现有 Commitment、复用安全体系、靠近数据的模型,可能反而更便宜。
企业优化的是整张技术资产负债表,一次调用只是其中一行。
最现实的架构,是基线加波峰
企业最终很可能不会在 Token API 和 GPU 之间二选一。
它会像过去十年管理云资源一样,把 Workload 拆开:稳定、可预测的基线流量放进 Reserved GPU 或 Provisioned Throughput;新业务、低频任务、稀有模型和突发流量继续走 Token API;已经深嵌 CRM、ERP、ITSM 的流程直接买 SaaS 套餐。
这和电网很像。基荷电厂负责稳定需求,调峰机组处理突然上来的波峰。让昂贵的 Serverless 扛全年基线很浪费,让包月 GPU 等每天两小时的峰值同样浪费。
真正有价值的能力,已经从压短一次调用,扩展到识别 Workload 的形状:它有多稳定,峰谷差多大,延迟要求多高,数据在哪里,模型多久换一次,容量承诺能不能吃满。
未来的 Token Efficiency,本质上是 Workload Placement。
先问账单少了哪一行
Token Efficiency 仍然重要,但它需要一个更诚实的分母:
按 API 买,Paid Resource 是 Token Dollar;按 GPU 租,是 GPU-hour;买托管容量,是承诺的 Model Unit;买 SaaS,是 Seat、Credit 和套餐。
Tokens per Task 可以衡量工程进步。只有当它最终减掉一个可计费单位,才会变成财务 Savings。否则,它带来的是吞吐、延迟或容量余量——同样有价值,只是别算错账。
Token 会继续变便宜,模型也会继续找到新的方式把 Token 烧回去。真正的出路,是让 Workload 的形状和 Pricing Model 对齐。
下次有人宣布 Token Efficiency 提升 60%,先别鼓掌。翻开下个月账单:到底少了哪一行?
- 本文链接:https://johnsonlee.io/2026/06/21/token-efficiency-way-forward/
- 版权声明:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
