微软在模型发布卡中首次加入平均token使用量指标,这个看似技术性的调整,实则是一记响亮的警钟:AI竞赛的规则正在改写。其模型在SWE-Bench Verified上拿到71.6分,但只消耗Claude Haiku 4.5大约三分之一的token。同样的性能输出,成本却打了三折——这不再是单纯比谁更聪明,而是比谁更“会过日子”。
现实世界已经为此交了学费。Uber四个月内AI预算就爆了表,不得不限制员工使用;Salesforce更夸张,砸下3亿美元购买Anthropic tokens,连工程招聘都直接冻结了。当企业账本被AI成本啃得千疮百孔时,模型公司若还只炫耀跑分成绩,简直是自说自话。看看Artificial Analysis的Intelligence Index:GPT 5.5和Claude Opus 4.8得分都在60分上下徘徊,但Opus的运行成本高出40%,账单分别是4685美元和3357美元。每多花一分,都是开发者的利润在蒸发。
模型公司如今必须双线作战:性能要卷,成本更要控。效率成了新的生存线,而token消耗量就是衡量这条线的关键尺子。谁能在保证智能水平的同时把token使用量压得更低,谁就能在开发者用脚投票时赢得先机。AI的下半场,比的是智商,更是财商。

