基准测试刷分已经卷到没有意义了。模型厂商可以针对任何公开榜单做定向优化,几个月内把成绩刷到天花板,可一到真实业务里就原形毕露——选错工具、陷入循环、编造不存在的API。Arena这次推出的Agent Arena智能体排行榜,做了一件更接地气的事:直接拿真实用户的任务来跑评测。30万条以上任务、200万次工具调用、4000万行生成代码,每一条数据都来自实际用户在产品中发出的请求,而非人工拼凑的toy example。
评估维度也跟传统榜单拉开差距。除了任务最终是否成功,榜单还追踪智能体在多轮交互中的表现:被用户指出错误后能否真正改正、遇到失败能否自主恢复、有没有出现过工具幻觉——也就是调用了根本不存在的函数或接口。更关键的是融入了用户反馈信号,谁在被骂、谁在收到表扬,这些噪声被过滤后变成可量化的分数。结果相当颠覆既有认知:前三名分别是GPT-5.5 High(领先基准+10.7%)、Claude Opus 4.7 Thinking(+9.5%)和GPT-5.4 High(+8.9%),传统刷榜王者的相对优势被大幅压缩,而那些擅长多轮协作、工具调用稳定的模型开始浮出水面。
对正在选型做Agent应用的团队来说,这份榜单的价值在于它回答了一个真实问题:哪个模型能在我公司的实际工作流里活下来?Arena的数据来源是产品级用户交互,覆盖代码编写、应用构建、文档分析等典型Agent场景,样本量和多样性都远超学术基准。换句话说,以后挑模型别只看MMLU或HumanEval上那几个数字了,去看看它在真实任务里被用户骂了多少次——这才是更硬的指标。

