伯克利RDI发布Agents' Last Exam基准

发布时间: 2026-06-16 文章分类: AI前沿技术
阅读量: 0
AI智能体
企业级AI智能体开发与部署
LumeValley提供全栈式企业级AI智能体开发与部署服务,涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化,确保智能体高效稳定运行,助力企业实现智能化转型,提升运营效率与竞争力。

六个顶尖智能体,55个非体力职业,1500多项源自真实工作场景的任务。伯克利RDI交出的这份Agents' Last Exam(ALE)基准答卷,给2026年下半年的agent叙事浇了一盆冰水。最难档位,全部0%通过。这不是某家模型的耻辱,而是整个赛道的集体摸底——当benchmark足够贴近真实业务时,所有人在同一条起跑线上摔倒。

ALE到底考了什么?

和那些在教科书习题上反复刷分的传统benchmark不同,ALE的任务设计直接瞄准职场。它的题目不是凭空捏造的算法题,而是从55个真实职业里抽取、改编、清洗后沉淀下来的工作片段。换句话说,这份考卷衡量的是"你能不能替人干活",而非"你能不能在竞赛里拿奖"。

职业覆盖与任务结构

55个非体力职业横跨金融分析、法律研究、运营管理、技术文档等多个领域,每一项任务都带有明确的交付标准。研究员在构建时刻意回避了那种"回答得不错就行"的开放题,而是给出可核验的产出条件——一份合规报告、一段可执行的SQL、一份符合品牌规范的文案。这种设计让"声称完成"和"真正完成"之间的差距无处藏身。

难度阶梯的真实意图

ALE将任务按复杂度分层,最高档几乎是把几个职业能力叠加在一起的多步骤工程。它不要求agent"理解"任务,而是要求agent在有限上下文窗口、有限工具调用次数内完成端到端交付。0%通过率意味着:即使是被Fable、OpenAI、Anthropic这类头部厂商重金投入的产品,面对这种级别的复合任务依然集体失语。

六位选手的账单与短板

如果说0%最难通过率是"天花板"问题,那成本差异就是"地板"问题。同样的任务,用不同agent跑完一遍,账单金额可以相差近12倍。这件事比单纯看跑分更能影响企业的采购决策。

Fable 5、GPT-5.5、Composer 2.5的成本拆解

ALE给出的平均单任务成本数字相当具体:Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33。表面上看,最贵的不一定跑得最好,最便宜的也不一定最差。Fable 5在某些细分场景拥有微弱优势,但它的token消耗和工具调用开销几乎是Composer 2.5的12倍。对于一家每天要处理数万条任务的企业而言,这意味着月度算力支出可能从六位数跳到七位数。这组数字直接戳破了"agent越强越值得"的幻觉,把"性价比"推回到采购清单的第一行。

能力相近,成本悬殊

整体任务成功率上,六款产品咬得很紧,差距往往只有几个百分点。真正把它们拉开的是成本曲线——同样拿到60分,有人花1块钱,有人花15块。决策者现在要回答的问题不再是"哪家最强",而是"哪家的边际成本足够低,让我能把它铺到全公司"。Composer 2.5在这一点上拿到的牌面最好,但它的能力天花板同样需要被持续观察。

CLI子集:把agent拉回命令行

ALE最有意思的设计,是那个只有25.2%最佳通过率的ALE-CLI子集。它把考题从"产出文档"压缩成"在命令行里完成一件事"——改文件、跑脚本、查日志、修复依赖。这块阵地过去被各种dev tools占据,现在agent要来抢饭碗了。

为什么CLI是agent的"试金石"

命令行环境的反馈信号极其明确:命令敲下去,要么成功要么报错,没有模糊地带。这种"硬约束"恰恰是检验agent工程能力的最佳场景。开发者不需要看agent怎么解释自己做了什么,只需要看终端输出和文件状态。结果就是,25.2%这个数字成了整份报告里最刺眼的一行——六款被寄予厚望的产品,在最简单的工程闭环里也只能勉强通过四分之一的任务。

头号失败模式:未验证即宣告完成

ALE研究员复盘了所有失败案例后,结论指向一个高度集中的行为模式:agent倾向于在未实际验证输出的情况下就宣告任务完成。它可能正确识别了目标、正确生成了代码、正确选择了工具,但唯独跳过了"回头看一眼结果"这一步。这听起来像低级的工程素养问题,实际上是当下所有agent架构的通病——它们被训练成"快速产出"的助手,而非"闭环交付"的工程师。要修复这一点,光靠更大的模型远远不够,必须把验证机制硬编码进执行链路。

0%通过率背后的产业含义

最难档位全军覆没,这并不意味着agent没用。它意味着:营销话术里"已经能替代初级白领"的承诺,距离现实还有相当距离。那些正在评估"用agent砍掉多少人力成本"的CXO们,应当把这组数字放进自己的财务模型。

落地的真实门槛

ALE暴露出来的不是"能力不够",而是"可靠性不够"。一个60分但每次都能稳定输出的agent,远比一个80分但十次里抽风三次的agent更有商业价值。这也是为什么CLI子集的表现如此重要——它的任务足够短、反馈足够快,是最有可能率先跑通商业闭环的场景。如果连这里都只有25.2%的可靠度,那"AI员工"的故事就得再等几个版本。

开源数据集的价值

ALE团队把数据集、评测代码以及CLI子集全部开源,这一动作的战略意义不容忽视。第三方研究者和企业可以基于这套基准复现结果、横向对比、针对性优化,从而把benchmark变成行业共同迭代的公共设施。对那些准备在agent赛道长期投入的团队来说,这比任何单点技术突破都更值得关注——因为它定义了"进步"的度量衡。谁能在这把尺子上持续涨分,谁才有资格谈规模化。

六款产品、1500项任务、一份开源答卷。Agents' Last Exam没有给任何一方颁发奖杯,它只是诚实地告诉所有人:这条路还很长,钱要先花在把"完成"这两个字做到位的地方。

AI智能体
企业级AI智能体开发与部署方案
LumeValley打造企业级AI智能体全流程方案,涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验,确保智能体精准理解业务,高效执行任务,无缝融入企业生态,为企业数字化转型提供强劲智能引擎,提升核心竞争力。
点赞 | 5

Lumevalley——全栈AI服务领航者,以“战略-应用-算力”三位一体服务框架,为企业提供从顶层战略规划、场景化AI智能体(AI Agent)开发/搭建/部署,到企业级AI应用开发、AI+行业场景解决方案的全链路服务,并配套AI大模型部署与高性能AI算力底座支撑,助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。

马上扫码获取产品资料
相关文章

相关文章

填写以下信息, 免费获取方案报价
姓名
手机号码
企业名称
  • 建筑建材
  • 化工
  • 钢铁
  • 机械设备
  • 原材料
  • 工业
  • 环保
  • 生鲜
  • 医疗
  • 快消品
  • 农林牧渔
  • 汽车汽配
  • 橡胶
  • 工程
  • 加工
  • 仪器仪表
  • 纺织
  • 服装
  • 电子元器件
  • 物流
  • 化塑
  • 食品
  • 房地产
  • 交通运输
  • 能源
  • 印刷
  • 教育
  • 跨境电商
  • 旅游
  • 皮革
  • 3C数码
  • 金属制品
  • 批发
  • 研究和发展
  • 其他行业
需求描述
填写以下信息马上为您安排系统演示
姓名
手机号码
你的职位
企业名称

恭喜您的需求提交成功

尊敬的用户,您好!

您的需求我们已经收到,我们会为您安排专属电商商务顾问在24小时内(工作日时间)内与您取得联系,请您在此期间保持电话畅通,并且注意接听来自广州区域的来电。
感谢您的支持!

您好,我是您的专属产品顾问
扫码添加我的微信,免费体验系统
(工作日09:00 - 18:00)
电话咨询 (工作日09:00 - 18:00)
客服热线: 4008 868 127
售前热线: 189 2432 2993
扫码即可快速拨打热线