阶跃星辰 Step 3.7 Flash 发布，聚焦智能体效率

发布时间： 2026-05-29 文章分类： AI前沿技术

阅读量： 0

谁都没想到，把AI Agent的效率推上新高度的，居然是一个能在Mac Studio上本地跑的开源模型。阶跃星辰刚放出的Step 3.7 Flash，用198B总参数、11B活跃参数的MoE架构，直接拿下ClawEval-1.1和SimpleVQA Search两项评测的第一，还顺手在工具调用可靠性上干到了98%以上。这波不卷参数，卷的是智能体工作流的落地能力。对做Agent的开发者来说，一个真正好用、能私有化部署、又跟现有工具链无缝咬合的模型，比那些参数大得吓人却离着云端遥远的巨无霸要实在得多。

Agent效率的新标尺，参数不是重点

ClawEval登顶背后的信号

ClawEval-1.1不是一个靠刷题就能冲分的评测。它模拟的是现实世界中Agent的多步推理、工具串联和长链任务执行，跑分61还是67，对后续能不能在真实生产环境里把流程真正跑通，有很强的指示意义。Step 3.7 Flash拿到了67.1分，不只是比同体量的开源模型高出一截，也把一些闭源专有模型甩在了后面。这不是运气——看它在SimpleVQA Search里同期拿下的79.2分就明白，模型在多模态信息检索上的基础能力同样扎实。两项榜首叠在一起，说明它在“看懂世界”和“动手干活”这两条线路上没有偏科，而这恰恰是Agent最需要的基本功。

198B里只激活11B的务实逻辑

很多人看到198B总参数，第一反应是又一个显卡杀手。但实际上Step 3.7 Flash走的是稀疏MoE路线，每次推理只激活约11B参数。这种设计不是新概念，但阶跃星辰把它用得相当务实：大容量确实带来了更广的知识储存和更细粒度的专家分工，而极小活跃参数又保证了推理速度与硬件门槛的平衡。结果就是，它不需要A100集群才能动起来，一台Mac Studio M4 Max就能得到可用的响应速度。在Agent场景里，工具调用链路的延迟往往会成倍放大，活跃参数少、推理快的结构天然吃香。这不是“小而美”的情怀，是工程上真能省下时间和算力。

256K上下文，给长链任务装上记忆引擎

Agent做事最怕失忆。一个复杂的业务流程可能牵扯十几轮工具调用、多份文档和几段代码生成，上下文不够，模型就会在走到一半时忘记自己最初的目标是什么。Step 3.7 Flash把上下文窗口拉到256K tokens，足够吞下一整部中篇小说，或者几十页的产品文档外加多步骤执行日志。更关键的是，它在长上下文末尾的信息召回表现没有出现断崖式下跌，这对Agent连续决策至关重要。有了这个长度的记忆，模型才能把“先查资料、再分析、接着生成脚本、最后执行并检查结果”这种串行工作流从头到尾稳稳走完。

多模态和工具调用，从“看得见”到“动得了”

把图像和文档直接变成行动

Step 3.7 Flash的多模态不是贴个图回答问题的浅层玩法。它能理解图表、扫描文档，还能根据视觉信息生成对应代码或者触发工具执行。举个例子，你给它一张产品页截图和一段自然语言指令，要求抓取所有商品的名称和价格并生成表格，它不会只告诉你截图上有什么，而是能直接调用搜索接口、解析HTML，甚至把结果写成可执行的Python脚本。这种从感知到行动的直通能力，让它在需要“看屏干活”的Agent场景里，比传统需要人工编规则或层层调度的方案灵活得多。

τ²-bench 98%，工具调用不是玄学

工具调用的稳定性一直是Agent落地的阿喀琉斯之踵。模型经常在格式正确的JSON里塞进一个不存在的参数名，或者完全搞错API的调用顺序，让整个流程直接崩掉。τ²-bench专门盯着这些问题，而Step 3.7 Flash把它推到了98.8%的可靠性分数上。这意味着在标准测试里，平均调用一百次工具，真正出错的不到两次。这个数字放到生产级流水线里，已经足够让团队认真考虑用它替代一部分硬编码的撮合逻辑。它不是零失误，但比起大半年前还在七八成徘徊的同类模型，这一步把工具调用从实验品拉到了准工业级。

无缝接入Claude Code与MCP，不建孤岛

开发者最烦换一个模型就要重新写一套适配层。Step 3.7 Flash在这方面做得非常清醒：它本身就是为融入现有工具链而训练的，兼容Claude Code这类辅助编写代码的工具，也直连MCP协议，可以很方便地接入各种外部数据源和工具集。你不需要专门去适配它的特殊格式或古怪的提示词习惯，现有的Agent pipeline多半能直接挂上。这种开放和克制，反而比那些非要在生态上划地盘的厂商更容易获得开发者好感。说到底，Agent比拼到最后，关键在能不能让模型像插件一样安静地跑在既有系统里。

开源，本地跑，把Agent拉下云端

Apache 2.0开源，权重才是硬通货

许可证决定了模型能不能进商业项目，而Apache 2.0无疑是当下对下游最友好的选择之一。阶跃星辰把Step 3.7 Flash的完整权重放出来，意味着企业可以在自己的服务器上做私有化部署、做指令微调、做领域适配，完全不用去担心数据外泄和许可限制。很多做合规敏感行业的团队，之前一直在用API调闭源模型，每次传输都提心吊胆，现在有了一个性能足够、还能在内部集群上跑的底座，切换的动力自然就来了。开源权重不是万能的，但没有它是万万不能的，尤其是在Agent这种需要深度定制推理链路的赛道上。

Mac Studio M4 Max上的Agent工厂

把198B参数的模型塞进一台Mac Studio，听起来像在开玩笑，但稀疏激活让它成了现实。M4 Max的融合内存架构和强单核性能，正好对上了MoE模型高带宽、低延迟推理的需求。已经有开发者在社区里晒出跑分截图，单台消费级设备就能以每秒几十个token的速度处理带多轮工具调用的复杂任务。对个人开发者和中小型团队来说，这意味着花几万块就能拥有自己的Agent实验场，不用按token计费，不必跟云服务的排队和配额较劲。这种自由度，会在接下来的几个月里催生出一批真正有创造力的Agent应用。

快速上手，把想法变成工作流

模型公布不到24小时，社区里就出现了适配ollama的教程和针对常见Agent框架的集成方案。你拉取一个镜像，配置好MCP服务，再挂上自己的工具集，几个命令就能跑起来一个完整的智能体。没有什么繁琐的申请流程，没有隐藏的合规门槛。阶跃星辰这一手，与其说是在发布一个模型，不如说是在向Agent开发者们递工具：一个能看、能搜、能写、能调用API的开源大脑，现在就躺在你的本地硬盘上。接下来的事，就看谁先把工作流跑得最漂亮了。

点赞 | 32

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。