蚂蚁百灵最近把 Ling & Ring 2.6 系列的技术报告直接摊到了台面上——不是 PPT 式的成果展示,而是把架构选择、预训练配方、后训练路径、Agent 强化学习的完整链路逐条拆解。这种"技术裸奔"在大模型圈子里并不常见,大部分团队只愿意亮跑分成绩,至于怎么跑到这个分数,往往是讳莫如深。百灵这次一次性把 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 三款模型的底牌亮透,对于正在做 Agent 应用或推理优化的团队来说,这份报告几乎是必读材料。
混合线性注意力,这次是真的混
过去一年,"线性注意力"这四个字在国产开源模型的更新日志里出现了无数次,但真正把它从论文搬进生产级万亿模型的不多。百灵 2.6 系列给出的解法是 Hybrid Linear Attention——把 Lightning Attention 和 MLA(Multi-head Latent Attention)以 7:1 的比例拼接,而不是非此即彼。
为什么是 7:1
纯线性注意力跑得快、长上下文成本低,但在需要精确检索的子任务上会被传统注意力甩开差距;纯 MLA 质量稳,可一旦上下文拉到百万级,KV cache 就成了显存黑洞。7:1 的配比不是拍脑袋的折中,而是百灵团队在大量消融实验后找到的甜点——大部分层用 Lightning Attention 吃速度和长度,少数关键层保留 MLA 兜底精度。报告里还披露了一个细节:这个比例在不同规模的模型上可以微调,小模型对 MLA 的依赖更高,T 级模型则可以把线性层的比例再往上推。
跑出来的数字
Ling-2.6-flash 在 4 张 H20 上跑出 340 tokens/s 的解码速度,这个数字在同尺寸开源模型里属于第一梯队。Ling-2.6-1T 更值得关注——它在 Artificial Analysis Intelligence Index 上的 token efficiency 比前代提升约 4 倍,翻译成大白话就是:同样的输出质量,现在花的钱只有四分之一。对企业用户来说,效率指标比绝对跑分更实在,因为它直接决定月底的账单。
后训练:从对齐到 Agent 的全链路
如果说预训练决定模型的天花板,后训练就决定它能不能摸到天花板。百灵 2.6 系列的后训练部分被拆成了三段:SFT、RLHF,以及这次新公开的 KPop Agent RL。
SFT 与偏好对齐的基础功
这部分没有太多花活,数据清洗、多轮对话合成、长度归一化、针对代码和数学的专项增强,都是行业里被验证过的标准动作。报告里值得注意的一个细节是,他们专门构建了"工具调用"和"长程任务"两类合成数据,目的是为后续的 Agent 训练铺路——而不是先做完对齐再补 Agent 能力。
KPop Agent RL 才是重头戏
KPop 是百灵自研的 Agent 强化学习方案,核心思路是把 Agent 的多步决策拆成可验证的子任务,再用过程奖励而非单一结果奖励去引导策略。报告里展示了在 OpenClaw 真实环境中的训练轨迹,以及 Ring-2.6-1T high 最终在 PinchBench 拿到 87.60、ClawEval 拿到 63.82 的成绩。OpenClaw 登顶这件事,意义不在于又多了一个 SOTA,而在于它证明了 Agent RL 在开源模型上跑得通,不再是闭源实验室的专属游戏。
三款模型,三种定位
百灵这次没有只发一个旗舰,而是铺开了从轻量到 T 级的完整产品线,这种打法很像早期的 Mistral 或 Qwen——先用密集发布占住生态位,再让社区去决定谁会成为主流。
Ling-2.6-flash:边缘和低延迟场景
flash 版本走的是"够用就好"路线,4×H20 就能跑,340 tokens/s 的解码速度适合实时对话、本地化部署、边缘推理这类对延迟敏感的场景。它的价值不在于跑分,而在于拉低了 Agent 应用的硬件门槛。
Ling-2.6-1T:主力生产模型
1T 版本是这次更新的主轴,token efficiency 提升 4 倍让它在企业级 API 场景下有直接的商业竞争力。报告里给出了在金融分析、长文档摘要、多轮工具调用等任务上的具体数据,可以看出百灵在"真实工作流"上下了功夫,而不是只盯着学术榜单。
Ring-2.6-1T high:Agent 专用
Ring 系列单独切出来做 Agent 强化学习,high 版本在 PinchBench 和 ClawEval 上都跑出了开源最佳成绩。报告里公开了训练环境的搭建细节、奖励模型的构造方式,以及 Agent 在失败时如何回滚——这些通常只有闭源团队才会知道。
开源的意义不止于权重
三款模型全部开源这件事本身不算新鲜,真正值钱的是技术报告里那些"不写出来也不会死"的细节:7:1 配比的消融过程、KPop 的奖励设计、Agent 训练中的失败回滚机制。这些内容对于学术圈来说是论文级别的素材,对于工业界来说是可以直接复用的工程经验。
对国内开源生态的冲击
百灵这次直接把 Agent RL 的完整流程公开,等于把"Agent 训练"从黑箱变成了白盒。中小团队不用再从零摸索,可以基于百灵的方案做二次迭代。这对整个国产 Agent 生态的推进速度会有明显拉动——尤其是那些想做垂直行业 Agent 但缺乏算力和工程经验的团队。
留给下一阶段的问题
报告没有回避短板:长上下文下的检索精度、复杂多 Agent 协作的稳定性、真实业务场景中的工具调用成功率,这些指标和闭源旗舰仍有差距。百灵 2.6 系列把基础设施铺好了,但 Agent 真正大规模落地需要的不仅是更好的模型,还有更稳定的环境、更可靠的评测、以及更成熟的工程框架。这些事,不是一份技术报告能解决的。

