蚂蚁百灵发布 Ling & Ring 2.6 技术报告

发布时间： 2026-06-16 文章分类： AI前沿技术

阅读量： 0

企业级AI智能体开发与部署

LumeValley提供全栈式企业级AI智能体开发与部署服务，涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化，确保智能体高效稳定运行，助力企业实现智能化转型，提升运营效率与竞争力。

蚂蚁百灵最近把 Ling & Ring 2.6 系列的技术报告直接摊到了台面上——不是 PPT 式的成果展示,而是把架构选择、预训练配方、后训练路径、Agent 强化学习的完整链路逐条拆解。这种"技术裸奔"在大模型圈子里并不常见,大部分团队只愿意亮跑分成绩,至于怎么跑到这个分数,往往是讳莫如深。百灵这次一次性把 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 三款模型的底牌亮透,对于正在做 Agent 应用或推理优化的团队来说,这份报告几乎是必读材料。

混合线性注意力,这次是真的混

过去一年,"线性注意力"这四个字在国产开源模型的更新日志里出现了无数次,但真正把它从论文搬进生产级万亿模型的不多。百灵 2.6 系列给出的解法是 Hybrid Linear Attention——把 Lightning Attention 和 MLA(Multi-head Latent Attention)以 7:1 的比例拼接,而不是非此即彼。

为什么是 7:1

纯线性注意力跑得快、长上下文成本低,但在需要精确检索的子任务上会被传统注意力甩开差距;纯 MLA 质量稳,可一旦上下文拉到百万级,KV cache 就成了显存黑洞。7:1 的配比不是拍脑袋的折中,而是百灵团队在大量消融实验后找到的甜点——大部分层用 Lightning Attention 吃速度和长度,少数关键层保留 MLA 兜底精度。报告里还披露了一个细节:这个比例在不同规模的模型上可以微调,小模型对 MLA 的依赖更高,T 级模型则可以把线性层的比例再往上推。

跑出来的数字

Ling-2.6-flash 在 4 张 H20 上跑出 340 tokens/s 的解码速度,这个数字在同尺寸开源模型里属于第一梯队。Ling-2.6-1T 更值得关注——它在 Artificial Analysis Intelligence Index 上的 token efficiency 比前代提升约 4 倍,翻译成大白话就是:同样的输出质量,现在花的钱只有四分之一。对企业用户来说,效率指标比绝对跑分更实在,因为它直接决定月底的账单。

后训练:从对齐到 Agent 的全链路

如果说预训练决定模型的天花板,后训练就决定它能不能摸到天花板。百灵 2.6 系列的后训练部分被拆成了三段:SFT、RLHF,以及这次新公开的 KPop Agent RL。

SFT 与偏好对齐的基础功

这部分没有太多花活,数据清洗、多轮对话合成、长度归一化、针对代码和数学的专项增强,都是行业里被验证过的标准动作。报告里值得注意的一个细节是,他们专门构建了"工具调用"和"长程任务"两类合成数据,目的是为后续的 Agent 训练铺路——而不是先做完对齐再补 Agent 能力。

KPop Agent RL 才是重头戏

KPop 是百灵自研的 Agent 强化学习方案,核心思路是把 Agent 的多步决策拆成可验证的子任务,再用过程奖励而非单一结果奖励去引导策略。报告里展示了在 OpenClaw 真实环境中的训练轨迹,以及 Ring-2.6-1T high 最终在 PinchBench 拿到 87.60、ClawEval 拿到 63.82 的成绩。OpenClaw 登顶这件事,意义不在于又多了一个 SOTA,而在于它证明了 Agent RL 在开源模型上跑得通,不再是闭源实验室的专属游戏。

三款模型,三种定位

百灵这次没有只发一个旗舰,而是铺开了从轻量到 T 级的完整产品线,这种打法很像早期的 Mistral 或 Qwen——先用密集发布占住生态位,再让社区去决定谁会成为主流。

Ling-2.6-flash:边缘和低延迟场景

flash 版本走的是"够用就好"路线,4×H20 就能跑,340 tokens/s 的解码速度适合实时对话、本地化部署、边缘推理这类对延迟敏感的场景。它的价值不在于跑分,而在于拉低了 Agent 应用的硬件门槛。

Ling-2.6-1T:主力生产模型

1T 版本是这次更新的主轴,token efficiency 提升 4 倍让它在企业级 API 场景下有直接的商业竞争力。报告里给出了在金融分析、长文档摘要、多轮工具调用等任务上的具体数据,可以看出百灵在"真实工作流"上下了功夫,而不是只盯着学术榜单。

Ring-2.6-1T high:Agent 专用

Ring 系列单独切出来做 Agent 强化学习,high 版本在 PinchBench 和 ClawEval 上都跑出了开源最佳成绩。报告里公开了训练环境的搭建细节、奖励模型的构造方式,以及 Agent 在失败时如何回滚——这些通常只有闭源团队才会知道。

开源的意义不止于权重

三款模型全部开源这件事本身不算新鲜,真正值钱的是技术报告里那些"不写出来也不会死"的细节:7:1 配比的消融过程、KPop 的奖励设计、Agent 训练中的失败回滚机制。这些内容对于学术圈来说是论文级别的素材,对于工业界来说是可以直接复用的工程经验。

对国内开源生态的冲击

百灵这次直接把 Agent RL 的完整流程公开,等于把"Agent 训练"从黑箱变成了白盒。中小团队不用再从零摸索,可以基于百灵的方案做二次迭代。这对整个国产 Agent 生态的推进速度会有明显拉动——尤其是那些想做垂直行业 Agent 但缺乏算力和工程经验的团队。

留给下一阶段的问题

报告没有回避短板:长上下文下的检索精度、复杂多 Agent 协作的稳定性、真实业务场景中的工具调用成功率,这些指标和闭源旗舰仍有差距。百灵 2.6 系列把基础设施铺好了,但 Agent 真正大规模落地需要的不仅是更好的模型,还有更稳定的环境、更可靠的评测、以及更成熟的工程框架。这些事,不是一份技术报告能解决的。

企业级AI智能体开发与部署方案

LumeValley打造企业级AI智能体全流程方案，涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验，确保智能体精准理解业务，高效执行任务，无缝融入企业生态，为企业数字化转型提供强劲智能引擎，提升核心竞争力。

点赞 | 57

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。