多智能体系统(Multi-Agent System)不是新鲜概念,但过去三年几乎所有主流框架都长一个样:一个中央调度器把任务拆好、分下去、收上来、汇总好,再分下去。当任务规模膨胀到数十个子目标、每步都涉及跨上下文推理时,这个调度器就变成整个系统的血栓。DeLM换了一种打法——没有调度器,所有智能体盯着一块共享黑板,谁有空谁来领任务,写回结果,完事。在SWE-bench Verified和LongBench-v2两套截然不同的基准上,这种去中心化设计交出了让人没法忽略的成绩单。
黑板代替指挥塔:DeLM的核心架构
共享已验证上下文:不是协作,是契约
传统多智能体框架里,智能体之间通信靠的是点对点消息或者调度器转发的中间结果。这种方式有个隐性问题:每个智能体拿到的是别人咀嚼过的二手信息,理解偏差在传递链路上层层累积。DeLM的做法更接近操作系统的共享内存模型——所有智能体读写同一份已验证上下文(Verified Context),谁写了什么、谁读到了什么,全部留痕,任何后续智能体拿到的都是经过前任确认的版本。这不是协作机制,更像是一份强制履约的契约:你在黑板上写下的东西,下一个接手的人会原样信任。
任务队列与异步认领:把同步阻塞彻底拆掉
中央调度器最贵的地方不在算力,在等待。一个智能体跑长链推理时,整个流水线挂着等它返回。DeLM把任务池(Task Queue)公开化,任何智能体在任意时刻可以从队列里异步认领自己力所能及的子任务,不必等上游完成、不必等调度器派单。认领即上锁,写入即解锁——这种轻量级的竞态控制让并发度直接拉满。在SWE-bench这类需要逐步验证、逐步修复的真实软件工程任务里,这意味着多个人可以同时盯同一份代码的不同模块,而不是排着队等前面那位先交差。
实战检验:SWE-bench和LongBench-v2的硬数据
SWE-bench Verified三项指标全面碾压
SWE-bench Verified是检验AI Agent处理真实GitHub Issue能力的硬核基准,DeLM在Avg.@1、Pass@2、Pass@4三个指标上同时拿下最高分。Avg.@1提升最多达10.5个百分点,这意味着即便只给一次机会,DeLM的整体表现也比最强基线稳健得多。Pass@2和Pass@4的领先则说明当系统被允许多次尝试时,去中心化架构带来的并行优势能进一步放大。更有意思的是成本数据:单任务成本降低约50%。一边多干活一边少花钱,这种组合在企业级Agent落地场景里几乎是不可能三角的破局点。
LongBench-v2:长上下文多文档推理同样拿下
如果说SWE-bench考的是动手能力,LongBench-v2考的就是阅读理解加多文档交叉推理。DeLM在四个前沿模型家族上跑出最高平均准确率,最高提升5.7个百分点。这个结果的意义在于:去中心化不是软件工程任务的专属解法,它在需要长链条信息整合的场景下同样有效。共享黑板让任何一个智能体都能直接调取全部历史推理痕迹,不必依赖调度器重新打包上下文,这对长文档任务的token效率是结构性优势。
为什么去中心化多智能体系统现在才火起来
三个先决条件在2024-2025年同时成熟
去中心化MAS的设想在学术圈存在多年,但一直没跑通,原因很简单:缺模型、缺框架、缺工程耐心。基础模型推理能力直到最近一年才稳定到能承担多轮自主决策的水平;任务队列、上下文一致性维护这些工程模块在开源社区的积累也才刚好够用;更关键的是,主流框架长期被"中央调度更可控"的思维惯性统治,没有人愿意赌一个没有指挥塔的系统能跑多稳。DeLM的实验数据提供了一个明确信号:拐点到了。
开源的意义比论文本身更大
论文给出的是设计理念和基准数据,真正决定一个框架能不能活下去的是社区能不能用起来。DeLM代码已开源,这意味着任何做Agent的团队都可以直接复现实验、改造黑板协议、接入自己的任务场景。对比那些只放出API、把所有细节藏在模型权重里的系统,DeLM选择了更难走但天花板更高的路:让所有人看到它怎么工作,然后一起把它改得更好。去中心化的精神不只是架构选择,也是开源协作的底层逻辑。

