• 当前位置: 首页 >
  • AI商学院
  • > AI前沿技术
  • > SGLang 团队与 AMD 合作,使 AMD Instinct™ MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 团队与 AMD 合作,使 AMD Instinct™ MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

发布时间: 2026-05-29 文章分类: AI前沿技术
阅读量: 0

AMD MI355X 跑 DeepSeek-R1 的成本竟比 NVIDIA B200 还低?这不是营销话术,是真金白银的推理账单。SGLang 团队与 AMD 的工程师们甩出了一组蛮横的数据:在相同的交互延迟下,他们的方案每处理百万 token 只需 0.169 美元,比 B200 搭配闭源 Dynamo 的方案便宜 5%,比 B200 直接跑 SGLang 更是狠砍了 40% 的成本。吞吐量也不含糊,24 块 AMD GPU 每块跑到 2,436 tok/s,硬生生把用 48 块卡跑的 B200 方案每卡吞吐甩出 1.25 倍。这不是魔法,是一场从比特量化到通信管线的全栈硬核优化。

推理账单:0.169 美元撕开 B200 的利润护城河

129 毫秒延迟下的真实 TCO 对决

在 129 tok/s/user 的交互延迟下,用户的体感几乎实时。但账单不会撒谎。SGLang 团队采用了端到端的真实部署环境对线:一边是 24 块 AMD MI355X,另一边是 48 块 NVIDIA B200。两套系统都跑 DeepSeek-R1 这个怪物级模型。结果清晰到扎眼:每处理一百万个 token,AMD 方案的成本是 0.169 美元。NVIDIA B200 用自家的 Dynamo 配合 TRT-LLM,啃下了 0.178 美元的价格——只贵了 5%,还算是体面。但一旦 B200 也切换到开源的 SGLang 框架,TCO 直接飙升到 0.282 美元,差距拉大到 40%。这个数字在云计算世界里,足够让任何采购总监重新翻开报价单。

B200 在 SGLang 上为什么更贵?

一个反直觉的事实:NVIDIA 的卡跑开源的框架,反而更烧钱。根源藏在通信管线里。SGLang 的优化哲学是紧贴硬件底层,AMD 的 MI355X 靠的是 Infinity Fabric 和直接内存访问(SDMA)玩起了两批计算重叠,大幅压低了显卡之间的闲聊时间。B200 的 NVLINK 虽然快,但在 SGLang 未深度定制——或者说,安于闭源 TRT-LLM 的舒适区——时,跨节点通信的包袱反而沉重。更不用说,AMD 团队把部分 CPU 流式处理任务甩给了主机,抢出了更多 GPU 时间。这 40% 的价差,实质上是软件栈的话语权争夺。谁掌控了框架的底层,谁就能在推理成本上捅破天花板。

开源框架对闭源生态的微妙挤压

这件事的弦外之音远比技术指标深远。SGLang 作为一个社区驱动、安身于 LMSYS 的开源框架,正一点点凿开 NVIDIA 闭源推理软件构筑的堡垒。B200 在 TRT-LLM 下还能勉强与 AMD 加 SGLang 打平,但一离了“官方优化”就原形毕露——这说明,对于 DeepSeek-R1 这类挑战性模型,闭源生态的优势正在松动。以推理部署为生的工程师们迟早要算这笔账:硬件的牌面变了,软件的忠诚度是否还该一成不变?MI355X 这组数据,像是一封写给全行业的公开信。

吞吐量的物理课:24 卡如何撕碎 48 卡的体面

每卡 2,436 tok/s 是这么跑出来的

只看成本,是会计的思维;吞吐量才是工程师的荷尔蒙。24 块 MI355X,每块 GPU 推出 2,436 tok/s 的推理速度,这是个什么概念?同一套 SGLang 框架下,用 48 块 B200 集群跑,平均每卡只有大约 1,948 tok/s。AMD 用一半的卡数、一半的总互联资源,反而在单卡效率上高出了 25%。秘密藏在数据流动的规划里:SGLang 为 MI355X 重写了 MoRI 混合量化的全到全通信策略,把原本需要巨大带宽的 FP8 张量拆解成 FP4 和 FP8 的混合体,像分拣邮件一样精算每一跳的负载。显卡不再白白等待邻居的同步信号,计算单元的利用率瞬间拉满。

全到全通信:24 卡集群的秘密

推理大模型,瓶颈往往不在计算,而在卡与卡之间的闲聊。DeepSeek-R1 是个庞大的多专家模型,每次推理都要调度多个专家层,这就意味着 GPU 之间必须频繁进行全到全通信——全体卡同时向全体其他卡发送激活值。SGLang 团队的解法颇为刁钻:他们利用 AMD 的 SDMA 引擎,在 GPU 还忙着矩阵乘法时,就让数据提前上路。所谓两批重叠,就是让当前 batch 的计算与上一 batch 的通信并行,像一条不间歇的流水线。加之对 ROCm 平台的精细调优,MI355X 的 24 卡集群几乎没有空转,而这正是 B200 阵容——即使坐拥 48 张卡——没能做到的。

SDMA 与两批重叠的魔法

SDMA(系统直接内存访问)是个老面孔,但在 SGLang 的调校下被玩出了新花样。常规的推理管线里,GPU 往内存读写 KVCache 时,经常把计算核心晾在一边。MI355X 的策略很直接:让 SDMA 控制器独立搬运缓存数据,GPU 核心则专注在下一个 token 的生成上。两批重叠进一步把这种并行推向极致——当前批次还在飞,下一批的输入已经预热完毕。效果立竿见影:MI355X 的每令牌延迟抖动低了,谷值吞吐消失了。反观 B200,并非硬件不行,而是软件层太厚,SGLang 来不及削尖它。这组数据摊开了一件事:在推理这场贴身肉搏中,半导体制程的优势,轻易就能被软硬协同的巧劲抵消掉。

五把手术刀:切开推理系统每一寸神经

MoRI 量化:FP4 和 FP8 的乾坤大挪移

大部分量化方案在精度和速度间痛苦地二选一。SGLang 为 MI355X 弄的 MoRI 混合量化,把选择题变成了复合题。对于 DeepSeek-R1 里对数值误差敏感的注意力层和路由层,留用 FP8 保底;剩下那些占大头的、容错率高的前馈网络层,一刀切到 FP4。结果就是模型运行时的内存足迹和带宽压力骤降一半,精度却没打折扣。这还仅仅是静的部分。在动的层面,FP4 张量小到能塞进 MI355X 的 L2 缓存里翻滚,访问显存的次数腰斩,能耗和延迟双双暴跌。没有这种量化,24 块卡的吞吐巨兽根本推不动。

KVCache 后端:MoRI-IO 的数据高速公路

KVCache 是长上下文推理的头号内存老虎。SGLang 引入的 MoRI-IO KV Cache 后端,相当于专门为 MI355X 修建了一条数据高速公路。传统的缓存管理,GPU 要频繁跟主机 CPU 伸手要数据,链路长、刹车多。MoRI-IO 重写了调度逻辑,把频繁访问的热缓存钉在 GPU 的高带宽内存里,冷数据则智能地溢写到更廉价的系统内存或 SSD 上。配合前面说的 SDMA,GPU 取缓存就像从自己口袋掏钥匙,而不是下楼开后备箱。对于 DeepSeek-R1 这种一口气能啃十几万 token 的模型,这手缓存手术直接决定了 TCO 的生死。

Specv2 MTP 和 CPU 流式:最后的加速器

其余两把刀,虽然切口小,但一样割得深。ROCm 上的 Specv2 MTP(推测式解码第二版)让 MI355X 能一次预测多个后续 token,靠投机来蒸发延迟。与传统的逐个令牌生成不同,推测解码让 GPU 在大部分时间里都处于饱和工作状态,这对单卡 2,436 tok/s 的达成居功至伟。而 CPU 流式处理优化,则是把输入 tokenization、去 tokenization 等预处理后处理任务,完全卸载到主机的多核 CPU 上去,GPU 只碰核心推理。这一招看似简单,却砍掉了 5% 以上的尾延迟。多管齐下,MI355X 这台推理机器就这样从芯片微架构一路优化到了 Python 代码的边界,把 DeepSeek-R1 的成本打到了一个新水位。

点赞 | 10

Lumevalley——全栈AI服务领航者,以“战略-应用-算力”三位一体服务框架,为企业提供从顶层战略规划、场景化AI智能体(AI Agent)开发/搭建/部署,到企业级AI应用开发、AI+行业场景解决方案的全链路服务,并配套AI大模型部署与高性能AI算力底座支撑,助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。

马上扫码获取产品资料
相关文章

相关文章

填写以下信息, 免费获取方案报价
姓名
手机号码
企业名称
  • 建筑建材
  • 化工
  • 钢铁
  • 机械设备
  • 原材料
  • 工业
  • 环保
  • 生鲜
  • 医疗
  • 快消品
  • 农林牧渔
  • 汽车汽配
  • 橡胶
  • 工程
  • 加工
  • 仪器仪表
  • 纺织
  • 服装
  • 电子元器件
  • 物流
  • 化塑
  • 食品
  • 房地产
  • 交通运输
  • 能源
  • 印刷
  • 教育
  • 跨境电商
  • 旅游
  • 皮革
  • 3C数码
  • 金属制品
  • 批发
  • 研究和发展
  • 其他行业
需求描述
填写以下信息马上为您安排系统演示
姓名
手机号码
你的职位
企业名称

恭喜您的需求提交成功

尊敬的用户,您好!

您的需求我们已经收到,我们会为您安排专属电商商务顾问在24小时内(工作日时间)内与您取得联系,请您在此期间保持电话畅通,并且注意接听来自广州区域的来电。
感谢您的支持!

您好,我是您的专属产品顾问
扫码添加我的微信,免费体验系统
(工作日09:00 - 18:00)
电话咨询 (工作日09:00 - 18:00)
客服热线: 4008 868 127
售前热线: 189 2432 2993
扫码即可快速拨打热线