三星没有给竞争对手留下任何喘息的余地——HBM4E一次性把单堆栈带宽拉到了3.6TB/s,能效还顺手提了16%。这是给LLM训练量身定做的补血剂。当模型参数膨胀到万亿级别,GPU集群空转着等数据喂入的成本已经高到不可忍受,而HBM4E的出现,就是在把这个最致命的延迟一刀斩断。带宽是算力的血管,三星这次直接把血管扩粗了一个量级。
3.6TB/s是什么概念?它意味着单颗封装就能扛住一组AI加速器在全速运转下的数据吞吐,不再需要靠堆数量来掩饰带宽的窘迫。更关键的是那16%的能效增益,在数据中心功耗已经触碰电力供给极限的当下,每一点能效提升都是在扩充实际可用的算力上限。量产时间表尚未公布,但从三星近几代HBM的推进节奏来看,从技术验证到客户采样不会太长。毕竟SK海力士在HBM3E上抢跑的身位,三星是一定要用HBM4E翻盘的。
这场军备竞赛的真正受益者,是那些苦于内存墙已久的AI架构师。无论训练还是推理,内存带宽不足都会把昂贵的算力卡成慢动作。三星把带宽和能效两个参数同时往前推了一大步,相当于给整个AI算力链条最薄弱的一环焊上了一块钢板。开发者短期内还摸不到这枚芯片,但所有GPU厂商都已经把它的规格书放进了下一代产品路线图的最前排。

