428B 总参数、激活仅 23B——MiniMax 把 M3 的权重扔到开源池里那天,很多人第一反应是去跑分。两周后,结果摆出来了:Artificial Analysis 综合智能指数第一,GDPval-AA 排行榜开源组第一,Code Arena WebDev 杀进帕累托最优序列,Vals.AI 国产模型第一。没铺天盖地的 PR,没"震撼发布"的排比句,就是一份份榜单截图把同行按在地上摩擦。M3 的杀手锏是 MSA(MiniMax Sparse Attention),本质上是对注意力机制做了一次结构性的瘦身。传统 Transformer 在长上下文场景里算力开销随序列长度平方级膨胀,MSA 通过稀疏化策略让计算量显著压下来,意味着同样一张卡,能跑的上下文窗口直接翻好几倍,成本曲线被砸出一道明显的拐点。配合 23B 的激活参数,推理侧的实际开销远比 428B 这个数字看起来友好得多。
真正让技术圈侧目的是 M3 的训练范式——它是第一个从预训练阶段就把文本、图像等多模态数据做交错混合训练的开源模型。在此之前,绝大多数开源多模态模型走的是"先纯文本预训练,再外挂视觉编码器"的拼接路线,多模态融合发生在对齐阶段而非底层。MiniMax 的做法更激进,让模型在预训练阶段就见过图文混排的世界,理论上对跨模态理解的结构性帮助远大于后置对齐。性能跑分只是副产品,训练方法论的革新才是这个模型值得长期盯的原因。
工程侧的动作同样密集:输出速度从约 30 TPS 拉到约 80 TPS,官方还预告接下来再提速 30%–40%,目标是和闭源旗舰掰手腕的实时交互体验;Token Plan 后台同步上线调用量看板,开发者终于不用靠抓包猜自己烧了多少 Token。从模型架构、训练范式到商业化基建,MiniMax 这套组合拳的节奏感很清晰——开源不是慈善,是抢生态位。国产开源基座的牌桌上,又多了一个不能忽视的玩家。

