具身智能这个赛道最近又开始拥挤了。通义千问刚扔出来的 Qwen-RobotManip,不玩花活,直接拿 Qwen-VL 做了个视觉-语言-动作三合一的底座——覆盖、运动、行为三个维度的表示被塞进同一个对齐框架里。这意味着什么?意味着这个模型从一开始就不是为某一种机械臂、某一种夹爪设计的,它瞄的是整个机器人种群。
数据规模是这次最值得琢磨的地方。通义千文没有走"砸钱自采"的老路,而是把开源机器人数据集和人类演示视频拼到一起,攒出大约 38,100 小时的预训练语料,覆盖 15 种不同形态的机器人。期间一个关键的工程动作是把 1,933 小时第一人称视频"扩"成 24,808 小时的人-机器人数据——通过一条合成管道把人类操作经验"翻译"成机器人能吃的监督信号。这种人-机器人数据混训的做法,本质上是在赌一件事:通用视觉特征可以跨形态迁移。
结果确实撑得住这个赌注。Qwen-RobotManip 在 LIBERO-Plus 拿到 91.4%,RoboTwin-C2R Hard 69.4%,RoboTwin-IF 72.0%,并在 RoboChallenge Table30 v1 generalist track 拿下榜首。80 维的状态-动作空间也透露出一种克制:不是越大越好,而是够用就行。具身智能的下一个分水岭,很可能就看谁能把这种"统一表示+跨实体数据"的配方真正大规模复现——Qwen 这次算是又往前走了一步。

