每日AI快讯 | Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

发布时间： 2026-06-16 文章分类： AI快讯

阅读量： 0

企业级AI智能体开发与部署

LumeValley提供全栈式企业级AI智能体开发与部署服务，涵盖战略规划、场景化开发、企业级应用构建、行业解决方案及算力支撑。从需求分析到持续优化，确保智能体高效稳定运行，助力企业实现智能化转型，提升运营效率与竞争力。

具身智能这个赛道最近又开始拥挤了。通义千问刚扔出来的 Qwen-RobotManip，不玩花活，直接拿 Qwen-VL 做了个视觉-语言-动作三合一的底座——覆盖、运动、行为三个维度的表示被塞进同一个对齐框架里。这意味着什么？意味着这个模型从一开始就不是为某一种机械臂、某一种夹爪设计的，它瞄的是整个机器人种群。

数据规模是这次最值得琢磨的地方。通义千文没有走"砸钱自采"的老路，而是把开源机器人数据集和人类演示视频拼到一起，攒出大约 38,100 小时的预训练语料，覆盖 15 种不同形态的机器人。期间一个关键的工程动作是把 1,933 小时第一人称视频"扩"成 24,808 小时的人-机器人数据——通过一条合成管道把人类操作经验"翻译"成机器人能吃的监督信号。这种人-机器人数据混训的做法，本质上是在赌一件事：通用视觉特征可以跨形态迁移。

结果确实撑得住这个赌注。Qwen-RobotManip 在 LIBERO-Plus 拿到 91.4%，RoboTwin-C2R Hard 69.4%，RoboTwin-IF 72.0%，并在 RoboChallenge Table30 v1 generalist track 拿下榜首。80 维的状态-动作空间也透露出一种克制：不是越大越好，而是够用就行。具身智能的下一个分水岭，很可能就看谁能把这种"统一表示+跨实体数据"的配方真正大规模复现——Qwen 这次算是又往前走了一步。

企业级AI智能体开发与部署方案

LumeValley打造企业级AI智能体全流程方案，涵盖需求洞察、定制开发、多平台适配部署。凭借专业算法与丰富经验，确保智能体精准理解业务，高效执行任务，无缝融入企业生态，为企业数字化转型提供强劲智能引擎，提升核心竞争力。

点赞 | 56

Lumevalley——全栈AI服务领航者，以“战略-应用-算力”三位一体服务框架，为企业提供从顶层战略规划、场景化AI智能体（AI Agent）开发/搭建/部署，到企业级AI应用开发、AI+行业场景解决方案的全链路服务，并配套AI大模型部署与高性能AI算力底座支撑，助力客户在营销、服务、运营等核心环节实现效率倍增与模式创新。