机器人领域有个老问题:世界模型要么画质还行但撑不过几秒,要么能做长程推演但糊得没法用。WEAVER 想打破的就是这个僵局。它是一种多视图架构,用流匹配损失同时训练两件事——预测未来的潜变量,以及预测对应时刻的奖励值。听起来不复杂,但这种"一起学"的方式让模型天然兼顾了保真度、一致性和效率三件最难的事。
真机实验数据很能说明问题。WEAVER 在政策评估中与真实成功率的相关系数达到 ρ=0.870,逼近"看着模型跑就大概知道它会不会成功"的水平。更关键的是,它直接接在了 π₀.₅ 这个基础模型上做改进——策略成功率提升 38%,测试时规划成功率提升 14%,而推理速度比之前的 SOTA 世界模型快 5 到 10 倍。换句话说,机器人在动手前先"想"一下,这个"想"的过程既准又快。分布外场景的测试里,WEAVER 同样优于先前方案,说明它不是靠死记训练集在刷分。
WEAVER 真正聪明的地方在于把奖励预测塞进了流匹配的训练目标里。很多世界模型只管"未来长什么样",而 WEAVER 直接告诉你"未来值不值得去"。对下游策略来说,这意味着可以用模型做更靠谱的规划,甚至直接用来筛选候选动作。代码、模型和视频已经全开源,对做具身智能的人来说,这是一份值得花时间拆开来读的参考实现——尤其是当你的机器人项目卡在"长程任务一致性"上时。

