“世界模型”这个词,快被行业用烂了。从自动驾驶到游戏引擎,似乎任何跟3D沾边的技术都想蹭上这个名头。但它到底指什么?李飞飞和World Labs团队最近一文,终于把这个被过度营销的概念掰开了、揉碎了,讲明白了。他们指出,世界模型的核心不是学文本统计,而是学空间与时间的统计——光照如何变化,物体如何掉落,这些物理规律才是它的学习对象。
这个定义立刻划清了界限。它基于一个更严谨的框架:部分可观马尔可夫决策过程。简单说,智能体通过动作影响世界,但只能观测到世界的一部分。在这个框架下,所有被称作“世界模型”的系统,其实是对同一智能循环的不同投影。第一类是渲染器,它的KPI是给眼睛看的像素是否逼真,追求视觉保真。但这还不够,第二类是模拟器,它必须理解物理因果,让交互的反馈符合现实逻辑,这是根基。第三类则是规划器,它在模拟环境中进行策略推演,为智能体找到行动路径。
这份梳理的价值,在于它为狂热的技术讨论提供了一个冷静的坐标系。当你再听到“世界模型”时,第一反应不该是模糊的智能幻想,而应是厘清:你谈论的是逼真的画面、可靠的物理引擎,还是在此之上的决策能力?对于投身机器人、空间智能的从业者而言,这个坐标系尤为重要。它指明了方向:要让机器真正理解并驾驭物理世界,关键在于构建那个能准确模拟现实、反馈现实的模拟器,而不仅仅是让画面变得漂亮。

