Echo-Infinity 直接把视频生成的天花板掀到了 24 小时不间断滚动——超过 130 万帧实时输出,中间不用重置、不用分段拼接。这不是在原有路线上修修补补,而是一次底层架构的换血:它扔掉了传统长视频生成里那些手工设计的缓存策略,换成了一套可学习的演化记忆,让模型自己决定该记住什么、遗忘什么。
过去的方法靠人工压缩历史帧,视频一长要么显存爆炸,要么信息被剪得支离破碎。Echo-Infinity 的做法是把 Memory Query 当作可训练变量,通过注意力机制与门控更新,与视频扩散 Transformer 端到端优化。更关键的是计算量不再跟着视频长度线性爬升,任意压缩比都能扛住,理论上想滚多长就滚多长。它还顺手解决了位置编码的外推难题——Unified Relative RoPE Recipe 把起始锚点固定在 id 0,同时把最新帧的 id 锁死在预训练最大时间范围内,有限 RoPE 的约束被直接解除,外推差距大幅缩小,长短视频都稳住了质量。
SOTA 成绩只是副产品。真正的信号是视频生成终于从“几秒片段的玩具”变成了可以持续运转的媒介形态。一旦算力不再被时长绑架,直播、长叙事、实时交互这些场景才算真正拿到了入场券。24 小时滚动生成不是炫技,它意味着行业终于可以开始认真思考“无限视频”的商业逻辑了。

