世界模型笔记

张开发
2026/4/9 19:09:38 15 分钟阅读

分享文章

世界模型笔记
一、 VGGT (2025.03)VGGT (Visual Geometry Grounded Transformer)是由牛津大学 VGG 组与 Meta AI 联合推出的一种大型前向 Transformer 模型。它打破了传统 3D 重建依赖于迭代优化如 Bundle Adjustment的范式实现了单次前向推理即可直接输出场景的所有关键 3D 属性 (End to End)。1. 核心贡献全属性推理从一组图像中直接预测相机参数、深度图、点云图和 3D 点轨迹。极速性能重建数百张图像的时间缩短至 1 秒以内0.1s 处理 2 帧0.6s 处理 32 帧且在不经任何后处理的情况下优于基于优化的方案。泛化性强在单图、双图或数百张图像输入下均表现稳定尤其在无重叠视角和重复纹理等挑战性场景下优于 DUSt3R。2. 架构设计VGGT 采用了一种极简的架构设计减少 3D 归纳偏置完全依靠大规模 3D 标注数据进行学习。VGGT 架构图DINOv2 Patchify:输入图像序列通过 DINOv2 编码器进行 patchify.理由: DINOv2 特征自带强大的对应关系先验Correspondence是 3D 匹配的理想起点。注DINO patchify 虽然有更高层次的语义信息但像素级的语义信息弱且计算开销大不适用于生成模型。交替注意力 (Alternating-Attention, AA):模型由 24 层 AA Block 组成每层内部包含两种模式帧内自注意力 (Frame-wise): Token 仅在单帧内部交互。用于建模单帧内的物体结构。全局自注意力 (Global): 所有帧的所有 Token跨帧共同参与计算。用于执行类似 SfM 中的“匹配”操作。优势: AA 机制能更有效地平衡单图细节与多图几何对齐且对图像排列具有等变性除第一帧外。Token 注入逻辑:每帧输入不仅有图像 Token还额外附加了Camera Token (): 专门用于回归相机内参和外参。Register Tokens (): 4 个 Register Token用于防止注意力汇聚到无效背景。非对称初始化 (关键):第一帧 (Anchor): 使用一组独立的可学习参数.其余帧 (Targets): 统一共享另一组参数.目的: 通过这种参数级的区分强制 Transformer 意识到第一帧是“原点”从而将所有后续预测都统一到第一帧的坐标系中。多头输出与推理策略:Camera Head: 4 个自注意力层加一个线性层作用于输出外参和内参.DPT Head: 将 Transformer 输出的离散 Token 转化为像素级的 3D 属性特征还原 (Reassemble)将 AA Transformer 输出的个图像 Token按空间位置重组成 2D 网格。利用DPT (Dense Prediction Transformer)的多尺度特征融合将 Token 上采样还原至原始图像分辨率得到稠密特征图。多分支输出 (Multi-head Output) 在还原后的稠密特征图上通过简单的卷积层并行输出深度图 ()预测每个像素相对于当前相机的正向深度。点图 ()预测像素在第一帧参考帧坐标系下的 3D 坐标.跟踪特征 ()输出高维特征向量用于后续与点跟踪模块如 CoTracker2对接。不确定性估计 (Uncertainty)每个分支同步预测一个不确定性图这些图是与深度/点图同尺寸的单通道概率图在训练中作为损失函数的权重Huber Loss 的分母让模型自动学会忽略遮挡或弱纹理区域。过完备性红利 (Over-complete Supervision)关键结论虽然深度、相机和点图在几何上是冗余的但显式地同时预测所有变量能显著提升特征的鲁棒性。推理技巧在推理时通过“相机参数 深度图”反投影生成的点云精度往往高于直接由点图分支预测的结果。3. 对比与局限性特性DUSt3RVGGT推理速度 (32帧) 200s 0.6s内存限制 32 帧易 OOM支持数百张图像输入几何一致性存在轻微平面扭曲鲁棒能处理无重叠视角后处理通常需要优化纯 Feed-forward局限性显存开销虽然比 DUSt3R 强但在处理极大规模场景上千张图时全局注意力的复杂度仍是瓶颈。绝对尺度在没有额外传感器信息的情况下模型对物体绝对尺度的推断可能存在偏差。二、ReCamMaster (2025.03)当前相机控制 (camera-controlled) 研究主要集中在文生视频或图生视频而修改给定视频的相机轨迹这一视频到视频 (video to video) 的重要任务仍未得到充分探索。现有的相机控制视频到视频方法如 GCD (训练数据有限)、ReCapture (需要针对每个视频进行优化) 或基于 4D 重建 (重建技术准确性有限) 的方法在泛化到真实世界视频以及保持动态同步性方面存在显著局限。这篇论文有两个主要贡献1. 用虚幻5引擎制作了一个大规模、高质量、包含多样化相机轨迹的多相机同步视频数据集。2. 验证了三种对预训练文生视频模型有效的视频条件机制发现 Frame Dimension Conditioning 是最优的。1. 基座模型ReCamMaster 的基座模型是预训练文生视频模型论文中的基座模型是快手自己的模型是一种 潜在视频扩散模型 (Latent Video Diffusion Model)用 3D VAE Encoder 将视频压缩到潜在空间然后使用 DiT 进行生成最后用 3D VAE Decoder 还原。其中 DiT Block 有空间注意力、时空注意力和交叉注意力 (用于嵌入文本条件)。注图中Add Noise只给 Zt 加噪。整体架构图2. 视频条件注入方法1) Channel-dimension Conditioning直接在通道维度上做 concatenate 再 patchify. 由于 patchify 投影层改变了 (输入通道从c变为了2c)DiT Block 的输入d维特征的语义也改变了因此所有 Layer 都要解冻微调。2) View-dimension Conditioning在视图层面进行 attention即先各自进行 空间attention 和 时空attention然后通过新添加的 View-Attention 层对两个视频的对应帧计算attention:其中表示源视频的第 i 帧表示目标视频的第 i 帧。3) Frame-dimension Conditioning先 patchify 再在帧数维度上 concatenate. 这样输入序列长度就是原来的两倍 (2f).对比Frame经过测试效果是最好的因为他充分利用了源视频与目标视频之间的空间注意力和时空注意力也是作者最后采样的方法。Channel效果中等。猜测 源视频和目标视频对应patch被压缩到了一起没有直接利用到注意力机制来融合二者的信息。并且微调时解冻参数太多可能导致灾难性遗忘和过拟合。View效果最差。猜测 源视频和目标视频只有对应帧做了 attention没有利用到时间上下文因此时间一致性较差。3. 相机轨迹条件注入虽然将源视频相机轨迹和目标视频轨迹一起作为条件可以让模型更好地理解 4D 空间但是推理时源视频轨迹不好精确获取所以作者放弃使用源视频轨迹只使用目标轨迹。同理由于用户大多提供不了准确的相机内参作者只使用相机外参作为条件。但是他们的方法后续有需要也可以方便地添加内参。嵌入方法通过一个 camera encoder (全连接层)将投影到与 video token 具有相同通道数然后将其和 spatial-attention 层的输出相加一起作为 3D-attention 层的输入.4. 训练策略只微调 camera encoder和 3D-attention 层其他参数冻结。对虚幻生成的训练数据添加一定噪声减小与真实世界数据的差距。训练时 20% T2V20% I2V60% V2V其中T2V的所有帧的潜表示都是高斯噪声I2V的第二帧开始是高斯噪声。5. 局限性将源视频和目标视频拼接作为输入的方法计算成本太高也导致了推理速度慢。考虑可能由于缺少相机内参作为条件手机拍摄的视频处理结果会有形变。三、CameraCtrl II (2025.03)CameraCtrl II 是针对现有相机控制视频模型的两大痛点提出的进化版框架痛点 A引入相机控制后视频的动态性Dynamics大幅下降画面趋于静态。痛点 B只能生成短片段无法进行长距离、大范围的连贯场景探索。1. 动态数据构造由于现有的相机标注数据集如 RealEstate10K多为静态场景导致模型“学会了相机控制却忘掉了动作”作者提出了以下动态数据构造 pipeline动态视频筛选使用 TMO运动分割和 RAFT光流识别高动态视频。相机参数估计利用VGGSfM从真实动态视频中提取位姿。尺度统一Scale Calibration解决单目 SfM 的尺度任意性问题通过RANSAC结合度量深度估计Metric Depth将所有相机轨迹对齐到统一的物理度量空间。轨迹均衡化分析轨迹的“主方向”和“转向”剔除冗余的简单轨迹如纯前向解决长尾分布问题。数据构造 pipeline2. 轻量化相机条件注入以往的方法通常使用专用编码器提取相机特征然后将其注入到每个 DiT 或卷积层中。这些全局摄像机注入的方法会过度约束视频动态限制生成内容中的自然运动变化。为了避免了对像素生成的过度约束最大限度保留预训练模型的动态生成能力作者采用了轻量化的相机条件注入注入位置放弃在每一层 DiT 中重复注入仅在初始层注入。注入方式采用Camera Patchify层将由内参、外参以及像素位置 (u, v) 计算得到的 6*h*w 的Plücker embedding转化为相机特征图直接与视觉特征图进行逐元素相加Element-wise addition。Camera CFG引入针对相机控制的CFG同时使用有标注相机参数和无标注填零处理的数据保持模型在普通文生视任务上的泛化力通过调节权重显著提升相机控制的精准度。相机条件注入3. 串行视频生成为了生成长视频CameraCtrl II 引入了自回归扩展机制机制将上一个片段的最后帧 (clean features) 与当前片段的噪声 (noised features) 在帧数维度上进行拼接作为输入。一致性引入二进制 Mask 区分条件帧和生成帧仅对生成部分计算 Loss。统一坐标系以第一段视频的首帧为原点计算相对位姿防止长序列探索中的位姿误差累积。推理加速模型蒸馏Progressive Distillation将步数从 96 步减至 16 步生成 4 秒视频仅需2.61 秒。APT 蒸馏尝试一步生成One-step虽然速度极快0.59s但质量有轻微下降。串行视频生成4. 总结CameraCtrl II成功证明了通过高质量动态数据轻量化注入架构可以实现在不牺牲视频动态性的前提下进行精确且长程的相机路径控制。这为虚拟制片、游戏场景模拟和动态数字孪生提供了更强的工具。四、LingBot-World (2026.01)LingBot-World 是一个交互式世界模型旨在将视频生成器进化为具备物理常识、长效记忆和实时交互能力的模拟器。1.数据构建为了解决高质量交互数据稀缺的问题作者构建了一个自动化、可扩展的数据流水线。多源数据获取通用视频筛选包含多样化运动如步行、驾驶的现实世界素材。游戏数据采集 RGB 帧时同步记录精准的信号与相机位姿确保动作与像素演变的强相关。UE 渲染利用虚幻引擎生成带有绝对真实位姿 (GT Pose)的合成数据并通过“手持相机模拟”技术增加真实感。数据分析 (Profiling)利用VLM评估视觉质量、运动幅度和视角1P/3P并使用MegaSAM为缺失信息的视频补全 3D 结构先验。分层标注 (Captioning)生成三类描述叙事描述全局故事、静态场景描述解耦运动与纹理、密集时间描述细粒度事件。这是实现精准动作控制的基础。2. 分阶段训练模型训练分为 3 个阶段Stage I: Pre-Training —— 建立通用视频先验目标学习自然世界的时空连贯性、纹理保真度和语义理解。基座模型采用14B 参数的 Wan2.2 图生视频 (I2V) 模型。核心逻辑这一阶段不涉及交互和物理规则而是建立一个强大的视觉“画布”。利用大规模开源视频数据让模型掌握物体恒常性、光影变化等基础视觉先验。Stage II: Middle-Training —— 加入动作控制与长时一致性这是模型转变为“物理世界模型”的关键阶段重点是动作控制与长时一致性。MoE 架构继承 Wan2.2 的28B 参数的 MoE 架构。包含高噪声专家建模大尺度动力学和低噪声专家负责细节推理开销维持在 14B 规模。多任务训练同时训练 I2V 和 V2V 两类任务使其具备初始时 I2V 的能力和运行时 V2V 的能力。动作注入动作编码使用Plücker Encoder编码相机参数使用multi-hot vector编码离散的动作指令然后将二者在通道维度进行拼接。(推理时先根据动作指令计算出新的相机参数然后计算得到 Plücker embedding还需要拼接动作指令的原因是有些动作 (如开门) 不会影响相机参数。)AdaLN 机制通过自适应层归一化将动作信号注入 DiT Block调制视频潜变量。长时一致性训练课程学习视频时长从 5s 逐步增加至 60s (即用 60s 的视频作条件生成 60s 的视频)。注意这只是训练时生成长视频让模型具有长时空记忆推理时还是生成一个 chunk 的视频帧。空间记忆通过在长序列上观察环境模型展现出涌现的“空间记忆”能力能记住视野外消失长达一分钟的物体。训练设施采用FSDP2模型分片和Ulysses (Context Parallel)处理超长 token 序列产生的显存瓶颈。LingBot-World 整体架构Stage III: Post-Training —— 自回归优化与步数蒸馏双向注意力所需的计算开销太大为了适配自回归生成在这一阶段引入了块因果注意力 (Block Causal Attention). 另外为了实现实时交互需要进行步数蒸馏。因果架构适配 (Causal Architecture Adaptation)Block Causal Attention将双向注意力替换为块因果注意力。块内保持双向关注保局部质量块间实施因果约束支持自回归流式推理并使用KV cache. 这里的块是指 chunk.专家初始化仅使用 Stage II 的高噪声专家进行初始化实验证明其动力学建模能力更强。块因果注意力机制少步蒸馏与对抗优化DMD 蒸馏采用分布匹配蒸馏 (Distribution Matching Distillation)将多步去噪简化为极少数步数。Self-Forcing让模型在其自身生成的序列上训练减少自回归推理时的“分布漂移”和误差积累。GAN 判别器加入对抗损失利用真实数据监督来弥补蒸馏带来的画质损失提升感知真实度。判别器架构3. 总结与局限LingBot-World 实现了16 FPS / 1s 以下的交互延迟具备长达10 分钟的生成能力在 VBench 动态程度测试中显著领先成功证明了可以实现在不牺牲画质的前提下进行精确且实时的世界模拟。尽管 LingBot-World 在实时性和一致性上取得了突破但在通往“完全沉浸式虚拟世界”的道路上仍存在挑战记忆稳定性 (Memory Stability)模型的长时记忆目前是一种基于上下文窗口的“涌现能力”缺乏显式的存储模块。这导致在超长时间模拟中环境一致性偶尔会失效。idea:这是否可以通过显示 3D 建模来存储空间记忆动作空间限制 (Action Space)目前主要集中在导航和基础移动缺乏复杂的物体交互如精准抓取杂乱桌面上的特定杯子以及细粒度的物理反馈。idea:应该可以通过引入相关数据解决。场景漂移 (Drifting)随着生成长度无限增加场景结构会逐渐丢失原始框架环境会发生不可控的缓慢演变。idea:和第一点一样。五、NitroGen (2026.01)NitroGen是由 NVIDIA 联合 Stanford、Caltech 等高校推出的开源通用游戏智能体Generalist Gaming Agent基座模型。它通过 40,000 小时的互联网视频预训练实现了跨 1,000 款游戏的视觉-动作映射标志着具身智能从特定游戏如 Minecraft向通用游戏环境的跨越。1. 核心贡献动作数据集提出了一种自动动作提取流水线从公开的 40,000 小时视频中恢复游戏手柄操作解决了 Embodied AI 缺乏大规模“视频-动作”对齐数据的难题。统一动作空间和模拟器设计了标准化的 20 维动作向量涵盖了 2D 平台跳跃到 3D 动作 RPG 的所有控制逻辑并开发了一个 Universal Simulator 操作各种游戏。零样本泛化在未见过的游戏中经过微调后任务成功率相比从头训练的模型提升了 52%.2. 动作提取流水线这是 NitroGen 能够利用互联网数据的核心技术。由于视频中没有动作标签作者开发了自动标注工具Gamepad Parsing针对带手柄演示的视频自动识别视频画面中的手柄按键和摇杆偏转转换成 Ground-truth。性能摇杆预测达到 0.84按键准确率达到 0.96。动作提取示意图3. 架构设计NitroGen 放弃了复杂的 LLM 规划层采用极简的Vision-to-Action直连架构强调端到端的实时反应能力。视觉编码器 (ViT):模型SigLIP 2 Vision Transformer。处理将的 RGB 帧编码为 256 个图像 Token。结论实验发现单帧上下文已足够应对大多数动作游戏多帧输入并无显著收益。动作生成 (DiT MLP 编解码):生成范式采用流匹配 (Flow Matching)算法以当前视觉特征为条件从高斯噪声中去噪生成动作。动作块 (Action Chunking):单次推理输出16 个连续时间步的动作序列形状为).编码/解码 MLP编码层将带噪的原始动作向量或噪声投影至 Transformer 隐空间。解码层将 Transformer 输出的 Token 独立映射回 20 维动作向量16 维按键 4 维摇杆。优势相比 VAE 架构全端到端训练避免了重构误差且对于低维动作空间20维计算效率更高。训练标准的流匹配训练最小化条件流匹配损失函数. 使用 Euler 积分进行推理固定 16 步去噪。整体架构图4. 局限长程规划缺失作为一个反应式Reactive策略NitroGen 擅长即时战斗和操作但在需要长达数十分钟逻辑推理的复杂任务如解谜中表现乏力。语言指令受限当前版本主要基于视觉诱发行为尚未深度融合自然语言指令无法通过“帮我找到宝箱”这类指令灵活控制。确定性漂移在同步推理测试中发现由于误差累积Agent 在执行一分钟以上的长轨迹时会逐渐偏离人类原始路径。六、 Spatial-mem (2025.06)Spatial-mem (Video World Models with Long-term Spatial Memory) 是由斯坦福大学联合上海交大、CUHK、上海AI实验室等机构提出的一种带有显式长期空间记忆的视频世界模型。它打破了现有视频自回归生成中因时间上下文窗口有限而导致的“场景遗忘”问题通过引入类似人类认知的三级记忆机制实现了在长程视频生成和视角重新访问Revisits时极高的三维与视觉一致性。1. 核心贡献三层拟人化记忆机制结合短期工作记忆、基于几何的长期空间记忆3D静态点云和稀疏情景记忆彻底解决长镜头下的遗忘问题。动静解耦生成架构在 DiT 架构中创新设计了静态 3D 渲染条件注入与历史交叉注意力机制使模型在保持背景绝对静态一致的同时生成听从指令的合理前景动态。几何感知视频数据集提出了一套自动化流水线构建了包含 9 万个样本的定制数据集每个样本都完美对齐了 3D 空间记忆、相机轨迹、动作标注与真实视频。2. 三级记忆机制模型并没有把所有历史帧都强行塞进有限的上下文窗口而是采取了分治策略长期空间记忆 (Spatial Memory)负责记住环境的“物理骨架”。利用TSDF-Fusion(截断符号距离函数融合) 实时构建并更新全局静态点云。自动过滤动态TSDF 天然可以过滤掉动态物体算法通过加权平均不断更新体素的深度和置信度权重由于人和车等动态物体在连续帧中深度不一致无法在同一位置累加权重其低置信度噪声会被自然抑制从而只提炼出纯静态的建筑和环境。短期工作记忆 (Working Memory)负责“动作惯性与连贯性”。保存最近生成的 5 帧画面。在自回归生成时提供短期的上下文确保车辆、人物等动态元素的运动平滑自然。稀疏情景记忆 (Episodic Memory)负责“回忆高清皮肤与细节”。3D 点云往往稀疏且缺乏纹理细节。为了弥补这一点模型会维护一组“代表性历史关键帧”。触发机制基于掩码的可见性检查。将 3D 点云渲染到当前视角没有点云覆盖的区域呈现黑色。当画面中黑色的“新露出区域”面积超过预设阈值时自动将当前生成的高清帧存入历史参考集合中。3. 架构设计基座模型采用了预训练的 CogVideoX-5B-I2V基于 DiT 架构。为了融合三种记忆作者进行了针对性的改造整体架构图静态条件注入 (处理空间记忆)将当前的 3D 静态点云按目标相机轨迹渲染成黑底条件视频通过 3D VAE 编码。Condition DiT直接复制主干模型前 18 层预训练 DiT 专门处理这段静态骨架特征。零初始化线性层 (Zero-initialized Linear Layer)条件 DiT 的输出必须经过一个权重全为 0 的线性层再加到主干网络 (Main DiT) 对应的特征图中。目的类似 ControlNet防止训练初期杂乱的条件特征对预训练主干模型造成破坏性干扰灾难性遗忘实现平滑过渡。动态上下文拼接 (处理工作记忆)将工作记忆最近 5 帧的 token 与目标生成帧的 token 在帧维度 (Frame dimension) 上直接拼接引导主干 DiT 预测合理的动态演变。历史交叉注意力 (处理情景记忆)将情景记忆中的高清历史帧通过 3D VAE 编码并 Patchify 作为 Reference Tokens。在网络中新增一层Historical Cross Attention.机制以当前正在生成的帧为Query以历史参考库中的所有 Tokens 为Keys 和 Values。优势在画到曾经见过的区域时模型会利用注意力机制自动从历史照片里“精准搜索”并提取高频纹理、材质和光影完美贴合到正在生成的新画面上。4. 数据集构造普通视频数据无法直接训练这种 3D 记忆模型作者设计了以下自动化流水线基于 MiraData数据集构造 pipeline切分与 4D 重建将视频切为 97 帧片段前 49 帧建图后 48 帧作为生成真值。利用 Mega-SaM 提取出相机的位姿和所有帧的深度图。提取静态记忆对前 49 帧运行 TSDF-Fusion剔除所有乱跑的动态元素得到干净的静态 3D 全局点云。渲染条件与标注将后 48 帧的相机轨迹放进建好的 3D 点云里渲染出带有可见性掩码的结构图。同时利用 Qwen 对后半段视频进行动作文本标注如“一辆红车经过”。最终产出90K 对齐了“静态3D引导 真实动态完整视频 文本提示词”的高质量结构化数据。5. 总结与局限Spatial-mem 成功证明了引入显式的 3D 几何先验和人类认知记忆机制是将视频生成器转化为“物理世界模拟器”的关键钥匙其在 View Recall Consistency (视角重访一致性) 上的表现大幅超越现有基线如 TrajectoryCrafter、Wan2.1。但仍有以下局限性极端轨迹下的建图脆弱性当相邻相机姿态跨度过大或转角过于剧烈时如蜘蛛侠在高楼间飞荡推理阶段依赖的在线重建工具 (CUT3R) 容易失败导致 TSDF 误删本该保留的静态点云造成严重的空间信息丢失。角色一致性欠缺当前的记忆机制几乎全在为“空间背景”服务。对于前景动态角色本身的长时一致性如主角换个角度衣服款式变了依然缺乏有效约束未来可能需要结合 Frame Packing 等时序扩展策略。误差累积 (Drifting)虽然解决了因看不见而导致的几何遗忘问题但自回归长时间生成本身带来的图像质量逐渐退化Drift问题尚未被解决。七、MagicWorld (2026.03)MagicWorld是由浙江大学与 vivo 联合提出的一种自回归交互式视频世界模型旨在解决真实世界探索中的运动漂移 (Motion Drift)与长程误差累积 (Error Accumulation)。1. 核心贡献流引导运动保持 (Flow-Guided Motion Preservation)通过与 Warping 结果对比进行动作约束。动作引导几何 (Action-Guided Geometry)利用深度估计预测一个 3D 几何场景和先验视频。历史缓存检索 (History Cache Retrieval)缓存初始帧和最近 19 帧与当前第一帧在隐空间进行相似度匹配来检索历史记忆。多步聚合奖励蒸馏 (Multi-shot Aggregated Reward DMD)使用多次交互的累计 DMD 损失并根据奖励模型的评分来对几次损失加权让模型学到长程一致性。总体架构图2. 运动与几何保持约束这一阶段旨在赋予模型基础的物理常识与运动连贯性。1) 流引导运动保持 (Flow-guided Motion Preservation)在自回归视频生成中动态主体如走动的人、行驶的车往往会随着生成步数的增加而逐渐变慢甚至停止或者产生不自然的形变。作者将生成结果与 Warping 结果对比来进行动作约束。首先重建干净隐变量再从 Ground-truth 视频中获取光流并需要下采样到隐空间得到利用将第帧的隐变量Warp 回前一帧.运动保持损失 ()定义为其中为运动感知权重光流越大的区域权重越高。Stage I 总体目标函数其中为标准的条件流匹配Conditional Flow Matching损失。2) 动作引导几何 (Action-Guided Geometry)纯粹的视频生成模型往往难以维持长期的空间结构一致性。AGG 的作用是为模型提供一个显式的几何先验Geometric Prior告诉模型“根据你的移动现在的场景应该是这个样子的。”首先从第一帧图像估算出深度图然后利用内参推到 3D 空间再转到世界坐标得到场景先验根据用户的动作指令得到相机轨迹然后根据这些结果得到一个几何先验就可以渲染出一段先验视频最后将这个视频拼接到输入中。它就像一个“草稿”或“骨架”指导模型在去噪过程中填充真实的纹理。3. 长时程交互一致性自回归生成过程中微小的预测误差会随时间复合导致场景结构漂移。MagicWorld 通过“回忆”历史状态和“模拟”交互演化的方式来增强长程稳定性。1) 历史缓存检索 (History Cache Retrieval)为了让模型在长时间探索如 360 度环视或路径往返后依然能找回初始场景模型引入了基于隐空间的非线性检索机制。三级缓存结构固定锚点 (Fixed Anchor)永久保留初始交互的第一帧的隐特征。滚动缓存 (Rolling Pool)容量为 20 帧存储近期生成的中间帧。当达到容量上限时除初始帧外的条目按先入先出 (FIFO) 原则更新。相似度检索将当前步骤的第一帧与缓存帧通过空间池化 (Spatial Pooling) 提取特征向量计算余弦相似度其中. 然后检索相似度最高的Top-3帧作为辅助 Token 注入 DiT.2) 增强型交互训练策略 (Enhanced Interactive Training Strategy)这一阶段通过蒸馏和外部奖励机制在训练中模拟真实的自回归交互过程使模型获得长期一致性的优化目标。ODE 初始化与因果适配将 Stage I 的双向 (Bidirectional) 模型通过ODE 初始化重新表述为确定性的因果 (Causal) 生成过程构建学生生成器. 这保证了生成过程只依赖过去状态适合实时交互。多步聚合蒸馏 (Multi-shot Aggregated Distillation)模型显式模拟步连续交互累积这步产生的DMD (分布匹配蒸馏)损失后再统一更新。这种“全局感知”让模型能从整段轨迹的角度优化而非仅限于单步质量。双重奖励质量引导 (Dual-reward Quality Guidance)利用额外训练的奖励模型评估生成片段的视觉质量分数 ()和运动质量分数 ()作为多步损失的权重.Stage II 最终目标函数 ()4. 总结与局限MagicWorld 通过显式几何先验与聚合蒸馏的结合在不依赖外部 3D 引擎的前提下在生成模型内部涌现出稳定的物理常识。局限性记忆深度受限20 帧的缓存容量在极大尺度场景如跨越几个街区中仍显单薄可能需要引入类似 Spatial-mem 的显式 3D 存储模块。语义偏移虽然几何结构稳定但在极端长程生成后纹理细节如路边店铺的招牌内容仍可能发生缓慢的语义漂移。动态交互缺失目前的“交互”主要体现为相机视角的移动缺乏对场景内物体如推开门、捡起瓶子的精细物理干预能力。八、LiveWorld (2026.03)现有生成式视频模型依靠KV缓存或3D空间记忆来维持时间一致性但是它们将世界的自主演变与基于相机的观察渲染混为一谈导致物体一旦离开视野其时间推进就被冻结形成视线外动态缺失的问题。LiveWorld针对这一问题提出了一种显式解耦世界演变与观察渲染的范式通过Monitor 机制实现了持续演进的 4D 动态世界模拟。1. 核心贡献问题形式化首次定义并形式化了视频世界模型中的“视线外动态”问题指出了将演化与渲染混为一谈的根本缺陷。解耦框架提出 LiveWorld 架构将世界建模拆分为自主状态演化 (Evolution)与视图相关渲染 (Rendering)。Monitor 机制引入以监控器为中心的 pipeline利用虚拟静止代理自主推演视线外活跃实体的时序进程。LiveBench 基准开发了首个专门用于定量评估视频世界模型长程视线外动态和事件持久性的基准测试。2. 解耦演化与渲染现有方法采用以观察者为中心的范式observer-centric将世界演化与渲染混为一谈输入历史帧直接预测下一帧这导致视野外区域被冻结在最后一次观察的时间戳。LiveWorld 提出以监控器为中心的范式monitor-centric)认为理想的世界模型应维持一个与视图无关的全局状态其遵循以下逻辑状态演化 (Evolution)负责更新世界随时间的底层变化。观察渲染 (Rendering)根据相机位姿将状态投影为观察。LiveWorld 对进行了结构化近似(静态背景)时间不变的 3D 点云通过 SLAM 框架如 Stream3R在线累积。(动态实体)随时间演化的 4D 表示即使在视线外也通过演化引擎持续更新。3. Monitor 机制为了解决视线外物体的动态维护LiveWorld 引入了“监控器” (Monitors)。注册与检测系统自动检测视野内新出现的动态实体。若该实体未被现有 Monitor 覆盖则在其当前位姿注册一个新的静止 Monitor最多维护个活跃 Monitor超出时丢弃距离观察者最远的那个。自主演化 (Out-of-sight Evolution)即使观察者走远Monitor 仍基于其固定视角调用根据动作指令如“狗走向长椅并坐下”推演实体的未来动态。4D 提升 (Lifting)将 Monitor 生成的 2D 局部视频利用深度信息反投影Unproject回 3D 世界空间形成时序演化的 4D 点云参与构建更新后的世界状态供后续渲染器使用。异步同步对于在窗口中途发现的实体系统先执行“回溯同步”将其状态对齐至全局时间线.Monitor 机制图4. 架构设计尽管状态感知渲染器和演化引擎在功能上不同但二者共享根本的生成范式都基于先前的世界状态都受外部控制信号相机位姿或文本提示引导都合成未来视觉内容因此 LiveWorld 采用一个统一的视频扩散模型作为抽象接口通过不同的条件配置同时扮演“演化引擎”与“渲染器”的双重角色配置模式输入投影外观参考功能演化模式将 Monitor 锚定视角的局部场景投影至固定相机Monitor 锚帧作为外观参考推演视线外实体在未来帧中的动态演化渲染模式将更新的世界状态静态背景最新动态实体投影至目标观察相机轨迹观察者的历史帧作为参考渲染当前观察者视角下的连贯观测总体架构图5. 训练训练时采用流匹配损失冻结 DiT backbone通过分阶段训练两个额外组件来实现条件控制。双路条件注入State Adapter (几何控制)类似 ControlNet接收像素级投影张量包含深度和遮挡信息施加严格的几何约束。LoRA Modules (外观保持)在 DiT 注意力层注册 LoRA 参数接收历史参考帧包含时间锚点和外观锚点)确保纹理的一致性。6. 局限与挑战记忆稳定性虽然解决了视线外几何演化但在极长程生成后细粒度的语义纹理仍可能发生缓慢漂移。动作空间限制目前主要集中于导航和基础移动对于复杂的物体间交互如精准抓取仍需更丰富的交互数据。Monitor 规模在大规模城市场景下维护大量活跃 Monitor 的计算开销和管理逻辑仍有优化空间。

更多文章