定位误差降低64%!上交开源M3:让SLAM学会「像素级对齐」,百万级密集匹配也能实时!

张开发
2026/4/8 12:54:49 15 分钟阅读

分享文章

定位误差降低64%!上交开源M3:让SLAM学会「像素级对齐」,百万级密集匹配也能实时!
击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达本文经一作授权发布 | 来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入论文信息标题M^3: Dense Matching Meets Multi-View Foundation Models for Monocular Gaussian Splatting SLAM作者Kerui Ren, Guanghao Li, Changjian Jiang, Yingxiang Xu, Tao Lu, Linning Xu, Junting Dong, Jiangmiao Pang, Mulin Yu, Bo Dai机构1 Shanghai Jiao Tong University, 2 Shanghai Artificial Intelligence Laboratory, 3 Fudan University, 4 Shanghai Innovation Institute, 5 Zhejiang University, 6 Beijing Institute of Technology, 7 The Chinese University of Hong Kong, 8 The University of Hong Kong,原文链接https://arxiv.org/pdf/2603.16844代码链接https://city-super.github.io/M3/导读我们展示了我们的M3流水线在具有挑战性的复杂序列上的执行效果。我们的方法能够稳健且高精度地估计姿态同时还能从单目视频序列中实现高保真度的场景重建。效果展示在不同数据集上对实时重建基准进行渲染效果的定性比较。M3在复杂环境中(尤其是被白色矩形框标出的区域)保持了高度逼真的渲染细节。引言三维场景重建已成为计算机视觉领域的一项基础能力支撑着从机器人感知到大范围场景数字化等一系列应用。近年来该领域经历了两类范式的变革一类是逐场景优化方法例如三维高斯泼溅3DGS能够实现高保真渲染另一类是前馈式几何基础模型可在单次前向传播中推断出密集的先验信息。然而现有的大多数基础模型本质上是面向批处理的设计用于联合处理一组固定的图像。这种离线特性阻碍了实时反馈并限制了其在开放环境中的可扩展性凸显了流式重建的迫切需求——即随着新观测数据的到达相机轨迹和场景几何结构能够进行增量式更新。当前面向流式三维重建的研究大致遵循两条路径但均面临显著挑战。第一类方法尝试通过引入记忆机制来总结过往观测信息以使前馈模型适应流式场景从而增量式地预测几何结构。尽管这类方法效率较高但通常仅能生成低分辨率结果并且由于缺乏传统SLAM中的迭代全局优化机制容易受到累积漂移的影响。第二类方法则将基础模型的先验信息集成到SLAM流程中以引导优化过程。然而这类方法常常陷入一个根本性的权衡困境基于成对先验的方法如MASt3R-SLAM存在冗余计算和二次复杂度问题而基于多帧先验的方法如VGGT-SLAM 2.0虽能提供全局几何信息却缺乏进行严格几何优化所必需的像素级密集关联。我们认为当前多视图基础模型的主要瓶颈在于它们过度关注单个场景的几何结构而忽视了视图间的关联一致性。尽管这些模型能生成令人印象深刻的三维结构但它们常常无法捕捉帧间精确的像素级关联。缺乏这种细粒度的对应关系SLAM后端便无法建立束调整所需的强极线约束进而导致在复杂序列中出现重影伪影或轨迹发散等严重问题。因此专门对基础模型进行微调以恢复密集匹配不再是可有可无的选择而是释放其在下游SLAM任务中全部潜力的必要之举。为弥合这一差距我们提出了M³一个将多视图基础模型与稳健SLAM流程紧密耦合的流式三维重建框架。我们的方法首先通过引入一个专门的密集匹配头来增强一个最先进的多视图几何基础模型该匹配头经过专门训练以恢复像素级对应关系。这使得SLAM框架能够利用基础模型提供的几何信息实现精确、高频的位姿优化。与以往的黑盒集成方式不同M³通过对历史关键帧和新到帧进行一次性的前馈推理来同步更新几何信息与追踪状态显著减少了冗余的模型调用。此外我们引入了一个动态区域识别模块用于检测并抑制瞬态物体确保在真实环境中能够稳定地重建静态场景。在涵盖室内外多种场景的广泛基准测试中进行的实验表明M³在姿态估计和三维重建方面均达到了最先进的精度同时在处理长时间的单目视频流时保持了具有竞争力的效率。主要贡献我们的核心贡献如下– 我们为多视图基础模型引入了一个专门的匹配头利用像素级描述子来促进精细化的跨帧密集匹配以支持严格的几何优化。– 我们提出了M³一个利用多视图基础模型的SLAM框架通过一次性的前馈推理同时支持前端追踪和后端全局优化。– 在多种基准测试上的广泛实验表明M³在姿态估计和三维重建方面均能达到最先进的精度同时在处理长时间的单目视频序列时保持较高的计算效率。方法图2展示了M³的整体流程这是一个高效的流式框架用于从无标定单目视频 {Ii}Ni1 中进行场景重建。具体而言我们的方法联合估计相机内参 K ∈ R³×³ 和相机姿态 {Ri, ti}Ni1同时重建一组代表底层静态三维场景的神经高斯泼溅 {Gj}Mj1。近期研究工作尝试通过将基础模型集成到SLAM流程中以提升SLAM的效率、精度和鲁棒性。然而这些方法要么因重复的成对模型推理而存在计算冗余要么因未显式建立像素级对应关系而缺乏足够的几何精度。为解决这些局限性我们提出了M³它集成了π³的一个变体——Pi3X并对其进行了增强以支持密集像素级匹配具体细节见第3.1节。此外我们显式地过滤动态瞬态区域以更好地适应复杂的真实环境。我们进一步将该基础模型集成到一个统一且前后端紧密耦合的SLAM框架中如图2所示。为简化符号表示我们用 Xⁱⱼ 表示第 i 帧的点图变换到第 j 帧坐标系后的结果。特别地Xⁱ ≜ Xⁱⁱ 表示其自身坐标系下的点图。实验结果姿态估计结果分析 表1报告了在四个室内外基准测试上的姿态估计结果将我们的方法与近期SLAM框架及基础模型Pi3X进行了比较。在大多数评估序列上我们的方法均取得了最低的绝对轨迹误差。这一提升可归因于基础模型提供的强大几何先验与SLAM框架内的几何优化相结合共同实现了更精确的相机轨迹估计。更多的定性轨迹可视化结果见补充材料。重建结果分析 在本节中我们将M³与两组重建基线方法进行比较i基于SLAM的高斯泼溅方法以及ii前馈式高斯泼溅方法。表2报告了在基于SLAM的设置下六个室内外基准测试的结果。M³在保持具有竞争力效率的同时持续实现了高质量的新视角合成。特别地我们的方法在使用紧凑的高斯表示和相当训练时间的情况下获得了优秀的渲染质量。我们将此提升归因于改进的姿态估计它提供了对齐度更高的相机轨迹从而促进了更稳定、更高效的三维高斯泼溅初始化。总结 未来工作我们提出了M³一个针对无标定单目视频的高效、稳健的流式重建框架。其核心洞察在于通过增强多视图基础模型Pi3X的像素级密集匹配能力并将其紧密集成到SLAM流程中。这种设计能够为姿态优化提供一致的密集对应关系减少冗余的模型推理并在长视频流中实现稳定的追踪与高保真度的三维高斯泼溅重建。为更好地应对现实世界的复杂性M³进一步集成了基于描述子的动态区域抑制和内参对齐机制以缓解漂移并提升全局一致性。在多种室内外基准测试上的广泛实验表明M³能够以具有竞争力的效率实现最先进的姿态估计与重建质量。我们相信M³代表了朝着实用且可扩展的流式重建迈出的坚实一步。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

更多文章