CVPR 2026 Oral｜上交字节跳动提出POLAR：人脸重打光突破性工作

张开发

• 2026/4/17 16:34:09 • 15 分钟阅读

分享文章

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料本论文作者也已加入CVer星球在人脸生成与数字人领域“光照”一直是最后一道难以跨越的鸿沟。无论是基于物理分解的方法还是近年来的扩散模型虽然在视觉真实感上不断进步但始终存在一个根本性问题缺乏大规模、物理一致的光照数据使得“光照建模”始终停留在近似层面。为此上海交通大学人工智能研究院字节跳动 PICO 研究团队联合提出了POLARPortrait OLAT for Relighting并进一步构建光照生成模型 POLARNet从数据与模型两个层面系统性地重构了人脸重打光的研究范式。相关研究成果论文已被 CVPR 2026 收录为 Oral。POLAR: A Portrait OLAT Dataset and Generative Framework for Illumination-Aware Face Modeling论文https://arxiv.org/abs/2512.13192主页https://rex0191.github.io/POLAR/01 从“数据瓶颈”出发首次构建大规模开放OLAT人脸数据集现有重打光方法的核心问题并不完全在模型而在于缺乏高质量、物理一致的大规模光照数据。OLATOne-Light-at-a-Time作为最接近真实光传输的采集方式能够精确记录不同方向光照下的人脸响应。但过去的OLAT数据集要么规模极小要么完全闭源严重限制了研究发展。POLAR正是在这一背景下提出覆盖 220个身份 × 32视角 × 16表情 × 156光照方向总规模超过 2880万张HDR重打光4K图像提供完整原始OLAT数据、Alpha分割图、HDR重打光数据、光照标注相比现有数据集POLAR在规模、开放性与物理一致性三方面同时实现突破。此外POLAR 在身份采集上覆盖了较为丰富的肤色分布为研究不同肤色条件下的人脸光照响应差异与提升模型泛化能力提供了数据基础。更重要的是该数据不仅是“采集结果”而是一个可用于重建任意光照的基函数空间,任意光照可以由OLAT线性组合得到这使其成为连接物理渲染与生成模型的关键桥梁。02 从“建模范式”突破将光照建模为连续物理变换以往的方法尤其是diffusion-based通常将重打光视为一个“图像生成问题”但这种建模方式存在本质问题光照变化被当作随机噪声学习并且identity / texture / lighting 强耦合导致不稳定。为此POLARNet提出一个关键转变将光照建模为“连续、可解释的物理变换路径”而非随机生成过程。这种设计带来一个关键性质模型学习的不是“怎么画图”而是“光是如何作用在脸上”。具体而言论文采用 Latent Bridge MatchingLBM框架将重打光过程建模为潜空间中的连续传输问题以均匀光照人脸作为起点以目标方向的单光源响应OLAT作为终点在二者之间学习一条连续且受物理约束的轨迹。该轨迹通过如下形式构建其中表示引入的小扰动项控制噪声强度表示光照变化的连续进程。在此基础上模型通过学习一个条件速度场去拟合从当前状态指向目标光照的变化方向其优化目标为从而显式建模“光照如何在潜空间中演化”的过程。这种建模方式使得模型具备几个关键特性一方面变化被严格约束在光照维度上从而实现仅改变光照而不破坏身份信息另一方面通过显式引入光照方向条件实现连续可控的方向建模同时由于不再依赖传统扩散模型的多步去噪采样而是通过单步传输完成推理显著避免了采样误差累积并提升推理效率。03 数据 × 模型闭环真正可扩展的光照学习体系论文更有价值的贡献并不局限于单一的数据规模或模型设计而在于提出了一种数据与模型协同演化的统一框架。具体而言作者构建了一个“数据–模型共进化chicken-and-egg”机制首先真实采集的OLAT数据为模型提供高质量、物理一致的监督信号使模型能够学习光照变化的内在规律随后模型在此基础上获得跨身份泛化能力可以对未见个体生成对应的OLAT响应进一步地这些生成的OLAT数据又可作为新的训练资源持续扩展数据空间并反哺模型训练。通过这一循环系统逐步形成“数据 → 模型 → 新数据 → 更强模型”的自增长闭环从而在不依赖额外昂贵采集的前提下持续提升性能。这一设计本质上解决了长期以来的核心矛盾一方面Light Stage采集成本高昂、难以规模化另一方面纯生成模型又缺乏物理约束、难以保证一致性。POLAR通过将真实物理数据与生成模型有机结合实现了二者的统一为可扩展且物理可信的光照建模提供了一条新的技术路径。04 一步高质量生成把重打光从“分钟级”带到“实时级”基于上述连续物理的建模方式POLARNet在推理阶段实现了一个非常激进的结果无需扩散采样一步前向传播即可生成目标光照。同时由于输出的是完整OLAT序列可以在生成全部OLAT序列后无需网络推理进一步快速组合成任意HDR环境光照。从而实现真正意义上的可编辑、可组合、可解释的光照生成体系。05 Delighting 与泛化能力走出受控光照环境在真实应用场景中输入人脸往往并不满足“均匀光照”的理想假设例如强侧光、局部阴影或过曝区域都会对模型的光照预测产生干扰。针对这一问题POLAR在推理流程中引入了一个关键的 delighting 预处理模块在进行OLAT预测之前先将输入人脸恢复为近似中性光照状态从而消除原始光照偏置对模型的影响。该设计使得后续生成的单光源响应在方向上更加一致即使在强阴影或复杂光照条件下依然能够获得更加干净、稳定的重打光结果。更进一步尽管数据采集阶段对被试条件进行了严格控制如避免眼镜、浓妆及强反光物体POLARNet在“in-the-wild”场景中依然展现出良好的泛化能力。无论是存在高光反射的皮肤区域还是佩戴眼镜等复杂属性模型都能够在保持身份一致性的同时实现物理上合理的光照变化。这表明POLARNet所学习到的并非依赖数据分布的表层模式而是更具本质性的光照作用规律从而具备跨场景、跨身份的稳定表现能力。何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群本文作者已经加入CVer星球目前CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号整理不易请点赞和在看

CVPR 2026 Oral｜上交字节跳动提出POLAR：人脸重打光突破性工作

最新文章

商场/连锁店双目客流统计摄像头(支持poe供电)哪种好？

PCTF_pwn_test_your_nc

高企管理成熟度评价（八）：产业链补位诊断——从“企业培育”到“产业集群升级”，精准招商的“导航仪”

入站流量（Ingress）与出站流量（Egress）介绍（网络流量数据流动的方向）Ingress Rule（入站规则）、Egress Rule（出站规则）

告别卡顿！用Android 13新特性优化TV开机：延迟加载、线程池调优与IO黑科技

Transformer推理延迟突增？SITS2026现场抓包分析的4类隐性KV Cache失效场景

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

深入TI C2000系列：TMS320C28x CPU架构设计背后的故事与编程哲学

PTA数据结构刷题避坑指南：第一章绪论里的这些判断题，我当年都做错过

探索智能眼镜新场景：基于灵珠平台的AI居家教练“FitLens”全链路开发实战

2026届必备的十大降AI率平台推荐

TVA的基本概念、特征及其发展现状

7. 军用涡扇发动机全流程核心边界保护与异常工况处置

别再只会用matrix了！LaTeX矩阵排版保姆级指南：从基础矩阵到复杂方程组

C语言分支和循环语句

探索Dify自动化测试：ollama+skyvern赋能高效测试新体验——ollama 与 skyvern 结合(上篇)

BepInEx终极指南：3分钟学会Unity游戏插件框架，让游戏扩展如此简单！[特殊字符]

为什么 C/C++ 跨平台执行需要重新编译，而 Java 不需要？

3种创新方式在Windows上安装APK：告别传统模拟器，拥抱轻量级方案