CVPR 2024计算机视觉技术研究指南

张开发
2026/4/10 12:03:01 15 分钟阅读

分享文章

CVPR 2024计算机视觉技术研究指南
CVPR 2024计算机视觉论文快速指南与AI其他领域一样生成式模型和基础模型如视觉语言模型是当前的热门话题。会议CVPR 2024过去几年基础模型和生成式AI模型特别是大语言模型已成为AI研究的主要课题。即使在计算机视觉领域也是如此该领域越来越关注将大语言模型与图像编码器结合的视觉语言模型。这种转变可以从某机构今年计算机视觉与模式识别会议录用论文的主题中看出。多数论文涉及视觉语言模型而其他一些论文涉及相关主题如视觉问答、幻觉缓解和检索增强生成。同时经典的计算机视觉主题如3D重建、目标跟踪和姿态估计仍然有很好的代表性。3D重建通过双布局估计消除360°房间布局中的歧义Yu-Ju Tsai, Jin-Cheng Jhang, Jingjing Zheng, Wei Wang, Albert Chen, Min Sun, Cheng-Hao Kuo, Ming-Hsuan YangViewFusion通过插值去噪实现多视图一致性Xianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel标准扩散模型生成的对象视图通常很逼真但相邻视图可能缺乏对齐左图。ViewFusion结合了一种自回归过程有助于跨视图的一致性右图。算法信息论通过复杂度约束的描述性自动编码实现概念相似性的可解释度量Alessandro Achille, Greg Ver Steeg, Tian Yu Liu, Matthew Trager, Carson Klingenberg, Stefano Soatto地理空间分析连接遥感器与多传感器地理空间基础模型Boran Han, Shuai Zhang, Xingjian Shi, Markus Reichstein幻觉缓解通过视觉信息 grounding 进行多模态幻觉控制Alessandro Favero, Luca Zancato, Matthew Trager, Siddharth Choudhary, Pramuditha Perera, Alessandro Achille, Ashwin Swaminathan, Stefano SoattoTHRONE面向大视觉语言模型自由形式生成的基于对象的幻觉基准Prannay Kaul, Zhizhong Li, Hao Yang, Yonatan Dukler, Ashwin Swaminathan, C. J. Taylor, Stefano Soatto度量学习开放世界识别中传导性阈值校准的学习Qin Zhang, Dongsheng An, Tianjun Xiao, Tong He, Qingming Tang, Ying Nian Wu, Joe Tighe, Yifan Xing, Stefano Soatto模型鲁棒性GDA用于鲁棒测试时自适应的广义扩散Yun Yun Tsai, Fu-Chen Chen, Albert Chen, Junfeng Yang, Che-Chun Su, Min Sun, Cheng-Hao Kuo以对象为中心的学习自适应槽注意力具有动态槽数量的对象发现Ke Fan, Zechen Bai, Tianjun Xiao, Tong He, Max Horn, Yanwei Fu, Francesco Locatello, Zheng Zhang目标跟踪基于路径一致性的自监督多目标跟踪Zijia Lu, Bing Shuai, Yanbei Chen, Zhenlin Xu, Davide Modolo姿态估计MRC-Net基于多尺度残差相关的6自由度姿态估计Yuelong Li, Yafei Mao, Raja Bala, Sunil Hadap左图为相机图像右图将彩色3D模型带有估计的六自由度姿态叠加到原始图像上。负责任AIFairRAG通过公平检索增强实现公平的人像生成Robik Shrestha, Yang Zou, James Chen, Zhiheng Li, Yusheng Xie, Tiffany Deng检索增强生成CPR用于版权保护的检索增强生成Aditya Golatkar, Alessandro Achille, Luca Zancato, Yu-Xiang Wang, Ashwin Swaminathan, Stefano Soatto安全性面向多样化计算平台、具有增强迁移性的真实世界对抗攻击的锐度感知优化Muchao Ye, Xiang Xu, Qin Zhang, Jon Wu视频语言模型VidLA大规模视频语言对齐Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi视觉语言模型接受模态差距双曲空间中的探索Sameera Ramasinghe, Violetta Shevchenko, Gil Avraham, Ajanthan Thalaiyasingam提出了一种基于角度的对比损失允许将图像放置在从文本嵌入出发的轴上的任意位置从而实现图像之间的层次关系。通过丰富监督增强视觉语言预训练Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano SoattoGROUNDHOG将大语言模型接地到整体分割Yichi Zhang, Martin Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi (QZ) Gao, Joyce Chai基于合成标题的双曲学习用于开放世界检测Fanjie Kong, Yanbei Chen, Jiarui Cai, Davide Modolo非自回归序列到序列视觉语言模型Kunyu Shi, Qi Dong, Luis Goncalves, Zhuowen Tu, Stefano Soatto基于扩散的文本到图像生成的可扩展性研究Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano SoattoUNet缩放对文本-图像对齐的影响。某机构研究人员沿两个维度变化UNet通道数左和Transformer深度右。提示词为(1)“树上的方形蓝色苹果和圆形黄色叶子”(2)“五个磨砂玻璃瓶”(3)“蓝色球体右侧的黄色盒子”(4)“飞在月亮前的国际空间站”。视觉问答GRAM多页面视觉问答的全局推理Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz, Elad Ben Avraham, Aviad Aberdam, Shahar Tsiper, Ron Litman用于多模态推理的问题感知视觉TransformerRoy Ganz, Yair Kittenplon, Aviad Aberdam, Elad Ben Avraham, Oren Nuriel, Shai Mazor, Ron Litman逐步合成工具、模板和大语言模型作为基于推理的图表视觉问答的数据生成器Zhuowan Li, Bhavan Jasani, Peng Tang, Shabnam Ghadar研究领域计算机视觉标签视觉语言模型、大语言模型、生成式AI、检索增强生成、幻觉、CVPRFINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

更多文章