← 返回总览
20
论文总数
20
高分论文
8.0
平均评分
7
关键词数
🔍 聚类关键词特征
视图3d高斯一致性本文视角视觉
DOMR:通过密集对象匹配建立跨视图分割
📝 作者: Jitong Liao, Yulu Gao, Shaofei Huang, Jialin Gao, Jie Lei, Ronghua Liang, Si Liu
📄 中文摘要:
本文提出了一种名为密集对象匹配与精炼(DOMR)的框架,用于在自视角(第一人称)和外视角(第三人称)视图之间建立密集对象对应关系,这对视觉理解至关重要但充满挑战。研究背景源于随着具身智能和虚拟现实的快速发展,跨视图对象对应成为一个关键研究方向,旨在通过匹配和整合不同视角的信息,使具身代理或用户能够感知周围环境。现有方法往往忽略了周围对象的上下文关系,导致在复杂场景中匹配模糊,尤其是在多个相似对象同时出现时。DOMR框架通过密集对象匹配器(DOM)模块为核心,联合建模多个对象,利用视觉、空间和语义线索,显式构建对象间关系以实现密集匹配,而非直接将单个对象掩码与图像特征匹配。此外,DOMR结合了掩码精炼(MR)模块,通过优化跨视图一致性提高预测掩码的完整性和准确性。在Ego-Exo4D基准数据集上的广泛评估表明,DOMR在Ego→Exo和Exo→Ego任务上分别取得了49.7%和55.2%的平均IoU,超越先前方法5.8%和4.3%,达到了最先进的性能。研究还通过消融实验验证了各模块的有效性,证明了密集匹配设计和混合匹配策略在提升匹配精度方面的显著作用。作者认为,尽管自视角-外视角对应任务尚属新兴领域,但DOMR提供了一个强大、全面且可重复的基线方法,将激励未来在该方向的研究。
跨视图对象对应密集对象匹配分割自视角-外视角掩码精炼
对抗性公平多视图聚类
📝 作者: Mudi Jiang, Jiahui Zhou, Lianyu Hu, Xinying Liu, Zengyou He, Zhikui Chen
📄 中文摘要:
本文提出了一种对抗性公平多视图聚类(AFMVC)框架,旨在解决多视图聚类中公平性问题。研究背景源于多视图聚类在数据挖掘和机器学习中的重要性及其在整合多源信息方面的优势,但现有方法往往忽视了公平性这一关键问题,尤其是在以人为中心的应用中。传统的公平性研究多通过对聚类分配施加显式正则化来实现,但这种方法依赖于敏感属性与潜在聚类结构的对齐假设,在实践中常导致聚类性能下降。AFMVC通过将公平性学习融入表示学习过程,采用对抗性训练从学习特征中去除敏感属性信息,确保聚类分配不受其影响。具体方法包括使用自编码器提取多视图特征,并通过对抗性目标作为公平性损失,结合梯度反转层抑制敏感信息,同时优化重建损失、聚类损失和公平性损失的组合。理论分析证明,通过KL散度将视图特定的聚类分配与公平不变的一致性分布对齐,可以在不显著损害公平性的前提下保持聚类一致性。实验结果表明,在具有公平性约束的数据集上,AFMVC在公平性和聚类性能方面均优于现有的多视图聚类和公平性感知聚类方法,验证了其在提升公平性同时维持竞争性聚类质量的有效性。未来研究方向包括处理不平衡敏感属性分布、噪声标签及异常值等挑战场景,以及扩展至不完整多视图数据的情形。
多视图聚类公平性聚类无监督学习对抗性训练数据挖掘
弥合扩散模型与3D表示:一个3D一致性超分辨率框架
📝 作者: Yi-Ting Chen, Ting-Hsuan Liao, Pengsheng Guo, Alexander Schwing, Jia-Bin Huang
📄 中文摘要:
本文提出了一种新颖的3D超分辨率框架(3DSR),基于3D高斯溅射(Gaussian Splatting)技术,结合现成的基于扩散的2D超分辨率模型,以提升3D场景表示的分辨率和一致性。研究背景源于当前3D表示学习(如神经辐射场NeRF和高斯溅射)在新型视图合成(NVS)中的成功,但其受限于输入图像分辨率,导致合成图像缺乏细节。传统的图像超分辨率(ISR)和视频超分辨率(VSR)方法在多视图一致性上存在不足,扩散模型虽在图像生成中表现出色,但缺乏3D几何理解,易导致跨视图不一致。本文通过显式的3D高斯溅射场景表示,强制实现跨视图的3D一致性,提出了一种无需额外微调即可提升视觉质量的方法。主要方法包括利用扩散模型生成高质量细节,同时通过3D表示确保多视图一致性,具体流程涉及低分辨率图像输入、扩散模型超分辨率处理、3D高斯溅射渲染及一致性优化。实验在MipNeRF360和LLFF数据集上进行,采用PSNR、SSIM、LPIPS等多种指标评估,结果表明3DSR在感知质量、几何一致性和渲染保真度上均优于现有技术,如StableSR、DiSR-NeRF和SuperGaussian。关键发现是该方法显著减少了3D不一致性伪影,保留了高频纹理和结构完整性。结论指出,3DSR成功结合扩散模型与3D表示,为3D场景超分辨率提供了一种高效且一致性强的新途径,具有广泛应用潜力。
3D超分辨率扩散模型3D高斯溅射多视图一致性新型视图合成
DET-GS:用于高保真3D高斯泼溅的深度与边缘感知正则化方法
📝 作者: Zexu Huang, Min Xu, Stuart Perry
📄 中文摘要:
本文提出了一种名为DET-GS的深度与边缘感知正则化框架,旨在提升3D高斯泼溅(3D Gaussian Splatting, 3DGS)在稀疏视图条件下的几何精度和视觉保真度。研究背景聚焦于3D重建与新视图合成领域中,现有方法在稀疏视图下几何重建精度不足的问题,尤其是在深度估计噪声和语义边界处理上的局限性。DET-GS通过三个创新点解决这些问题:首先,引入分层几何深度监督策略,通过多尺度几何一致性约束和容错机制,显著提升结构保真度和对深度噪声的鲁棒性;其次,设计基于Canny边缘检测的边缘感知深度正则化方法,利用语义掩码选择性地平滑非边界区域,保留场景中的关键几何边界;最后,提出RGB引导的边缘保留总变差损失函数,在均匀区域施加平滑约束的同时严格保护高频细节和纹理。实验结果表明,DET-GS在多个稀疏视图新视图合成基准数据集(如Mip-NeRF 360、Tanks & Temples等)上,相比现有最先进方法,在几何精度和视觉质量上均取得显著提升。消融研究进一步验证了各组件的有效性,强调了分层深度监督和边缘感知正则化的重要性。结论指出,DET-GS为高保真3D场景重建提供了一种鲁棒且有原则的解决方案,特别是在稀疏视图约束下展现出优越性能,标志着点基渲染中几何引导的重要进步。
3D高斯泼溅深度正则化边缘感知新视图合成3D重建
MuGS:多基线通用高斯分割重建
📝 作者: Yaopeng Lou, Liao Shen, Tianqi Liu, Jiaqi Li, Zihao Huang, Huiqiang Sun, Zhiguo Cao
📄 中文摘要:
本文提出了一种名为多基线高斯分割(MuRF)的通用前馈方法,用于新视图合成,能够有效处理包括稀疏输入视图在内的小基线和大基线等多种基线设置。研究背景在于新视图合成技术在计算机视觉领域的重要性,尤其是在处理复杂场景和多样化视角时的挑战。作者通过整合多视图立体视觉(MVS)和单目深度估计(MDE)的特征,增强了特征表示能力,从而实现通用的重建效果。此外,提出了一种投影与采样机制,用于深度融合,构建精细的概率体积以指导特征图的回归。同时,引入了参考视图损失函数,以提升几何精度和优化效率。研究采用3D高斯表示方法,加速了训练和推理过程,同时提高了渲染质量。实验结果表明,MuRF在多种基线设置和场景(从简单的DTU对象到复杂的RealEstate10K室内外场景)中均达到了最先进的性能。此外,在LLFF和Mip-NeRF 360数据集上,MuRF展现了出色的零样本性能。结论指出,MuRF在处理多基线视图合成任务时具有显著的优势,为未来的计算机视觉研究提供了重要的技术支持。
新视图合成多基线高斯分割深度融合计算机视觉
辐射场在XR中的应用:关于辐射场如何被设想和解决于XR研究的综述
📝 作者: Ke Li, Mana Masuda, Susanne Schmidt, Shohei Mori
📄 中文摘要:
辐射场(Radiance Fields, RF)的发展,如3D高斯溅射(3D Gaussian Splatting, 3DGS)和神经辐射场(Neural Radiance Fields, NeRF),彻底改变了交互式逼真视图合成的技术,为扩展现实(XR)研究和应用带来了巨大机遇。然而,尽管RF研究呈指数级增长,其对XR社区的贡献仍然稀疏。为了更好地理解这一研究差距,本文对当前的RF文献进行了系统性综述,分析了以下三个方面:(i)RF如何被设想用于XR应用;(ii)RF在XR中已被如何实现;(iii)仍存在的关键研究空白。作者从计算机视觉、计算机图形学、机器人学、多媒体、人机交互以及XR社区中收集了365篇与XR相关的RF研究贡献,旨在回答上述研究问题。在这365篇论文中,作者对其中66篇已详细探讨RF在XR研究中具体方面的论文进行了深入分析。通过本次综述,作者扩展并定位了XR特定的RF研究主题在更广泛的RF研究领域中的地位,为XR社区提供了一个有用的资源,帮助其在RF研究的快速发展中找到方向。研究发现,尽管RF技术在视图合成和3D建模方面展现出巨大潜力,但在XR应用中的实际落地仍面临诸多挑战,如实时性、计算效率以及与XR设备的兼容性等问题。此外,现有研究多集中于技术开发,而对用户体验和交互设计的关注不足。作者呼吁未来研究应更加聚焦于RF与XR的深度融合,探索其在教育、娱乐和工业应用中的潜力,并解决当前的技术瓶颈,以推动XR领域的进一步发展。
辐射场扩展现实神经辐射场3D高斯溅射视图合成
RotatedMVPS:基于旋转自然光的多视图光度立体成像
📝 作者: Songyun Yang, Yufei Han, Jilong Zhang, Kongming Liang, Peng Yu, Zhaowei Qu, Heng Guo
📄 中文摘要:
多视图光度立体成像(MVPS)旨在从不同视角和光照条件下捕获的图像中恢复高保真的表面形状和反射特性。然而,现有的MVPS方法通常需要在受控的暗室环境中实现光照变化,或者忽略了反射特性和光照属性的恢复,这限制了其在自然光照场景及下游逆向渲染任务中的应用。本文提出了一种名为RotatedMVPS的新方法,用于在旋转自然光条件下实现形状和反射特性的恢复。通过使用实用的旋转平台,我们的方法确保了不同相机和物体姿态下的光照一致性,从而减少了复杂环境光带来的未知变量。此外,我们将基于学习的单视图光度立体成像方法的先验数据集成到MVPS框架中,显著提升了形状和反射特性恢复的精度。在合成数据集和真实世界数据集上的实验结果均验证了我们方法的有效性。RotatedMVPS不仅克服了传统MVPS方法对受控光照环境的依赖,还在自然光条件下实现了高质量的表面重建和反射特性估计,为计算机视觉领域的逆向渲染和三维重建任务提供了新的解决方案。研究表明,该方法在处理复杂光照条件下的多视图数据时具有较高的鲁棒性和实用性,为未来的相关研究奠定了基础。
多视图光度立体成像旋转自然光表面形状恢复反射特性计算机视觉
4DVD:用于高质量4D内容生成的级联密集视图视频扩散模型
📝 作者: Shuzhou Yang, Xiaodong Cun, Xiaoyu Li, Yaowei Li, Jian Zhang
📄 中文摘要:
本文提出了一种名为4DVD的级联视频扩散模型,用于生成高质量的4D内容。针对直接生成高维数据(如4D)的复杂性,4DVD通过解耦的方式将任务分为两个子任务:粗糙多视图布局生成和结构感知条件生成,并有效统一两者。具体而言,给定一段单目视频,4DVD首先预测其密集视图布局内容,展现出卓越的跨视图和时间一致性。基于生成的布局先验,开发了一个结构感知的时空生成分支,将粗糙的结构先验与输入单目视频的精致外观内容相结合,最终生成高质量的密集视图视频。通过这种方法,可以精确优化显式4D表示(如4D高斯),从而实现更广泛的实际应用。为了训练4DVD,作者从Objaverse基准测试中收集了一个动态3D对象数据集D-Objaverse,并为每个对象渲染了16个包含21帧的视频。大量实验表明,4DVD在新型视图合成和4D生成方面均取得了最先进的性能。研究结果不仅展示了模型在生成一致性和质量上的显著优势,还为4D内容生成领域提供了新的技术路径和应用潜力。作者还提供了项目页面(https://4dvd.github.io/)以供进一步探索和验证。
4D内容生成视频扩散模型多视图一致性结构感知生成计算机视觉
Surf3R:从稀疏RGB视图中快速重建表面,仅需数秒
📝 作者: Haodong Zhu, Changbai Li, Yangyang Ren, Zichao Feng, Xuhui Liu, Hanlin Chen, Xiantong Zhen, Baochang
📄 中文摘要:
当前的多视图三维重建方法依赖于精确的相机标定和姿态估计,需要复杂且耗时的预处理步骤,这限制了其实际应用。为了解决这一挑战,本文提出了一种名为Surf3R的端到端前馈方法,该方法无需估计相机姿态即可从稀疏视图中重建三维表面,整个场景的重建过程可在10秒内完成。Surf3R采用了一种多分支多视图解码架构,其中多个参考视图共同指导重建过程。通过分支处理、跨视图注意力机制以及分支间融合,模型能够有效捕捉互补的几何线索,而无需相机标定。此外,本文引入了一种基于显式三维高斯表示的D-Normal正则化器,用于表面重建。该正则化器将表面法向量与其他几何参数耦合,联合优化三维几何形状,显著提升了三维一致性和表面细节的精度。实验结果表明,Surf3R在ScanNet++和Replica数据集上的多项表面重建指标中取得了最先进的性能,展现出优异的泛化能力和效率。研究表明,该方法在无需复杂预处理的情况下,依然能够实现高质量的三维重建,为实时应用场景提供了新的可能性。作者通过创新的架构设计和正则化技术,成功克服了传统方法对相机姿态估计的依赖,为计算机视觉和三维重建领域提供了重要的技术进步。
三维重建稀疏视图表面重建计算机视觉端到端方法
伪深度与高斯结合:一种前馈RGB SLAM基线方法
📝 作者: Linqing Zhao, Xiuwei Xu, Yirui Wang, Hao Wang, Wenzhao Zheng, Yansong Tang, Haibin Yan, Jiwen Lu
📄 中文摘要:
从无姿态的RGB视频流中逐步恢复真实尺寸的3D几何结构是3D重建领域的一项挑战性任务,对输入数据的要求极低。现有方法主要分为端到端方法和基于视觉SLAM的方法,但这些方法在处理长序列时表现不佳,或依赖于耗时的测试时优化和深度传感器。为解决这一问题,本文首先将深度估计器集成到RGB-D SLAM系统中,但发现预测深度中的几何细节不准确限制了效果。通过进一步研究,作者发现3D高斯映射能够有效解决这一问题。在此基础上,本文提出了一种基于3D高斯SLAM的在线3D重建方法,并结合前馈循环预测模块,通过光流直接推断相机姿态。该方法用快速的网络推理替代了缓慢的测试时优化,显著提高了跟踪速度。此外,本文还引入了一种局部图渲染技术,以增强前馈姿态预测的鲁棒性。在Replica和TUM-RGBD数据集上的实验结果以及真实世界部署的演示表明,该方法在性能上与最先进的SplaTAM相当,同时将跟踪时间缩短了超过90%。这一研究为RGB流的无姿态3D重建提供了一种高效且实用的解决方案,具有重要的应用潜力。作者通过结合深度估计、3D高斯映射和前馈预测,成功克服了传统方法的局限性,为视觉SLAM领域提供了新的研究方向。结论表明,该方法在保持高精度的同时大幅提升了计算效率,适用于实时3D重建任务。
3D重建视觉SLAM3D高斯映射前馈预测RGB流
OmniDepth:通过潜在对齐桥接单目和立体推理
📝 作者: Tongfan Guan, Jiaxin Guo, Chen Wang, Yun-Hui Liu
📄 中文摘要:
单目和立体深度估计各有优势:单目方法能够捕捉丰富的上下文先验,但缺乏几何精度;而立体方法利用了极线几何,却在处理反射或无纹理表面时面临模糊性问题。尽管存在一些后期的协同方法,但这两种范式在实践中仍然是割裂的。本文提出了OmniDepth,一个统一的框架,通过迭代的双向潜在表示对齐,将单目和立体深度估计结合起来。其核心是一种新颖的跨注意力对齐机制,在立体推理过程中动态同步单目上下文线索与立体假设表示。这种相互对齐通过注入单目结构先验来解决立体模糊性问题(如镜面表面),同时在一个单一网络内利用立体几何精炼单目深度。广泛的实验表明,OmniDepth取得了最先进的结果:在Middlebury和ETH3D数据集上,零样本泛化误差降低了超过40%,同时解决了透明和反射表面上的长期失败问题。通过协调多视图几何与单目上下文,OmniDepth实现了超越特定模态限制的鲁棒3D感知能力。本研究的代码已公开,展示了其在深度估计领域的应用潜力。
深度估计单目推理立体推理潜在对齐计算机视觉
PixCuboid:基于多视图特征度量对齐的房间布局估计
📝 作者: Gustav Hanning, Kalle {\AA}str\"om, Viktor Larsson
📄 中文摘要:
本文提出了一种名为PixCuboid的优化方法,用于估计立方体形状的房间布局,重点解决粗糙房间布局估计问题,为许多下游任务提供重要的几何线索。当前最先进的方法主要基于单视图,并且通常假设使用全景图像,而PixCuboid通过多视图对齐密集深度特征,突破了这一限制。该方法通过端到端的优化训练,学习生成具有较大收敛盆地和平滑损失景观的特征图,从而在对齐过程中表现出更高的鲁棒性和准确性。此外,PixCuboid允许使用简单的启发式方法初始化房间布局,降低了计算复杂性。研究表明,该方法在多视图场景下能够有效捕捉房间的几何结构,显著提升布局估计的精度。关键发现包括:通过多视图特征对齐,PixCuboid在复杂室内环境中表现出优于单视图方法的性能,尤其是在视角受限或遮挡较多的情况下。作者还验证了特征图优化对最终结果的影响,证明了平滑损失景观对快速收敛的重要性。总之,PixCuboid为室内布局估计提供了一种新颖且高效的解决方案,可能对室内导航、增强现实和机器人技术等领域产生积极影响。结论指出,该方法在实际应用中具有较强的适应性,未来可进一步扩展到非立方体形状的布局估计以及动态环境中的实时应用。
房间布局估计多视图对齐深度特征计算机视觉优化方法
BEVCon:通过对比学习推进鸟瞰视图感知
📝 作者: Ziyang Leng, Jiawei Yang, Zhicheng Ren, Bolei Zhou
📄 中文摘要:
本文提出了BEVCon,一种简单而有效的对比学习框架,旨在提升自动驾驶中的鸟瞰视图(BEV)感知能力。BEV感知通过自上而下的视角表示周围环境,对于3D目标检测、分割和轨迹预测等任务至关重要。现有研究主要集中于优化BEV编码器和任务特定的头部网络,而本文则聚焦于BEV模型中表征学习的未充分探索潜力。BEVCon引入了两个对比学习模块:实例特征对比模块,用于优化BEV特征;以及视角对比模块,用于增强图像主干网络。通过在检测损失之上设计的密集对比学习,BEVCon显著改进了BEV编码器和主干网络的特征表征能力。在nuScenes数据集上的广泛实验表明,BEVCon实现了持续的性能提升,相较于最先进的基线方法,平均精度均值(mAP)提高了高达2.4%。研究结果强调了表征学习在BEV感知中的关键作用,并为传统的任务特定优化提供了互补的研究方向。本文通过创新的对比学习方法,不仅提升了自动驾驶感知系统的精度,也为未来的研究提供了新的思路,尤其是在如何通过表征学习进一步优化复杂视觉任务方面具有重要意义。
鸟瞰视图感知对比学习自动驾驶3D目标检测特征表征
VISO-Grasp:基于视觉-语言的空间物体中心6自由度主动视图规划与抓取
📝 作者: Yitian Shi, Di Wen, Guanqi Chen, Edgar Welte, Sheng Liu, Kunyu Peng, Rainer Stiefelhagen, Rania Rayy
📄 中文摘要:
本文提出了一种名为VISO-Grasp的新型视觉-语言信息系统,旨在系统性地解决严重遮挡环境下的抓取可见性约束问题。该系统利用基础模型(Foundation Models, FMs)进行空间推理和主动视图规划,构建并更新以实例为中心的空间关系表示,从而在具有挑战性的遮挡条件下显著提升抓取成功率。此外,这种表示方法支持主动的下一最佳视图(Next-Best-View, NBV)规划,并在直接抓取不可行时优化顺序抓取策略。研究还引入了一种多视图不确定性驱动的抓取融合机制,能够实时优化抓取置信度和方向不确定性,确保抓取执行的鲁棒性和稳定性。大量真实世界实验表明,VISO-Grasp在目标导向抓取任务中取得了87.5%的成功率,并且以最少的抓取尝试次数超越了基线方法。据作者所知,VISO-Grasp是首个将基础模型集成到目标感知的主动视图规划和6自由度抓取的统一框架,适用于严重遮挡甚至完全不可见的环境。代码已公开,链接为:https://github.com/YitianShi/vMF-Contact。本研究为机器人抓取任务在复杂环境下的应用提供了重要的技术支持,并展示了视觉-语言模型在机器人感知与操作中的潜力。
视觉-语言模型主动视图规划6自由度抓取遮挡环境机器人操作
DivCon-NeRF:少样本NeRF的多样性和一致性光线增强方法
📝 作者: Ingyun Lee, Jae Won Jang, Seunghyeon Seo, Nojun Kwak
📄 中文摘要:
神经辐射场(NeRF)在新型视图合成中表现出色,但其需要大量多视图图像作为输入,这在少样本场景下限制了其实用性。为了缓解稀疏训练数据导致的过拟合问题,研究者提出了光线增强方法,通过生成额外光线来扩充训练数据。然而,现有方法仅在原始光线附近生成增强光线,由于视角有限以及附近障碍物和复杂表面的遮挡,导致光线不一致,进而产生明显的漂浮物和外观失真。为解决这些问题,本文提出了DivCon-NeRF方法,通过引入基于球体的光线增强策略,显著提升了光线的多样性和一致性。该方法以预测的表面点为中心构建虚拟球体,从360度全方向生成多样化的增强光线,并通过一致性掩码有效过滤不一致的光线。此外,本文设计了定制的损失函数,利用这些增强光线有效减少漂浮物和视觉失真。实验结果表明,DivCon-NeRF在Blender、LLFF和DTU数据集上的表现优于现有的少样本NeRF方法。同时,该方法展现出较强的泛化能力,能够与基于正则化和框架的少样本NeRF方法有效集成。作者表示相关代码将公开发布,为后续研究提供支持。本研究为少样本场景下的NeRF应用提供了重要的技术改进,具有较高的学术价值和应用潜力。
神经辐射场少样本学习光线增强视图合成一致性掩码
鲁棒的照片级手势生成:从单视图到多视图
📝 作者: Qifan Fu, Xu Chen, Muhammad Asad, Shanxin Yuan, Changjae Oh, Gregory Slabaugh
📄 中文摘要:
高保真手势生成是人类中心生成任务中的一大挑战。传统方法通常依赖单视图网格渲染图像作为先验来提升手势生成质量,但由于手势的空间复杂性以及单视图渲染的固有局限性,特别是在手指被遮挡时,难以捕捉完整的手势信息。核心矛盾在于通过2D投影丢失了3D拓扑关系,以及单视图表示的空间覆盖不完整。本研究提出了一种多视图先验框架——多模态UNet特征编码器(MUFEN),以指导扩散模型学习全面的3D手部信息。具体而言,研究扩展了传统的正面视图渲染,增加了背面、左侧、右侧、顶部和底部的视角,并选择信息最丰富的视图组合作为训练先验,以解决遮挡问题。这一多视图先验结合双流编码器显著提升了模型对完整手部特征的理解能力。此外,研究设计了一个边界框特征融合模块,将手势定位特征与多模态特征融合,进一步增强了MUFEN特征对手势相关特征的位置感知能力。实验结果表明,该方法在定量指标和定性评估中均取得了最先进的性能。源代码已公开于https://github.com/fuqifan/MUFEN。本研究为手势生成领域提供了一种创新的多视图解决方案,对解决单视图局限性具有重要意义,并为未来的3D生成任务奠定了基础。
手势生成多视图先验扩散模型3D拓扑关系特征融合
WAVE:基于单张图像的视图一致性新视图合成的扭曲引导方法
📝 作者: Jiwoo Park, Tae Eun Choi, Youngjun Jun, Seong Jae Hwang
📄 中文摘要:
本研究提出了一种基于单张图像生成高质量新视图的方法,重点解决视图一致性问题,即在不同视角下保持场景结构的一致性。近年来,扩散模型在新型视图合成领域取得了显著进展,但其在跨视图的空间连续性保持方面仍存在不足。传统方法常结合三维模型来解决这一问题,然而这些方法由于复杂的多步骤流程而效率低下。本文提出了一种无需额外模块即可增强扩散模型的新方法,核心创新在于通过视图引导的扭曲技术(warp-based view guidance)实现自适应注意力操控和噪声重新初始化,从而确保视图一致性。该方法无需训练即可直接应用于现有扩散模型,具有较高的通用性。通过针对新视图数据集设计的全面评估框架,研究表明该方法显著提升了多种扩散模型的视图一致性。实验结果验证了该方法在不同场景下的有效性,展示了其在单张图像新视图合成任务中的广泛适用性。作者还讨论了该方法的局限性及未来改进方向,例如在极端视角变化下的性能优化。总体而言,本研究为基于扩散模型的新视图合成提供了一种高效且实用的解决方案,对计算机视觉领域具有重要意义。
新视图合成视图一致性扩散模型视图引导单张图像
UFV-Splatter:适应不利视角的无姿态前馈3D高斯溅射框架
📝 作者: Yuki Fujimura, Takahiro Kushida, Kazuya Kitano, Takuya Funatomi, Yasuhiro Mukaigawa
📄 中文摘要:
本文提出了一种无姿态、前馈的3D高斯溅射(3DGS)框架,旨在处理不利输入视角的问题。传统的渲染设置通常将3D对象置于世界坐标原点,并从朝向原点的相机进行渲染,即所谓的有利视角。这种设置限制了前馈模型在现实世界中处理不同且未知相机姿态场景的适用性。为解决这一局限性,本文引入了一种新颖的适应框架,使预训练的无姿态前馈3DGS模型能够处理不利视角。通过将重新居中的图像输入到预训练模型中,并结合低秩适应(LoRA)层,本文利用了从有利图像中学习的先验知识。此外,提出了一种高斯适配器模块,以增强从重新居中输入中推导出的高斯几何一致性,并设计了一种高斯对齐方法,用于训练时渲染准确的目标视角。同时,本文还提出了一种新的训练策略,仅利用由有利图像组成的现成数据集进行训练。在Google Scanned Objects数据集的合成图像和OmniObject3D数据集的真实图像上的实验结果验证了该方法在处理不利输入视角方面的有效性。研究表明,该框架在保持渲染质量的同时,显著提升了模型对复杂视角的适应能力,为现实世界中的3D重建和渲染任务提供了重要的技术支持。最终,本文的方法为无姿态3D高斯溅射技术在更广泛应用场景中的推广奠定了基础。
3D高斯溅射无姿态渲染不利视角低秩适应几何一致性
通过模糊不确定性校准和视图级去偏增强多视图开放集学习
📝 作者: Zihan Fang, Zhiyong Xu, Lan Du, Shide Du, Zhiling Cai, Shiping Wang
📄 中文摘要:
现有的多视图学习模型在开放集场景中面临挑战,主要由于其隐含假设类别完整性,导致无法有效识别未知类别。此外,训练过程中形成的静态视图诱导偏差(即视图与标签之间的虚假关联)进一步降低了模型对未知类别的识别能力。本文提出了一种通过模糊不确定性校准和视图级去偏的多视图开放集学习框架。为模拟模糊样本,作者设计了一种新颖的合成策略O-Mix,生成具有校准开放集模糊不确定性的虚拟样本。这些样本通过辅助模糊感知网络进一步处理,该网络能够捕获非典型模式,从而提升开放集适应能力。此外,框架引入了基于HSIC的对比去偏模块,通过强制视图特定模糊表示与视图一致表示之间的独立性,促使模型学习更具泛化能力的特征。在多个多视图基准数据集上的广泛实验表明,所提出的框架在保持强大闭集性能的同时,持续提升了对未知类别的识别能力。研究背景聚焦于解决多视图学习在开放集场景中的局限性,主要方法包括模糊不确定性校准、虚拟样本合成以及对比去偏技术,关键发现是该框架在开放集和闭集任务中均表现出色,结论表明该方法为多视图学习提供了一种有效的解决方案,具有较强的实用性和推广潜力。
多视图学习开放集学习模糊不确定性视图去偏对比学习
GR-Gaussian:基于图的辐射高斯分割用于稀疏视图CT重建
📝 作者: Yikuang Yuluo, Yue Ma, Kuan Shen, Tongtong Jin, Wang Liao, Yangpu Ma, Fuquan Wang
📄 中文摘要:
三维高斯分割(3D Gaussian Splatting, 3DGS)作为一种新兴的CT重建方法,近年来受到广泛关注。然而,现有方法依赖于视图内点的平均梯度幅度,在稀疏视图条件下往往会导致严重的针状伪影。为解决这一问题,本文提出了GR-Gaussian,一种基于图的三维高斯分割框架,旨在抑制针状伪影并提升稀疏视图条件下的重建精度。该框架引入了两项关键创新:首先,提出了一种去噪点云初始化策略,通过减少初始化误差加速收敛过程;其次,开发了一种像素-图感知梯度策略,利用基于图的密度差异优化梯度计算,从而提高分割精度和密度表示能力。在X-3D数据集和真实世界数据集上的实验验证了GR-Gaussian的有效性,与现有方法相比,峰值信噪比(PSNR)分别提升了0.67 dB和0.92 dB,结构相似性指数(SSIM)分别提高了0.011和0.021。这些结果表明,GR-Gaussian在稀疏视图条件下的CT重建中具有较高的准确性和实用性,为医学影像处理领域提供了重要的技术支持。研究结论强调了该方法在挑战性场景下的应用潜力,并为未来的稀疏视图重建研究奠定了基础。
三维高斯分割稀疏视图CT重建针状伪影抑制去噪初始化像素图梯度