← 返回总览
23
论文总数
23
高分论文
8.0
平均评分
6
关键词数
使用视觉-语言模型从游戏视频中自动检索错误帧
📝 作者: Wentao Lu, Alexander Senchenko, Abram Hindle, Cor-Paul Bezemer
📄 中文摘要:
随着现代游戏工作室以快速节奏发布新版本和补丁,产生了数以千计的错误报告,其中许多报告嵌入了游戏视频。为了验证和分类这些错误报告,开发者必须观看提交的视频,这种手动审查过程劳动密集、速度慢且难以扩展。本研究提出了一种自动化流程,将每段视频简化为一个最能匹配所报告错误描述的单帧,为开发者提供即时的视觉证据,精准定位错误所在。研究背景源于游戏开发中错误报告处理的高成本和低效率问题,特别是在大规模项目中,人工审查视频的负担尤为显著。作者设计了一种基于视觉-语言模型的创新方法,通过结合视频帧的视觉特征和错误报告文本的语义信息,自动识别并提取与错误描述最相关的关键帧。主要方法包括利用预训练的视觉-语言模型对视频帧和文本描述进行联合嵌入表示,并通过相似性匹配算法筛选出最具代表性的帧。实验结果表明,该方法在多个游戏数据集上显著提高了错误定位的准确性和效率,相比人工审查节省了大量时间。关键发现包括:该自动化流程不仅能有效减少开发者工作量,还能在一定程度上提高错误分类的准确性,尤其是在复杂场景中。此外,研究还探讨了模型在不同类型错误报告中的适应性,指出其在某些特定错误(如图形渲染问题)上的表现尤为突出。结论认为,该技术为游戏开发中的错误处理提供了一种可扩展的解决方案,并具有推广至其他视频分析领域的潜力。然而,作者也指出当前方法的局限性,如对文本描述质量的依赖以及对某些动态错误的捕捉能力不足,未来工作将聚焦于改进模型的鲁棒性和动态分析能力。
视觉-语言模型游戏视频分析错误帧检索自动化错误处理人工智能
揭示多模态仇恨视频分类中的时间标签噪声
📝 作者: Shuonan Yang, Tailin Chen, Rahul Singh, Jiangbei Yue, Jianbo Jiao, Zeyu Fu
📄 中文摘要:
随着在线多媒体内容的快速增长,仇恨言论的传播日益加剧,给社会和监管带来了重大挑战。尽管近期在多模态仇恨视频检测方面取得了进展,但大多数方法依赖于粗粒度的视频级标注,忽略了仇恨内容的时间粒度。这种标注方式引入了大量的标签噪声,因为被标注为仇恨的视频往往包含较长的非仇恨片段。本研究通过细粒度方法探讨了这种标签模糊性的影响。具体而言,研究团队利用HateMM和MultiHateClip英文数据集中的标注时间戳,对仇恨视频进行剪辑,以分离出明确的仇恨片段。随后,对这些剪辑片段进行了探索性分析,考察了仇恨和非仇恨内容的分布与特征,揭示了粗粒度视频级标注所引入的语义重叠和混淆问题。此外,通过控制实验,研究发现时间戳噪声从根本上改变了模型的决策边界,并削弱了分类置信度,凸显了仇恨言论表达的上下文依赖性和时间连续性。本研究的发现为多模态仇恨视频的时间动态提供了新的见解,并强调了开发时间感知模型和基准测试的必要性,以提高模型的鲁棒性和可解释性。相关代码和数据已公开,供进一步研究使用。
多模态学习仇恨视频分类时间标签噪声语义重叠时间动态
视频亮点检测的测试时适应:基于元辅助学习和跨模态幻觉的方法
📝 作者: Zahidul Islam, Sujoy Paul, Mrigank Rochan
📄 中文摘要:
现有的视频亮点检测方法尽管技术先进,但在面对所有测试视频时往往难以泛化。这些方法通常为每个测试视频采用通用的亮点检测模型,但这种模型未能考虑单个测试视频的独特特性和变化,导致性能不佳。固定模型无法适应新颖、未见过的测试视频中多样化的内容、风格以及音频和视觉质量,从而降低了亮点检测的准确性。本文提出了一种名为Highlight-TTA的测试时适应框架,专门针对视频亮点检测设计,通过在测试过程中动态调整模型以更好地匹配每个测试视频的具体特性,从而提升泛化能力和亮点检测性能。Highlight-TTA结合辅助任务(跨模态幻觉)与主要亮点检测任务进行联合优化,采用元辅助训练方案,通过辅助任务实现有效适应,同时增强主要任务的表现。在测试阶段,利用辅助任务对测试视频进一步调整训练好的模型,以提升其亮点检测性能。通过与三种最先进的亮点检测模型和三个基准数据集的广泛实验,证明将Highlight-TTA引入这些模型能够显著提升其性能,取得了优越的结果。研究表明,Highlight-TTA框架在处理多样化视频内容时具有较强的适应性,为视频亮点检测领域提供了一种创新且有效的解决方案,具有重要的应用价值。
视频亮点检测测试时适应元辅助学习跨模态幻觉计算机视觉
TRKT:基于时间增强的关系感知知识迁移的弱监督动态场景图生成
📝 作者: Zhu Xu, Ting Lei, Zhimin Li, Guan Wang, Qingchao Chen, Yuxin Peng, Yang liu
📄 中文摘要:
动态场景图生成(DSGG)旨在为视频的每一帧构建场景图,通过检测对象并预测它们之间的关系。弱监督动态场景图生成(WS-DSGG)通过使用每段视频仅一帧的未定位场景图进行训练,减少了标注工作量。然而,现有的WS-DSGG方法依赖于现成的外部对象检测器生成伪标签用于后续训练,而这些检测器在静态、以对象为中心的图像上训练,难以适应DSGG所需的动态、关系感知场景,导致定位不准确和提议置信度低。为了解决外部对象检测器在WS-DSGG中的挑战,本文提出了一种时间增强的关系感知知识迁移(TRKT)方法,利用知识增强在关系感知动态场景中的检测能力。TRKT基于两个关键组件:(1)关系感知知识挖掘:首先采用对象和关系类别解码器生成类别特定的注意力图,突出对象区域和交互区域;然后提出一种帧间注意力增强策略,利用相邻帧的光流增强注意力图,使其具备运动感知能力并对运动模糊具有鲁棒性,从而实现关系和运动感知的知识挖掘;(2)双流融合模块:将类别特定的注意力图集成到外部检测中,优化对象定位并提升对象提议的置信度。大量实验表明,TRKT在Action Genome数据集上取得了最先进的性能,验证了其在弱监督动态场景图生成任务中的有效性。本文的代码已公开,展示了方法的可重复性和实用性。研究结果为动态场景理解和视频分析提供了新的视角和工具,具有重要的应用价值。
动态场景图生成弱监督学习关系感知知识迁移时间增强
CRAM:基于自举压缩的大规模视频持续学习
📝 作者: Shivani Mall, Joao F. Henriques
📄 中文摘要:
持续学习(Continual Learning, CL)旨在使神经网络能够从连续的输入流中学习,而非传统的独立同分布(IID)采样方式,后者需要对完整数据集进行随机访问。持续学习能够显著降低存储需求,并使部署系统能够自适应地应对自然分布变化,类似于生物学习机制。本研究聚焦于视频持续学习,采用基于排练(rehearsal)的策略,通过记忆缓冲区强化过去的样本。然而,视频持续学习在实际应用中面临挑战,部分原因在于视频数据的高存储需求,尤其是在处理长视频和持续流时,与常见的缓冲区大小限制相冲突。为解决这一问题,本文提出使用压缩视觉技术,即存储视频编码(嵌入)而非原始输入,并通过从滚动缓冲区中进行IID采样来训练视频分类器。由于在线训练视频压缩器(不依赖预训练网络)同样会遭受灾难性遗忘问题,本文提出了一种通过刷新视频编码来应对遗忘的方案,该方案需要使用网络的先前版本进行谨慎解压,并使用新版本重新压缩,称之为持续刷新非模态记忆(CRAM)。本文将当前视频持续学习基准扩展到大规模设置,包括EpicKitchens-100和Kinetics-700数据集,在不到2GB的存储空间内存储数千个较长视频。实验结果表明,CRAM方法在显著减少内存占用的同时,性能优于现有技术,为视频持续学习提供了有效的解决方案。研究不仅在技术上具有创新性,还为处理大规模视频数据提供了新的思路,可能对未来的持续学习系统设计产生重要影响。
持续学习视频分类压缩视觉灾难性遗忘大规模数据集
HAMoBE:基于视频的人员重识别的层次自适应生物特征专家混合框架
📝 作者: Yiyang Su, Yunping Shi, Feng Liu, Xiaoming Liu
📄 中文摘要:
近年来,人员重识别(ReID)的研究兴趣逐渐转向基于视频的场景,这对于在多样化和动态环境中实现稳健的监控和安全至关重要。然而,现有的基于视频的ReID方法往往忽视了从查询-库对中的两个视频中识别和选择最具区分性的特征以实现有效匹配的必要性。为解决这一问题,本文提出了一种新颖的层次自适应生物特征专家混合(HAMoBE)框架。该框架利用预训练大型模型(如CLIP)的多层特征,旨在模仿人类感知机制,通过独立建模关键生物特征——外观、静态体型和动态步态,并自适应地整合这些特征。具体而言,HAMoBE包含两个层次:第一层次从冻结的大型模型提供的多层表示中提取低级特征;第二层次由专注于长期、短期和时序特征的专业专家组成。为确保稳健的匹配,本文引入了一种新的双输入决策门控网络,该网络根据各专家与输入场景的相关性动态调整其贡献。广泛的基准测试(如MEVID)评估表明,该方法显著提升了性能(例如,Rank-1准确率提高了13.0%)。研究结果表明,HAMoBE框架在视频人员重识别任务中展现出强大的适应性和准确性,为动态环境下的监控系统提供了有效的解决方案。作者通过结合多层次特征和自适应专家机制,成功解决了传统方法在特征选择和匹配中的不足,为该领域的研究提供了新的思路和方法。
人员重识别视频分析生物特征自适应框架计算机视觉
PoseGen:基于上下文的LoRA微调用于姿态可控的长篇人类视频生成
📝 作者: Jingxuan He, Busheng Su, Finn Wong
📄 中文摘要:
生成具有精确主体身份和运动控制的长篇、时间连贯的视频是当前扩散模型面临的重大挑战,这些模型常常遭受身份漂移问题且局限于短视频片段。本研究提出了PoseGen,一种新颖的框架,能够从单一参考图像和驱动姿态序列生成特定主体的任意长度视频。其核心创新在于一种基于上下文的LoRA微调策略,该策略在令牌级别注入主体外观以保持身份一致性,同时在通道级别对姿态信息进行条件化以实现精细的运动控制。为了克服视频时长限制,PoseGen率先采用了一种交错分段生成方法,通过共享KV缓存机制和专门的过渡过程无缝拼接视频片段,确保背景一致性和时间平滑性。PoseGen在仅33小时的视频数据集上进行训练,广泛的实验表明,其在身份保真度、姿态准确性以及生成无限长度无伪影连贯视频的独特能力方面,显著优于现有最先进方法。研究结果展示了PoseGen在长篇视频生成领域的突破性潜力,为基于扩散模型的视频生成技术提供了新的解决方案,同时也为个性化内容创作和虚拟现实应用开辟了新的可能性。作者通过创新的模型设计和高效的训练策略,成功解决了传统方法在长视频生成中的关键瓶颈,为未来的研究奠定了坚实基础。
长视频生成姿态控制LoRA微调身份保真扩散模型
TUB手语语料库集合
📝 作者: Eleftherios Avramidis, Vera Czehmann, Fabian Deckert, Lorenz Hufe, Aljoscha Lipski, Yuni Amaloa Quin
📄 中文摘要:
本文介绍了一个包含12种手语的并行视频语料库集合,并附带相应国家主导口语的字幕。该集合总计超过1300小时的视频内容,包含4381个视频文件,并配有130万个字幕,涵盖1400万个词元。尤为值得注意的是,该集合首次为8种拉丁美洲手语提供了统一的并行语料库,同时德国手语语料库的规模是先前可用语料库的十倍。这一语料库集合通过从多种在线资源(主要是新闻节目、政府机构和教育频道的广播材料)收集和处理多种手语视频而创建。准备工作涉及多个阶段,包括数据收集、通知内容创作者并寻求使用许可、数据抓取和裁剪等。本文提供了该集合的统计数据,并概述了用于收集数据的方法。这一语料库的构建为手语研究提供了宝贵的资源,有助于推动手语语言学、翻译技术以及手语教育的发展。通过对不同手语的并行分析,研究人员可以更好地理解手语的语法结构、语义表达以及跨文化差异。此外,该集合还为开发手语识别和翻译的自动化系统奠定了基础。作者强调,这一大规模、多样化的语料库将显著促进手语相关领域的学术研究和应用开发,尤其是在资源匮乏的拉丁美洲手语研究领域。结论指出,该语料库的公开可用性将为全球手语社区带来深远影响,并呼吁进一步扩展语料库的覆盖范围和深度。
手语语料库并行语料拉丁美洲手语德国手语语言学研究
平滑槽注意力迭代与递归
📝 作者: Rongzhen Zhao, Wenyan Yang, Juho Kannala, Joni Pajarinen
📄 中文摘要:
本文提出了一种名为SmoothSA的新方法,针对槽注意力(Slot Attention, SA)及其变体在对象中心学习(Object-Centric Learning, OCL)中的核心问题进行优化。SA通过迭代优化初始查询向量(通常迭代三次)来将图像中的对象聚合成对应的槽向量,而在视频处理中,这种聚合通过递归在帧间共享,首帧使用冷启动查询向量,非首帧则从前一帧的槽向量过渡。然而,冷启动查询向量缺乏样本特定线索,导致在图像或视频首帧上的聚合精度不足;同时,非首帧的查询向量已具有样本特定性,需要与首帧不同的转换方式。本文首次针对这些问题提出解决方案:(1)通过一个小型自蒸馏模块,在OCL内部为冷启动查询向量“预热”,利用输入特征的丰富信息平滑首帧的SA迭代;(2)通过区分首帧和非首帧的同质转换,分别采用完整迭代和单次迭代,平滑视频中所有帧的SA递归。广泛的实验在对象发现、识别及下游基准测试中验证了该方法的有效性。此外,进一步的分析直观地揭示了该方法如何平滑SA迭代和递归。本文的代码已在补充材料中提供。
槽注意力对象中心学习计算机视觉视频处理平滑迭代
当深度伪造检测遇上图神经网络:一种统一且轻量级的学习框架
📝 作者: Haoyu Liu, Chaoyu Gong, Mengke He, Jiate Li, Kai Han, Siqiang Luo
📄 中文摘要:
随着生成式视频模型的广泛应用,检测AI生成和篡改视频成为一项迫切挑战。现有检测方法往往由于依赖孤立的时空或频谱信息,难以泛化到不同类型的篡改,且通常需要大规模模型以获得较好性能。本文提出了一种轻量级的空间-频谱-时间图神经网络框架(SSTGNN),将视频表示为结构化图,从而能够在空间不一致性、时间伪影和频谱失真上进行联合推理。SSTGNN将可学习的频谱滤波器和时间差分建模融入基于图的架构中,更有效地捕捉细微的篡改痕迹。广泛的实验表明,SSTGNN在多个基准数据集上不仅在域内和跨域设置中取得了优越性能,还对未见过的篡改展现出强大的鲁棒性。值得注意的是,SSTGNN的参数量比最先进的模型减少了高达42.4倍,使其成为一种高度轻量化且可扩展的框架,适用于现实世界的部署。通过整合多维信息,SSTGNN为深度伪造检测提供了一种统一且高效的解决方案。本研究在提升检测精度和泛化能力的同时,显著降低了计算成本,为该领域未来的发展奠定了重要基础。
深度伪造检测图神经网络空间-频谱-时间轻量化框架视频篡改
MOSEv2:复杂场景下视频对象分割的更具挑战性的数据集
📝 作者: Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, S
📄 中文摘要:
视频对象分割(VOS)旨在对视频中指定的目标对象进行全程分割。尽管当前最先进的方法在DAVIS和YouTube-VOS等现有基准数据集上取得了令人印象深刻的性能(如J&F指标超过90%),但这些数据集主要包含显著、主导且孤立的对象,限制了其在现实场景中的泛化能力。为了推动VOS研究向更真实的环境迈进,之前引入了复杂视频对象分割数据集MOSEv1,以促进复杂场景下的VOS研究。在MOSEv1的基础上,本文提出了MOSEv2,一个显著更具挑战性的数据集,旨在进一步推动VOS方法在现实条件下的发展。MOSEv2包含5,024个视频,超过701,976个高质量掩码,涵盖200个类别中的10,074个对象。与前一代相比,MOSEv2引入了更高的场景复杂性,包括更频繁的对象消失与重现、严重的遮挡与拥挤、更小的对象,以及一系列新挑战,如恶劣天气(雨、雪、雾)、低光照场景(夜间、水下)、多镜头序列、伪装对象、非物理目标(阴影、反射)以及需要外部知识的场景等。本研究对20种代表性VOS方法在5种不同设置下进行了基准测试,观察到一致的性能下降。例如,SAM2在MOSEv1上的性能从76.4%下降到MOSEv2上的50.9%。此外,还评估了9种视频对象跟踪方法,发现类似性能下降,表明MOSEv2对多个任务都提出了挑战。这些结果表明,尽管现有数据集上精度较高,但当前VOS方法在现实世界的复杂性下仍面临困难。MOSEv2数据集已公开发布,可通过https://MOSE.video获取。
视频对象分割复杂场景数据集计算机视觉性能评估
ERDES:一个用于视网膜脱离和黄斑状态分类的眼科超声基准视频数据集
📝 作者: Pouyan Navard, Yasemin Ozkut, Srikar Adhikari, Elaine Situ-LaCasse, Josie Acu\~na, Adrienne Yarnish,
📄 中文摘要:
视网膜脱离(RD)是一种威胁视力的疾病,需要及时干预以保护视力。黄斑是否受累——即黄斑是否完整(macula-intact)或已脱离(macula-detached)——是决定视觉预后和治疗紧急性的关键因素。床旁超声(POCUS)作为一种快速、无创、成本效益高且易于获取的成像方式,在多种临床环境中广泛用于检测视网膜脱离。然而,由于医疗服务提供者缺乏专业知识,尤其是在资源有限的环境中,超声图像的解读受到限制。深度学习技术为自动化基于超声的视网膜脱离评估提供了可能性。然而,目前尚无可用于临床的机器学习超声算法来检测视网膜脱离,也未有研究针对视网膜脱离病例中使用超声评估黄斑状态——这是手术优先级排序的重要依据。此外,目前没有公开数据集支持基于超声视频片段的黄斑相关视网膜脱离分类。本研究引入了Eye Retinal DEtachment ultraSound(ERDES),这是首个公开访问的眼科超声视频数据集,标注了(i)视网膜脱离的存在与否,以及(ii)黄斑完整与黄斑脱离的状态。该数据集旨在促进开发和评估用于检测视网膜脱离的机器学习模型。研究还提供了使用多种时空卷积神经网络(CNN)架构的基准测试结果。所有视频片段、标签和训练代码均可在https://osupcvlab.github.io/ERDES/公开获取。本研究为视网膜脱离的自动化诊断奠定了基础,尤其是在资源有限的临床环境中具有重要应用潜力。
视网膜脱离黄斑状态眼科超声机器学习数据集
魔法修复:通过观看动态视频优化照片编辑
📝 作者: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
📄 中文摘要:
本文提出了一种生成模型,旨在将用户粗略编辑的图像转化为逼真的输出结果,同时遵循用户指定的布局。该方法能够从原始图像中转移细微细节并保留其部分特征,同时适应新布局定义的光照和上下文。研究的关键洞见在于,视频是完成这一任务的强大监督资源:物体和相机运动提供了大量关于世界如何随视角、光照和物理交互而变化的观察数据。作者构建了一个图像数据集,其中每个样本包含从同一视频中随机选择的时间间隔提取的源帧和目标帧。通过两种运动模型模拟测试时用户的编辑操作,将源帧向目标帧进行变形,并监督模型将变形后的图像转化为真实的地面真实值(ground truth),模型基于预训练的扩散模型构建。模型设计明确支持从源帧到生成图像的细微细节转移,同时紧密遵循用户指定的布局。研究表明,通过简单的分割和粗糙的二维操作,可以合成出忠实于用户输入的逼真编辑效果,同时处理光照协调和编辑对象间物理交互等二阶效应。实验结果验证了该方法在照片编辑中的有效性,特别是在保持图像真实感和一致性方面表现出色,为用户提供了便捷而高效的编辑工具。作者还讨论了该模型在实际应用中的潜力及其对未来图像编辑技术发展的启示,认为视频数据的使用为生成模型的训练提供了新的视角和可能性。
照片编辑生成模型视频监督细节转移光照协调
ReferEverything:迈向视频中可言及一切事物的分割
📝 作者: Anurag Bagchi, Zhipeng Bao, Yu-Xiong Wang, Pavel Tokmakov, Martial Hebert
📄 中文摘要:
本文提出了一种名为REM的框架,用于在视频中分割通过自然语言描述的广泛概念。该方法利用视频扩散模型在互联网规模数据上学习到的通用视觉-语言映射,通过在小规模参考对象分割数据集上进行微调来实现。研究的核心创新在于,通过将生成模型的目标从预测噪声转变为预测掩码潜变量,完整保留了生成模型的架构。由此产生的模型能够准确分割稀有和未见过的对象,尽管训练数据仅限于有限的类别。此外,该模型还能轻松泛化到非对象动态概念,如烟雾或雨滴,这一点在我们新提出的参考视频过程分割(Ref-VPS)基准测试中得到了验证。REM在领域内数据集(如Ref-DAVIS)上的表现与最先进方法相当,而在领域外数据集上的表现则领先高达12个IoU点,充分体现了生成式预训练的强大能力。研究还表明,视频生成技术的进步直接促进了分割性能的提升。REM框架不仅展示了视觉-语言模型在视频分割任务中的潜力,还为处理复杂动态场景提供了新的研究方向。作者通过实验验证了模型的鲁棒性和泛化能力,特别是在处理未见过类别和动态过程时表现出色。总之,本文为视频分割领域提供了一种创新且高效的解决方案,可能对未来的多模态理解和生成任务产生深远影响。
视频分割视觉-语言模型生成式预训练参考对象分割动态概念
面向可扩展新生儿筛查:非受控环境下的自动化一般运动评估
📝 作者: Daphn\'e Chopard, Sonia Laguna, Kieran Chin-Cheong, Annika Dietz, Anna Badura, Sven Wellmann, J
📄 中文摘要:
一般运动(GMs)是婴儿自发、协调的身体运动,对发育中的神经系统提供了宝贵见解。通过Prechtl一般运动评估(GMA)方法,GMs被认为是预测神经发育障碍的可靠指标。然而,GMA需要经过专门培训的临床医生,而这类专业人员数量有限。为了扩展新生儿筛查的规模,亟需一种算法能够从婴儿视频记录中自动分类GMs。这些数据带来了诸多挑战,包括记录时长、设备类型和环境的多样性,且每个视频仅对整体运动质量进行了粗略标注。本研究提出了一种从这些视频记录中提取特征的工具,并探索了多种机器学习技术用于自动化GM分类。通过对非受控环境下的视频数据进行分析,本研究开发了一种特征提取方法,能够适应不同的记录条件,并结合机器学习模型对GMs进行分类。研究结果表明,该方法在处理复杂数据时具有较高的准确性,为自动化评估提供了可行的解决方案。关键发现包括特定特征对分类效果的显著影响,以及不同机器学习模型在处理此类数据时的表现差异。结论指出,该自动化工具具有潜力显著提高新生儿筛查的效率,减少对专业临床医生的依赖,并为早期神经发育障碍的干预提供支持。未来研究可进一步优化算法以提高其在多样化环境中的鲁棒性,并验证其在更大规模临床应用中的有效性。
一般运动评估新生儿筛查自动化分类机器学习神经发育障碍
ESVQA:自视角空间视频的感知质量评估
📝 作者: Xilei Zhu, Huiyu Duan, Liu Yang, Yucheng Zhu, Xiongkuo Min, Guangtao Zhai, Patrick Le Callet
📄 中文摘要:
随着扩展现实(XR)技术的快速发展,自视角空间拍摄和显示技术显著提升了用户的沉浸感和参与度,为用户带来了更加引人入胜和互动性强的体验。评估自视角空间视频的体验质量(QoE)对于确保高质量的观看体验至关重要,然而相关研究仍显不足。本文引入了具身体验(embodied experience)的概念,强调这种更具沉浸感的体验,并研究了一个新问题,即自视角空间视频的具身感知质量评估。为此,我们构建了首个自视角空间视频质量评估数据库(ESVQAD),该数据库包含使用Apple Vision Pro设备拍摄的600个自视角空间视频及其对应的平均意见分数(MOS)。此外,我们提出了一种新颖的多维双目特征融合模型ESVQAnet,该模型整合了双目空间特征、运动特征和语义特征,以预测整体感知质量。实验结果表明,ESVQAnet在具身感知质量评估任务上显著优于16种最先进的视频质量评估(VQA)模型,并且在传统VQA任务上也展现出强大的泛化能力。数据库和代码已公开,网址为https://github.com/iamazxl/ESVQA。本研究为自视角空间视频质量评估提供了重要的数据资源和方法支持,对推动XR技术的发展和应用具有重要意义。
自视角空间视频感知质量评估扩展现实具身体验双目特征融合
FullTransNet:用于视频摘要的全Transformer架构与局部-全局注意力机制
📝 作者: Libin Lan, Lu Jiang, Tianshu Yu, Xiaojuan Liu, Zhongshi He
📄 中文摘要:
视频摘要旨在生成原始视频的紧凑、信息丰富且具有代表性的概要,这对于浏览、分析和理解视频内容至关重要。当前视频摘要的主流方法主要依赖于循环神经网络或卷积神经网络,近期也开始采用仅编码器的Transformer架构。然而,这些方法在并行性、建模长距离依赖关系以及提供显式生成能力方面存在诸多局限。为解决这些问题,本文提出了一种名为FullTransNet的类Transformer架构,包含两个核心创新点。首先,FullTransNet采用编码器-解码器结构的全Transformer作为视频摘要的替代架构。由于全Transformer专为序列转换任务设计,其直接应用于视频摘要既直观又有效。其次,该模型将标准的全注意力机制替换为局部和全局稀疏注意力机制的组合,使模型能够在显著降低计算成本的同时捕捉长距离依赖关系。局部-全局稀疏注意力机制仅在编码器端应用,这是计算量最大的部分,进一步提升了效率。在两个广泛使用的基准数据集SumMe和TVSum上的大量实验表明,FullTransNet分别取得了54.4%和63.9%的F分数,同时保持了较低的计算和内存需求。这些结果分别比第二好的方法高出0.1%和0.3%,验证了FullTransNet的有效性和高效性。研究结果表明,该模型在视频摘要任务中展现出显著的性能优势,为相关领域提供了新的技术思路和应用潜力。
视频摘要Transformer架构局部-全局注意力计算机视觉深度学习
通过对齐情感和时间边界生成视频配乐
📝 作者: Serkan Sulun, Paula Viana, Matthew E. P. Davies
📄 中文摘要:
本文提出了一种名为EMSYNC的基于视频的符号音乐生成模型,该模型能够将音乐与视频的情感内容和时间边界对齐。EMSYNC采用两阶段框架:首先,利用预训练的视频情感分类器提取情感特征;其次,条件音乐生成器根据情感和时间线索生成MIDI序列。研究引入了边界偏移量这一新颖的时间条件机制,使模型能够预测并对齐音乐和弦与场景切换的时间点。与现有模型不同,EMSYNC保留了基于事件的编码方式,确保了精细的时间控制和音乐表现力的细腻性。此外,作者还提出了一种映射方案,将生成离散情感类别的视频情感分类器与基于连续值效价-唤醒输入的情感条件MIDI生成器连接起来。通过主观听力测试,EMSYNC在所有主观指标上均优于现有最先进的模型,无论是对音乐理论有认知的参与者还是普通听众均表现出色。研究结果表明,EMSYNC在视频配乐生成领域具有显著的优势,为视频内容的情感表达和时间同步提供了创新解决方案。这一方法不仅提升了音乐与视频内容的情感一致性,还在音乐生成的时间精确性上取得了突破,为多媒体内容创作和人工智能音乐生成领域开辟了新的可能性。
视频配乐情感对齐时间边界符号音乐生成人工智能
RIFLEx:视频扩散变换器中长度外推的免费午餐
📝 作者: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
📄 中文摘要:
近年来,视频生成技术取得了显著进展,模型已能够合成高质量的长达一分钟的视频。然而,生成更长时间且具有时间一致性的视频仍然是一个重大挑战,现有的长度外推方法往往导致时间重复或运动减缓。本研究系统分析了位置嵌入中频率分量的作用,发现了一个主要控制外推行为的核心频率。基于这一洞察,本文提出了RIFLEx,一种简单而有效的方法,通过降低核心频率来抑制重复现象,同时保持运动一致性,且无需任何额外的模型修改。RIFLEx提供了一种真正的‘免费午餐’——以完全无需训练的方式,在最先进的视频扩散变换器上实现高质量的2倍长度外推。此外,通过最小的微调,RIFLEx还能提升生成质量并支持3倍长度外推,而无需依赖长时间视频数据。这一方法在视频生成领域展示了显著的实用性和创新性,为解决长视频生成中的时间一致性问题提供了新的思路。研究结果表明,RIFLEx不仅在技术上具有突破性,还为未来的视频生成模型设计提供了重要的理论支持。项目页面及代码已公开,供进一步研究和应用。
视频生成长度外推扩散变换器位置嵌入时间一致性
TIME:面向视频大语言模型的时序敏感多维度指令微调与鲁棒性基准测试
📝 作者: Yunxiao Wang, Meng Liu, Wenqi Liu, Xuemeng Song, Bin Wen, Fan Yang, Tingting Gao, Di Zhang, Guorui Z
📄 中文摘要:
视频大语言模型(Video-LLMs)在视频问答等任务中表现出色,但其对时序信息的理解能力仍显不足。为解决这一问题,本研究构建了一个专门的指令微调数据集,重点提升模型在五个关键维度上的时序理解能力。为了减少对昂贵时序标注的依赖,研究提出了一种多任务提示微调方法,将时序敏感任务无缝集成到现有指令数据集中,无需额外标注。此外,本文还开发了一个全新的时序敏感视频理解基准测试,不仅填补了现有基准测试在维度覆盖上的空白,还通过严格筛选消除了潜在的捷径问题,确保评估的准确性。大量实验结果表明,该方法显著提升了视频大语言模型的时序理解能力,同时有效避免了对捷径的依赖。研究背景方面,视频内容的复杂性和时序性对模型提出了更高要求,而现有模型在处理动态信息时常出现理解偏差。本研究通过创新的数据集设计和微调策略,针对性地优化了模型对时间相关信息的捕捉与推理能力。关键发现包括:经过微调的模型在时序任务上的表现大幅提升,尤其是在多维度时序推理中展现出更强的鲁棒性。结论指出,该方法为视频大语言模型的时序理解提供了一种高效且经济的解决方案,同时新基准测试为未来研究提供了可靠的评估工具。
视频大语言模型时序理解指令微调基准测试多任务学习
面向通用零样本合成低光图像和视频处理管道的研究
📝 作者: Joanne Lin, Crispian Morris, Ruirui Lin, Fan Zhang, David Bull, Nantheera Anantrasirichai
📄 中文摘要:
低光条件对人类和机器标注都构成了重大挑战,导致针对低光图像尤其是视频的机器理解研究不足。常见方法是将高质量数据集的标注应用于合成生成的低光版本,但这些方法往往因使用不真实的噪声模型而受到限制。本文提出了一种新的退化估计网络(Degradation Estimation Network, DEN),该网络能够在无需相机元数据的情况下合成逼真的标准RGB(sRGB)噪声。通过估算物理信息驱动的噪声分布参数,并以自监督方式进行训练,实现了这一零样本方法。我们的方法能够生成具有多样化真实噪声特性的合成噪声内容,不同于其他方法仅重现训练数据的噪声特性。我们使用基于合成数据的多种方法对所提出的合成管道进行了评估,针对典型的低光任务,包括合成噪声复制、视频增强和目标检测,分别实现了高达24%的KLD(Kullback-Leibler散度)、21%的LPIPS(Learned Perceptual Image Patch Similarity)和62%的AP$_{50-95}$(平均精度)的改进。研究结果表明,该方法在低光图像和视频处理领域具有显著的应用潜力,为解决低光条件下的机器理解问题提供了新的思路和工具。作者通过引入自监督学习和物理信息驱动的噪声模型,成功克服了传统方法在噪声真实性方面的局限性,为后续研究奠定了坚实基础。
低光图像视频处理噪声合成零样本学习自监督学习
从无标签视频中提取视觉计划:基于符号指导的方法
📝 作者: Wenyan Yang, Ahmet Tikna, Yi Zhao, Yuying Zhang, Luigi Palopoli, Marco Roveri, Joni Pajarinen
📄 中文摘要:
视觉计划通过为目标导向的低层次策略提供一系列中间视觉子目标,在长距离操作任务中取得了令人瞩目的表现。然而,现有方法通常依赖视频生成模型来获取子目标,面临模型幻觉和计算成本高昂的问题。本文提出了一种高效、可解释且白盒的视觉计划框架Vis2Plan,该框架通过符号指导实现。从原始无标签播放数据中,Vis2Plan利用视觉基础模型自动提取一组紧凑的任务符号,从而构建用于多目标、多阶段计划的高层次符号转换图。在测试阶段,给定一个期望的任务目标,Vis2Plan在符号层面进行计划,并基于底层的符号表示组装一系列物理一致的中间子目标图像。实验结果表明,Vis2Plan在真实机器人环境中比基于扩散视频生成的视觉计划方法表现出色,综合成功率提高了53%,同时生成视觉计划的速度快了35倍。研究表明,Vis2Plan能够生成物理一致的图像目标,同时提供完全可检查的推理步骤。这一方法不仅提升了视觉计划的效率和准确性,还通过符号指导增强了计划过程的可解释性,为长距离操作任务中的视觉计划提供了一种新的解决方案。作者通过在真实机器人环境中的广泛测试,验证了Vis2Plan在实际应用中的有效性和优越性,为未来的研究奠定了坚实基础。
视觉计划符号指导无标签视频机器人操作计算机视觉
DepthSync:基于扩散引导的深度同步方法用于尺度与几何一致的视频深度估计
📝 作者: Yue-Jiang Dong, Wang Zhao, Jiale Xu, Ying Shan, Song-Hai Zhang
📄 中文摘要:
基于扩散模型的视频深度估计方法在泛化能力方面取得了显著成功,但对长视频的深度预测仍面临挑战。现有方法通常将视频分割为重叠的滑动窗口进行处理,然而随着窗口数量的增加,不同窗口之间的尺度差异会逐渐累积,导致预测结果不一致。此外,这些方法仅依赖于二维扩散先验,忽略了视频深度固有的三维几何结构,从而导致几何不一致的预测结果。本文提出了一种名为DepthSync的新型无训练框架,通过扩散引导实现长视频深度预测的尺度和几何一致性。具体而言,我们引入了尺度引导机制以同步不同窗口之间的深度尺度,并通过几何引导机制基于视频深度的固有三维约束在窗口内部强制执行几何对齐。这两种引导机制协同工作,引导去噪过程生成一致的深度预测结果。在多个数据集上的实验验证了我们方法在长视频深度估计中的有效性,尤其是在提高尺度和几何一致性方面表现出色。研究结果表明,DepthSync能够显著改善现有方法的局限性,为视频深度估计提供了一种高效且一致的解决方案,具有重要的应用价值。
视频深度估计扩散模型尺度一致性几何一致性长视频处理