← 返回总览

计算机科学-模态与音频

2025-08-07 K-means智能聚类结果

聚类 24 • 机器学习算法识别
49 论文总数
49 高分论文
8.0 平均评分
6 关键词数

🔍 聚类关键词特征

模态音频视频视觉学习文本

多模态视频情感识别与可靠推理先验

ArXiv ID: 2508.03722
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Zhepeng Wang, Yingjian Zhu, Guanghao Dong, Hongzhu Yi, Feng Chen, Xinming Wang, Jun Xie
📄 中文摘要:
本研究探讨了如何将多模态大语言模型(MLLMs)中的可靠推理先验知识整合到多模态情感识别框架中,以提升视频情感识别的性能。研究背景源于近年来多模态融合和大型语言模型的快速发展,尽管MLLMs在通用任务上表现出强大的泛化能力,但在特定领域(如细粒度情感识别)中仍存在显著的领域差距。针对这一问题,本文提出了一种改进的多模态融合框架,利用Gemini模型生成细粒度的、可分离模态的推理轨迹,并将其作为先验知识注入到融合阶段,以丰富跨模态交互。同时,为解决多模态情感识别中的类别不平衡问题,研究引入了平衡双对比学习(Balanced Dual-Contrastive Learning, BDCL)损失函数,通过联合平衡类间和类内分布来优化模型性能。在MER2024基准数据集上的实验结果表明,该框架显著提升了识别性能,验证了MLLM推理先验的可靠性与轻量级融合网络的领域适应性之间的协同效应。具体方法包括:从MLLMs中提炼高级推理先验,融入轻量级多模态识别模型以增强泛化能力;采用两阶段训练策略(大规模半监督预训练和可靠先验引导微调)优化跨模态表示;通过BDCL策略解决标签不平衡问题,提升情感类别在特征空间中的可分性。关键发现包括:可靠先验不仅增强了多模态融合效果,还为模态特定特征优化提供了有力信号;与传统方法和基于LLM的方法相比,本文框架在各类情感识别场景中均表现出显著优势。结论指出,该方法为构建鲁棒、可扩展的情感识别系统提供了新思路。
视频情感识别多模态融合可靠推理先验对比学习类别不平衡
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的多模态融合框架,具有显著性能提升和潜在领域影响力。

从波形到像素:音频-视觉分割综述

ArXiv ID: 2508.03724
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Jia Li, Yapeng Tian
📄 中文摘要:
音频-视觉分割(AVS)是一项新兴的多模态感知研究领域,旨在通过结合视觉和音频模态来识别和分割视频中产生声音的对象。本文对AVS领域进行了全面综述,涵盖了问题定义、基准数据集、评估指标以及方法论的演进。研究背景表明,AVS通过深度学习技术实现了对场景的细粒度理解,在多媒体分析、人机交互和自主系统等领域具有广泛应用前景。文章分析了多种方法,包括单模态和多模态编码架构、音频-视觉融合的关键策略以及不同的解码器设计。此外,探讨了从全监督学习到弱监督学习和无训练方法的多种训练范式。通过对标准基准数据集上AVS方法的广泛比较,揭示了不同架构选择、融合策略和训练范式对性能的影响。关键发现包括:基于Transformer的视觉编码器显著优于传统CNN,早期和晚期融合结合的策略表现最佳,查询式融合策略在性能和稳定性上占据优势。然而,当前AVS仍面临诸多挑战,如时间建模不足、视觉模态偏见、复杂环境下的鲁棒性不足以及高计算需求。文章提出未来研究方向,包括改进时间推理和多模态融合、利用基础模型提升泛化能力和少样本学习、通过自监督和弱监督学习减少对标注数据的依赖,以及引入更高层次的推理以构建更智能的AVS系统。结论指出,AVS作为多模态学习的重要任务,尽管取得了显著进展,但仍需克服诸多技术障碍以实现更广泛的应用。
音频-视觉分割多模态学习音频-视觉融合深度学习时间建模
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文对AVS领域提供了全面而深入的综述,具有重要的学术价值和潜在的应用影响力。

多模态情感建模的特权对比预训练

ArXiv ID: 2508.03729
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Kosmas Pinitas, Konstantinos Makantasis, Georgios N. Yannakakis
📄 中文摘要:
本文提出了一种名为特权对比预训练(Privileged Contrastive Pretraining, PriCon)的框架,旨在解决情感计算(Affective Computing, AC)中从受控实验室环境(in-vitro)到现实世界环境(in-vivo)的情感模型转移难题。研究背景聚焦于深学习在情感计算领域的进步及其面临的挑战,即实验室条件下训练的模型在现实世界中的泛化能力不足。PriCon框架首先通过监督对比学习(Supervised Contrastive Learning, SCL)对教师模型进行预训练,随后在特权信息学习(Learning Using Privileged Information, LUPI)框架下将知识转移给学生模型。教师模型在训练时利用实验室中可用的多模态信号(如音频和生理信号),而学生模型仅依赖现实环境中可获取的模态(如视觉帧),从而提升模型的鲁棒性和泛化能力。实验在两个基准情感数据集RECOLA和AGAIN上进行,涵盖了不同的情感维度(唤醒度和效价)及任务(游戏和二元交互)。结果表明,采用PriCon训练的模型在性能上持续优于传统的LUPI和端到端模型,尤其是在许多情况下,PriCon模型的表现接近于在训练和测试阶段均可访问所有模态的模型。研究验证了两个假设:一是LUPI能够提升现实世界条件下的情感检测能力,二是PriCon进一步增强了LUPI模型在现实环境中的有效性。结论指出,PriCon框架为弥合实验室与现实世界情感建模之间的差距提供了可扩展且实用的解决方案,对多模态情感识别的实际应用具有重要意义。
情感计算特权信息对比学习唤醒度效价
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出PriCon框架,在情感计算领域具有重要创新,可能对现实应用产生较大影响。

揭露厌女症的本质:厌女迷因的分类与解释

ArXiv ID: 2508.03732
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Kushal Kanwar, Dushyant Singh Chauhan, Gopendra Vikram Singh, Asif Ekbal
📄 中文摘要:
本文提出了一种新颖的多模态方法MM-Misogyny,用于检测、分类和解释互联网迷因中的厌女内容。研究背景聚焦于社交媒体和在线平台上通过迷因传播的有害意识形态,特别是厌女症,这种现象通过看似无害的幽默图像和文本强化性别刻板印象,导致社会不平等和有害的在线环境。传统方法如关键词过滤和基于规则的检测无法捕捉多模态内容的细微差别,且缺乏解释性,难以帮助用户理解为何某些内容被认定为厌女。本研究通过分别处理文本和图像模态,利用Llama-3-8B和CLIP-ViT编码器提取语义特征,并通过跨注意力机制将两者融合为多模态上下文,随后使用分类器和大型语言模型(LLM)进行标注、分类和解释。研究还创建了一个新的数据集What’s Beneath Misogynous Stereotyping (WBMS),包含从网络空间收集的2130个厌女迷因,分为厨房、领导力、工作和购物四个类别。实验结果表明,MM-Misogyny在检测和分类厌女内容方面优于现有方法,特别是在结合多模态特征后,Llama 3与CLIP-ViT的组合在多模态厌女分类任务中取得了0.89的F1分数。此外,该框架不仅能识别厌女内容,还能提供详细的解释,增强了检测过程的透明度,有助于用户理解分类依据并促进关于性别歧视危害的建设性对话。研究结论强调多模态学习在处理隐含偏见和幽默中的重要性,并为未来的在线内容审核提供了新的基准。
厌女症检测多模态学习迷因分类大型语言模型性别平等
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的多模态框架,对在线厌女内容检测有重要影响,可能推动领域发展。

通过视觉变换器融合普遍性射频数据与空间图像以增强智慧城市中的地图绘制

ArXiv ID: 2508.03736
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Rafayel Mkrtchyan, Armen Manukyan, Hrant Khachatrian, Theofanis P. Raptis
📄 中文摘要:
本文提出了一种基于深度学习的方法,通过结合开源地图平台(如OpenStreetMap)可能存在误差的地图数据与从多个无线用户设备和基站收集的普遍性射频(RF)数据,利用DINOv2视觉变换器架构来改进智慧城市中的建筑物地图绘制。研究背景聚焦于智慧城市环境映射的挑战,传统方法如卫星图像、LiDAR扫描和人工标注在成本、 доступность 和准确性方面存在局限性,而开源地图数据常因人为错误和环境变化引入偏差。作者提出了一种统一的框架,使用视觉变换器同时处理射频和地图两种模态数据,有效捕捉空间依赖性和结构先验,从而提高地图绘制的准确性。研究使用华为公司联合制作的合成数据集WAIR-D进行评估,并通过引入受控噪声模拟现实世界条件。此外,开发并训练了一个仅利用聚合路径损耗信息的模型来解决映射问题。关键发现表明,该方法在宏观IoU(交并比)指标上达到了65.3%,显著优于错误地图基准(40.1%)、仅使用射频数据的方法(37.3%)以及设计的非AI融合基准(42.2%)。比较评估突显了单独依赖射频或空间数据的局限性,以及AI在数据融合以提升智慧城市地图绘制精度方面的有效性。结论指出,多模态数据融合能够显著提高环境重建的精度和鲁棒性,并为未来的研究方向提供了启示,如直接从OSM获取地图数据、结合真实射频数据以及探索多模态数据(如航空影像)的进一步融合。
智慧城市射频感知视觉变换器环境映射数据融合
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的多模态融合方法,对智慧城市地图绘制有重要影响。

GlaBoost:一种用于青光眼风险分层的多模态结构化框架

ArXiv ID: 2508.03750
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Cheng Huang, Weizheng Xie, Karanjit Kooner, Tsengdar Lee, Jui-Kai Wang, Jia Zhang
📄 中文摘要:
青光眼是一种导致不可逆失明的进行性视神经病变,早期准确诊断对于预防视力丧失至关重要。然而,现有方法多依赖单一模态数据且缺乏可解释性,限制了其临床应用价值。本文提出了一种名为GlaBoost的多模态梯度提升框架,用于青光眼风险预测。该框架整合了结构化临床特征、眼底图像嵌入以及专家撰写的文本描述,通过预训练的卷积编码器从视网膜眼底照片中提取高级视觉表征,并利用基于Transformer的语言模型对自由文本的神经视网膜边缘评估进行编码。这些异构信号结合手动评估的风险评分和定量眼科指标,通过增强的XGBoost模型融合到一个统一的特征空间进行分类。在两个真实标注数据集上的实验表明,GlaBoost显著优于基线模型,验证准确率达到98.71%。特征重要性分析揭示了与临床一致的模式,其中杯盘比、边缘苍白以及特定文本嵌入对模型决策贡献最大。研究背景显示,青光眼的复杂表现和异构诊断信息依赖使得传统AI方法在准确性和可解释性上存在不足,而GlaBoost通过多模态融合有效弥补了这一差距。其主要方法包括结构化特征提取、图像特征提取、文本特征提取以及多模态融合与分类四个阶段。关键发现表明,多模态数据的整合不仅提升了预测性能,还提供了对青光眼诊断的可解释性见解。结论指出,GlaBoost为自动化青光眼诊断提供了透明、可扩展且具有临床意义的解决方案,并可扩展至其他眼科疾病的诊断。
青光眼风险预测多模态学习梯度提升临床可解释性眼科AI
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: GlaBoost在青光眼诊断中展现重要创新,多模态融合提升准确性与可解释性,具有较大临床应用潜力。

SoilNet:一种用于土壤层级分类的多模态多任务模型

ArXiv ID: 2508.03785
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Teodor Chiaburu, Vipin Singh, Frank Hau{\ss}er, Felix Bie{\ss}mann
📄 中文摘要:
本文提出了一种名为SoilNet的多模态多任务模型,旨在解决土壤层级分类这一具有挑战性的问题。土壤层级分类对于监测土壤健康至关重要,直接影响农业生产力、粮食安全、生态系统稳定性和气候适应能力。然而,由于其多模态、多任务特性以及复杂的层级结构标签分类体系,传统方法难以实现准确分类。SoilNet通过一个结构化的模块化流程,整合图像数据和地理时间元数据,首先预测深度标记,将土壤剖面分割为层级候选区域;随后为每个分割区域提取特定的形态特征;最后基于多模态特征向量和基于图的标签表示方法预测层级标签,以捕捉土壤层级间复杂的层级关系。该模型针对类别不平衡和大规模非平凡结构化标签空间设计,展现了在真实土壤剖面数据集上的有效性。研究背景强调了土壤健康对生态系统和人类福祉的重要性,以及现代压力(如污染和气候变化)对土壤质量的威胁,凸显了开发可扩展、可靠的土壤监测方法的迫切性。主要方法包括将分类任务分解为三个阶段:分割、形态特征预测和层级分类,并通过端到端训练框架整合多模态输入和图嵌入技术。关键发现表明,SoilNet在联合优化多任务设置下的预测性能优于独立训练的模块,尤其在层级符号分类任务中表现突出,同时证明了通用大型语言模型在特定领域问题上的局限性。结论指出,SoilNet不仅在技术上有所贡献,还提高了对土壤建模重要性的认识,为可持续生态系统和农业生产提供了支持。未来工作计划包括开发实地应用工具,并与领域专家进行系统性评估,以进一步验证模型的可靠性和实用性。
土壤层级分类多模态模型多任务学习图嵌入土壤健康
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在土壤分类领域具有重要创新,可能对农业和环境监测产生较大影响。

扩展音频同步视觉动画:一种高效的训练范式

ArXiv ID: 2508.03955
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Lin Zhang, Zefan Cai, Yufan Zhou, Shentong Mo, Jinhong Lin, Cheng-En Wu, Yibing Wei, Yijing Zhang, R
📄 中文摘要:
本文提出了一种高效的两阶段训练范式,以扩展音频同步视觉动画(ASVA)的应用范围,解决现有方法依赖昂贵手动标注高质量训练视频的局限性,实现在开放世界中处理多样化音频-视频类别的目标。研究背景在于,传统的ASVA方法局限于狭窄领域(如人脸说话生成),且难以通过手动标注扩展到更广泛的领域。作者通过两个核心挑战展开研究:一是如何设计可扩展的训练范式,二是如何高效训练ASVA模型。在方法上,第一阶段利用自动筛选的大规模但噪声较多的视频进行预训练,使模型学习多样化的音频-视频对齐模式;第二阶段则在少量手动精选的高质量视频上进行微调,以提升生成质量和同步精度,同时显著减少人工成本。此外,作者通过多特征条件化和窗口注意力机制增强了帧级音频上下文的同步能力,并基于预训练的文本-视频生成器和音频编码器,仅引入1.9%的额外可训练参数,确保了生成能力的保留。研究还推出了AVSync48基准数据集,包含48个类别,比现有基准数据集多样性高出3倍。实验结果表明,该方法将对手动标注的依赖减少了10倍以上,同时在多个开放类别上表现出强大的泛化能力,超越了现有技术水平。结论指出,该框架为开放域音频驱动的视频生成和编辑提供了新路径,但仍需在分辨率、时间一致性和运动自然性方面进一步改进。
音频同步视觉动画两阶段训练多特征条件化窗口注意力AVSync48
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在音频同步视觉动画领域具有重要创新,显著降低人工成本并提升泛化能力,可能对多模态生成领域产生较大影响。

MiDashengLM:通过通用音频描述实现高效音频理解

ArXiv ID: 2508.03983
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Heinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao,
📄 中文摘要:
本文介绍了MiDashengLM,一种新型的开源大型音频语言模型(LALM),旨在通过通用音频描述实现高效且全面的音频理解。研究背景源于当前大型音频语言模型(LALM)多依赖封闭数据源或专有模型,限制了其泛化能力和可访问性。MiDashengLM通过创新的ACA VCaps训练数据集,采用通用音频描述策略,将语音、声音和音乐信息融合为统一的文本表示,克服了传统自动语音识别(ASR)方法在音频场景分析中的局限性。该模型完全依赖公开的预训练和监督微调(SFT)数据集,确保了透明性和可重复性。其核心组件Dasheng是一个开源音频编码器,专为处理多样化的听觉信息而设计。研究方法包括三个阶段:音频-文本对齐、预训练和监督微调,利用约110万小时的公开数据进行训练,并在音频描述、问答、声音事件检测和副语言任务等多个领域进行评估。关键发现表明,MiDashengLM在X-Ares基准测试中超越了Whisper-Large V3,在22个任务中的18个任务上表现更优,尤其在环境声音和音乐分类任务中取得显著提升。此外,该模型在计算效率上具有显著优势,首次令牌生成时间(TTFT)缩短至基线的1/4,吞吐量提升高达20倍。结论指出,MiDashengLM通过通用音频描述的训练范式和公开数据的使用,在通用音频理解领域取得了重要进展,为未来的音频语言模型研究提供了新的方向和基准。
音频语言模型通用音频描述MiDashengLM音频理解开源数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: MiDashengLM在音频理解领域展现重要创新,效率和性能提升显著,具有较大影响力。

大型多模态模型能否主动识别错误输入?对其输入审查能力的系统性评估框架

ArXiv ID: 2508.04017
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Haiqi Yang, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu
📄 中文摘要:
本文针对大型多模态模型(LMMs)是否能够主动识别错误输入这一关键问题,提出了一种全新的输入审查能力评估框架(ISEval)。研究背景源于LMMs在处理复杂多模态任务(如文本、图像和音频整合)时展现出的强大能力,但其可靠性和可信度仍需深入探究,尤其是在面对有缺陷输入时的主动审查能力尚未被系统性研究。作者设计了包含七类错误前提的ISEval框架,并通过三个评估指标(自发错误检测率SEDR、引导错误检测率GEDR和模态信任偏好分数MTPS)对10个先进的LMMs进行了全面评估。研究发现:首先,大多数模型在无引导情况下自发检测错误的能力有限,SEDR较低,但通过明确提示后GEDR显著提升,显示出对外部引导的强烈依赖;其次,错误类型对检测性能有显著影响,模型在识别逻辑谬误方面表现最佳,但在表面语言错误及某些条件错误(如无关或错误条件、互斥条件)上表现较差;最后,模态信任偏好存在差异,在跨模态不一致情况下,部分模型(如Gemini 2.5 pro和Claude Sonnet 4)能平衡视觉和文本信息,而其他模型(如aya-vision-8b)则过度依赖文本。研究结论指出,当前LMMs在主动验证输入有效性方面存在明显不足,亟需改进。本文通过ISEval框架为构建更可靠的多模态系统提供了重要基准和洞见,强调了增强模型自主审查能力的紧迫性。
大型多模态模型输入审查能力错误检测模态信任偏好ISEval框架
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的ISEval框架,揭示LMMs输入审查局限,具有较大领域影响力。

NEARL-CLIP:基于正交正则化的交互式查询适应用于医学视觉-语言理解

ArXiv ID: 2508.04101
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Zelin Peng, Yichen Zhao, Yu Huang, Piao Yang, Feilong Tang, Zhengqin Xu, Xiaokang Yang, Wei Shen
📄 中文摘要:
本文提出了一种名为NEARL-CLIP(交互式查询适应与正交正则化)的创新框架,旨在增强视觉-语言模型(VLM)如CLIP在医学图像分析中的跨模态对齐能力。研究背景源于医学图像分析中标注数据不足的问题,以及现有VLM模型在医学领域应用时因领域差异而表现不佳的挑战。传统方法如提示学习和单向模态交互往往导致模态不对齐,无法充分发挥VLM的潜力。NEARL-CLIP通过两个核心贡献解决这一问题:首先,提出统一协同嵌入变换器(USEformer),通过双向跨模态查询机制促进视觉和文本模态之间的动态交互,实现多模态医学领域知识的相互丰富和增强;其次,引入正交跨注意力适配器(OCA),利用正交化技术将新知识分解为真正的新信息和增量知识两部分,避免增量知识干扰学习过程,从而更专注于新信息的获取,进一步提升模态交互效果。值得注意的是,NEARL-CLIP以参数高效的方式实现了上述创新,仅引入了146万可学习参数。在三种医学成像模态(X射线、MRI等)的广泛评估中,NEARL-CLIP展现出最先进的性能,例如在肺炎分类任务中准确率提升高达2.1%,显著优于现有方法。研究结论表明,NEARL-CLIP通过轻量级适配和正交特征分解有效解决了特征干扰问题,显著推进了医学视觉-语言理解的跨模态对齐能力,为医学图像分析提供了重要的技术支持。
医学视觉-语言适配双向模态交互正交特征分解跨模态对齐参数高效微调
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: NEARL-CLIP在医学图像分析领域展现重要创新,提升了跨模态对齐能力,具有较大应用潜力。

SVC 2025:首届多模态欺骗检测挑战赛

ArXiv ID: 2508.04129
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Xun Lin, Xiaobao Guo, Taorui Wang, Yingjie Ma, Jiajian Huang, Jiayu Zhang, Junzhe Cao, Zitong Yu
📄 中文摘要:
欺骗检测在安全筛查、欺诈预防和可信度评估等现实应用中至关重要。尽管深度学习方法在超越人类表现方面显示出潜力,但其效果往往依赖于高质量、多样化的欺骗样本。现有的研究主要集中于单一领域场景,忽视了领域偏移导致的显著性能下降。为解决这一问题,本文提出了SVC 2025多模态欺骗检测挑战赛,这是一个全新的基准测试,旨在评估音频-视觉欺骗检测中的跨领域泛化能力。挑战赛要求参赛者开发不仅在单个领域内表现良好,而且能够跨多个异构数据集泛化的模型。通过利用包括音频、视频和文本在内的多模态数据,该挑战赛鼓励设计能够捕捉微妙和隐含欺骗线索的模型。挑战赛采用了多个公开数据集(如Real-life Trial、Bag-of-Lies和MU3D)作为训练数据,并使用Box of Lies数据集进行评估,涵盖了法庭、实验室和游戏节目等多种场景。基准模型采用了跨领域音频-视觉欺骗检测方法,通过ResNet18提取面部特征,使用OpenFace和EmotionNet获取行为特征,并通过OpenSmile或Wave2Vec处理音频特征,同时提出了多种跨领域泛化策略(如领域同时、领域交替和逐领域训练)。挑战赛最终吸引了21个团队提交结果,排名基于准确率、错误率和F1分数等指标。研究结果表明,多模态融合方法在欺骗检测中具有巨大潜力,但跨领域泛化仍面临挑战。未来方向包括延长挑战时间、引入更大规模数据集和预训练模型,以及提升模型的可解释性和可信度。本挑战赛为多模态学习领域的发展提供了重要基准,推动了更具适应性和实用性的欺骗检测系统的开发。
多模态欺骗检测跨领域泛化音频-视觉数据深度学习基准测试
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该挑战赛在多模态欺骗检测领域具有重要创新性,可能对跨领域应用产生较大影响。

UniFGVC:基于属性感知多模态检索的通用无训练少样本细粒度视觉分类

ArXiv ID: 2508.04136
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Hongyu Guo, Kuan Zhu, Xiangzhao Hao, Haiyun Guo, Ming Tang, Jinqiao Wang
📄 中文摘要:
本文提出了一种名为UniFGVC的通用无训练框架,旨在解决少样本细粒度视觉分类(FGVC)问题。研究背景聚焦于传统方法在少样本场景下容易过拟合且泛化能力不足的挑战。UniFGVC将少样本FGVC任务重新定义为多模态检索问题,通过利用多模态大语言模型(MLLMs)的开放世界知识,生成结构化的文本描述以捕捉区分相似类别的细粒度属性特征。核心方法包括类别区分视觉描述器(CDV-Captioner),该模块通过链式思维提示和视觉相似参考图像,减少幻觉并增强描述的区分性,将图像转换为图像-描述对,构建多模态类别模板,并通过现成的视觉和文本编码器在联合空间中进行检索完成分类。实验在12个FGVC基准数据集上进行,结果表明UniFGVC在少样本设置下平均准确率提升5.52%,在ImageNet上提升12.29%,甚至超越了部分全监督的MLLMs方法,展现出强大的泛化能力和适应性。关键发现包括CDV-Captioner通过参考引导的对比推理显著提升了细粒度属性的提取能力,多模态检索范式有效缓解了数据稀缺带来的过拟合风险,并实现了类别扩展性和跨任务泛化。结论指出,UniFGVC作为一种无训练的通用框架,通过少样本数据构建丰富的多模态表示,在细粒度视觉分类中取得了竞争性性能,为该领域提供了新的研究方向。
少样本学习细粒度视觉分类多模态检索属性感知无训练框架
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: UniFGVC在少样本FGVC中展现重要创新,性能优于现有方法,具有较大领域影响力。

音频辅助的人脸视频恢复:基于时间和身份互补学习

ArXiv ID: 2508.04161
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Yuqin Cao, Yixuan Gao, Wei Sun, Xiaohong Liu, Yulun Zhang, Xiongkuo Min
📄 中文摘要:
本文提出了一种通用的音频辅助人脸视频恢复网络(GAVN),旨在解决流媒体视频中的多种失真问题,包括压缩伪影去除、去模糊和超分辨率。研究背景源于音视频流媒体服务的普及以及人脸视频在现实场景中常遭受复杂退化的现状。现有的人脸视频恢复方法大多忽略了视觉和音频特征之间的内在关联,尤其是在嘴部区域,而本文充分利用了音频信号与唇部运动的高度同步性,通过结合音频和身份特征显著提升恢复质量。GAVN 的主要方法包括三个模块:首先,在低分辨率空间中提取帧间时间特征以粗略恢复帧并节省计算成本;其次,在高分辨率空间中借助音频信号和人脸关键点提取帧内身份特征以恢复更多面部细节;最后,通过重建模块整合时间特征和身份特征生成高质量人脸视频。实验结果表明,GAVN 在压缩伪影去除、去模糊和超分辨率任务上均优于现有最先进方法,特别是在 VoxCeleb2 和 Obama 数据集上的表现尤为突出。定量和定性分析显示,GAVN 在恢复嘴部和眼睛区域的细节方面具有显著优势,同时在真实世界退化视频的恢复中也表现出色。作者还通过消融研究验证了身份特征和音频特征对恢复质量的重要性。结论指出,GAVN 的创新性设计使其在多种恢复任务中具有广泛适用性,为人脸视频恢复领域提供了新的解决方案。
人脸视频恢复音频辅助时间特征身份特征深度学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新性方法,结合音频和身份特征显著提升人脸视频恢复质量,具有较大潜力影响领域发展。

有毒标签:通过丰富的标签注释解码有毒迷因

ArXiv ID: 2508.04166
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Subhankar Swain, Naquee Rizwan, Nayandeep Deb, Vishwajeet Singh Solanki, Vishwa Gangadhar S, Animesh
📄 中文摘要:
本文针对社交媒体上日益严重的毒性话语传播问题,特别是在迷因作为有害内容传播工具的背景下,提出了一项创新性研究。研究背景源于2025年全球风险报告中指出的社会极化和国家间冲突等威胁,社交媒体在其中扮演了放大毒性话语的角色。由于数据获取受限和数据集构建成本高昂,迷因内容审核系统的开发受到阻碍。为解决这一问题,作者构建了一个包含6300个真实世界迷因帖子的数据集,通过两阶段标注:首先进行二元分类(毒性与正常),其次对毒性迷因进行细粒度标注(仇恨、危险或冒犯)。该数据集的一个关键特点是附带了社会相关标签的辅助元数据,增强了迷因的上下文理解。此外,作者提出了一种标签生成模块,利用谷歌搜索API和谷歌镜头生成社会化标签,以解决野外迷因通常缺乏标签的问题。实验结果表明,加入这些标签显著提升了最先进的视觉语言模型(VLMs)在毒性检测任务中的性能,尤其是在少样本提示设置下。研究还通过在标准仇恨迷因检测数据集上的测试验证了标签生成模块的有效性,显示出预测标签与真实标签相近的性能。作者的贡献为多模态在线环境的内容审核提供了新颖且可扩展的基础,旨在构建更准确、上下文感知和社会责任感的内容审核系统。然而,研究也存在局限,如未涵盖视频和音频等新兴模态,以及未探讨迷因对观众心理影响和线下行为的关联。总体而言,本文为毒性迷因检测和多模态内容审核研究提供了重要进展。
毒性迷因内容审核视觉语言模型标签生成社交媒体
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在毒性迷因检测领域具有重要创新,数据集和标签生成模块可能对内容审核产生较大影响。

聚集与追踪:从实例导向视角重新思考视频文本视觉问答

ArXiv ID: 2508.04197
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Yan Zhang, Gangyan Zeng, Daiqing Wu, Huawen Shen, Binbin Li, Yu Zhou, Can Ma, Xiaojun Bi
📄 中文摘要:
本文针对视频文本视觉问答(Video TextVQA)任务中传统帧级框架的局限性,提出了一种从实例导向视角重新思考该任务的新方法,称为GAT(Gather and Trace)。研究背景在于,现有方法多采用帧级处理,导致冗余文本实体和隐式关系建模的问题,影响准确性和效率。作者从人类理解视频文本的方式出发,将视频文本实例作为基本单位,设计了两个核心模块:上下文聚合实例收集模块和实例聚焦轨迹追踪模块。前者通过整合视频中相关实体的视觉外观、布局特征和文本内容,生成统一的文本表示,避免低质量文本(如模糊或不完整)带来的干扰;后者通过构建实例间的时空关系,追踪视频文本的动态演变,并推导出最终答案。实验在多个公开Video TextVQA数据集(如M4-ViteVQA和RoadTextVQA)上进行,结果表明GAT在准确性和推理速度上均优于现有Video TextVQA方法、视频语言预训练模型和视频大语言模型。尤其值得注意的是,GAT在准确性上比先前最先进方法提升了3.86%,推理速度比视频大语言模型快十倍。作者还通过消融实验验证了各模块的有效性,并分析了模型在泛化能力和效率上的优势。结论指出,实例导向框架在处理动态视频文本方面具有显著潜力,未来可能对Video TextVQA研究产生深远影响。
视频文本视觉问答实例导向多模态推理视频文本追踪上下文聚合
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出实例导向框架,在Video TextVQA领域具有重要创新,可能显著提升任务性能和效率。

小病灶感知的双向多模态多尺度融合网络用于肺部疾病分类

ArXiv ID: 2508.04205
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Jianxun Yu, Ruiquan Ge, Zhipeng Wang, Cheng Yang, Chenyu Lin, Xianjun Fu, Jikui Liu, Ahmed Elazab, C
📄 中文摘要:
本文提出了一种名为多模态多尺度交叉注意力融合网络(MMCAF-Net)的新型框架,旨在解决医学疾病诊断中对小病灶的误诊问题以及多模态数据融合的挑战。研究背景聚焦于计算机辅助诊断在现代临床应用中的重要性,特别是在利用医学影像和电子健康记录等多模态信息进行综合患者评估时,传统模型常因病灶尺寸小而忽略关键信息,同时不同模态间的数据维度差异也增加了融合难度。为此,MMCAF-Net通过结合特征金字塔结构和高效的3D多尺度卷积注意力模块(E3D-MSCA),从3D医学影像中提取特定病灶特征,增强对小病灶的检测能力。此外,模型引入多尺度交叉注意力模块(MSCA),有效解决维度不一致问题,实现更高效的特征融合。MMCAF-Net还在视觉编码器中采用特征降维,并结合Kolmogorov-Arnold网络(KAN)编码表格数据,通过双向尺度融合模块(BSF)进一步优化跨模态特征整合。在Lung-PET-CT-Dx数据集上的实验结果表明,MMCAF-Net在诊断准确性上显著优于当前最先进的方法,展现了其在肺部疾病分类中的潜力。研究的关键贡献包括:提出E3D-MSCA模块以增强小病灶检测,设计MSCA模块以整合多模态数据,以及开发BSF模块解决跨尺度特征融合问题。这一框架为医学图像处理和多模态学习提供了新的思路,可能对未来的临床诊断技术产生重要影响。
多模态学习跨模态融合多尺度特征小病灶检测肺部疾病分类
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在医学图像处理领域具有重要创新,可能显著提升诊断精度和临床应用价值。

视觉-语言模型的持续学习:超越遗忘的综述与分类

ArXiv ID: 2508.04227
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Yuyang Liu, Qiuhe Hong, Linlan Huang, Alexandra Gomez-Villa, Dipam Goswami, Xialei Liu, Joost van de
📄 中文摘要:
视觉-语言模型(VLMs)通过大规模预训练在多种多模态任务中取得了令人瞩目的表现。然而,如何使它们能够从非平稳数据中持续学习仍是一个重大挑战,因为其跨模态对齐和泛化能力特别容易受到灾难性遗忘的影响。与传统的单模态持续学习(CL)不同,VLMs面临独特的挑战,包括跨模态特征漂移、共享架构导致的参数干扰以及零样本能力的退化。本文首次对视觉-语言模型的持续学习(VLM-CL)进行了系统而专注的综述。我们首先识别了VLM-CL中导致性能下降的三大核心失败模式,并基于此提出了一个以挑战为驱动的分类法,将解决方案映射到其目标问题上:(1)多模态回放策略通过显式或隐式记忆机制解决跨模态漂移问题;(2)跨模态正则化在更新过程中保持模态对齐;(3)参数高效适应通过模块化或低秩更新缓解参数干扰。此外,我们分析了当前的评估协议、数据集和指标,强调需要更好的基准来捕捉VLM特有的遗忘和组合泛化能力。最后,我们指出了开放性问题和未来方向,包括持续预训练和组合零样本学习。本综述旨在为开发终身视觉-语言系统的研究人员提供全面且具有诊断意义的参考。相关资源可在指定GitHub链接获取。
视觉-语言模型持续学习跨模态对齐灾难性遗忘参数高效适应
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新分类法和挑战解决方案,对VLM持续学习领域有重要影响。

I3-MRec:基于不变学习与信息瓶颈的缺失模态推荐方法

ArXiv ID: 2508.04247
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Huilin Chen, Miaomiao Cai, Fan Liu, Zhiyong Cheng, Richang Hong, Meng Wang
📄 中文摘要:
多模态推荐系统(MRS)通过整合来自多种模态的语义信息来提升推荐性能。然而,在实际应用中,所有模态数据完整可用的假设往往不成立,例如缺失图片、不完整描述或用户内容不一致等问题。这些挑战显著降低了当前模型的鲁棒性和泛化能力。为解决这一问题,本文提出了一种新颖的方法——I3-MRec,即基于不变学习与信息瓶颈原理的缺失模态推荐方法。I3-MRec 通过实现两个关键特性来确保在缺失模态场景下的稳健性能:一是跨模态偏好不变性,确保在不同模态环境下用户偏好建模的一致性;二是紧凑且有效的模态表示,通过过滤与任务无关的模态信息,最大限度保留与推荐相关的核心特征。I3-MRec 将每个模态视为一个独立的语义环境,采用不变风险最小化(IRM)方法学习模态特定的项目表示。同时,基于信息瓶颈(IB)原理的缺失感知融合模块通过抑制模态噪声并保留核心用户偏好信号,提取紧凑且有效的项目嵌入。在三个真实世界数据集上的广泛实验表明,I3-MRec 在各种模态缺失场景下始终优于现有的最先进多模态推荐方法,凸显了其在实际应用中的有效性和鲁棒性。相关代码和处理后的数据集已公开发布。
多模态推荐不变学习信息瓶颈缺失模态用户偏好
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在缺失模态推荐领域具有重要创新,可能显著提升推荐系统的鲁棒性。

S2M3:边缘设备上分布式多任务推理的分裂与共享多模态模型

ArXiv ID: 2508.04271
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: JinYi Yoon, JiHo Lee, Ting He, Nakjung Choi, Bo Ji
📄 中文摘要:
随着人工智能(AI)向多模态(语言、视觉、语音等)方向发展,多模态模型在多种应用(如视觉问答、图像生成/标注)中得到了广泛应用。尽管AI作为服务在多模态应用中取得了成功,但其高度依赖云计算,面临带宽、延迟、隐私问题以及网络或服务器故障时的不可用性限制。随着设备端AI的普及,在边缘设备上支持多任务推理对资源提出了重大挑战。为解决这一问题,本文提出了S2M3,一种用于边缘设备上多任务推理的分裂与共享多模态架构。受多模态模型通用性质的启发,模型通常由多个模块(编码器、解码器、分类器等)组成,本文提出在功能级别上分裂多模态模型,并通过共享通用模块在多个任务间重复使用,从而降低资源使用率。为解决模块共享带来的跨模型依赖问题,本文提出了一种贪婪的模块级放置策略,并通过优先考虑计算密集型模块实现按请求并行路由。在由14个多模态模型、5个任务和10个基准组成的测试平台上进行的实验表明,S2M3在单任务和多任务设置下分别将内存使用量减少了高达50%和62%,且未牺牲准确性。此外,S2M3在95个实例中的89个(93.7%)实现了最优放置,与云端AI相比,在资源受限设备上将推理延迟降低了高达56.9%。研究结果表明,S2M3为边缘设备上的多模态多任务推理提供了一种高效的解决方案,具有显著的资源优化和性能提升潜力。
多模态模型边缘计算多任务推理资源优化模块共享
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在边缘计算领域具有重要创新性,可能显著提升多模态AI应用效率。

音频确实重要:视频时刻检索中的重要性感知多粒度融合

ArXiv ID: 2508.04273
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Junan Lin, Daizong Liu, Xianke Chen, Xiaoye Qu, Xun Yang, Jixiang Zhu, Sanyuan Zhang, Jianfeng Dong
📄 中文摘要:
视频时刻检索(VMR)旨在根据给定的查询检索与语义相关联的特定视频片段。传统VMR方法主要关注视觉和文本模态,而忽略了同样重要的音频模态。尽管近期一些研究尝试结合音频、视觉和文本进行联合推理,但它们对所有模态一视同仁,简单嵌入而缺乏细粒度的交互。这种设计在实际应用中存在问题,因为并非所有音频都对视频时刻检索有帮助,部分视频的音频可能完全是噪声或无关的背景音,对时刻确定毫无意义。为此,本文提出了一种新颖的重要性感知多粒度融合模型(IMG),该模型能够动态且有选择地聚合音频-视觉-文本上下文以进行VMR。具体而言,在分别将文本指导与视觉和音频整合后,设计了一个伪标签监督的音频重要性预测器,用于预测音频的重要程度分数,并据此分配权重以减轻噪声音频的干扰。随后,设计了一个多粒度音频融合模块,在局部、事件和全局层面自适应地融合音频和视觉模态,充分捕捉它们的互补上下文。此外,提出了一种跨模态知识蒸馏策略,以解决推理过程中音频模态缺失的挑战。为了评估该方法,本文构建了一个新的VMR数据集Charades-AudioMatter,从原始Charades-STA中手动选择并重组与音频相关的样本,以验证模型利用音频模态的能力。大量实验验证了该方法的有效性,在音频-视频融合的VMR方法中取得了最先进的性能。
视频时刻检索音频模态多粒度融合重要性感知跨模态知识蒸馏
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在VMR中引入音频模态并提出创新融合方法,具有较大影响力。

问题链:引导语言模型中的多模态好奇心

ArXiv ID: 2508.04350
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Nima Iji, Kia Dashtipour
📄 中文摘要:
近年来,大型语言模型(LLMs)的推理能力通过链式思维(chain-of-thought)和明确的逐步解释方法得到了显著提升。然而,这些进步尚未完全应用于多模态情境中,在复杂现实世界环境中,模型需要主动决定激活哪些感官模态(如视觉、音频或空间感知)。本文提出了问题链(Chain of Questions, CoQ)框架,这是一种由好奇心驱动的推理方法,旨在鼓励多模态语言模型动态生成针对周围环境的特定问题。这些生成的问题引导模型选择性地激活相关模态,从而收集准确推理和生成响应所需的关键信息。我们通过整合WebGPT、ScienceQA、AVSD和ScanQA数据集,构建了一个新的多模态基准数据集,对CoQ框架进行了评估。实验结果表明,CoQ方法显著提升了基础模型有效识别和整合相关感官信息的能力。这不仅提高了推理过程的准确性和可解释性,还增强了模型在多样化多模态任务中的一致性。研究表明,CoQ框架为多模态语言模型提供了一种创新的推理机制,能够更好地适应复杂的现实世界交互场景,为未来的多模态人工智能系统设计提供了重要启示。作者还讨论了该框架在实际应用中的潜在挑战,如计算复杂性和模态选择中的偏差问题,并提出了进一步优化的方向。
多模态语言模型问题链好奇心驱动推理能力感官信息整合
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新的多模态推理框架,具有较大潜力影响领域发展。

LUST:一种基于层次化大语言模型评分的用于多媒体内容中学习主题重要性追踪的多模态框架

ArXiv ID: 2508.04353
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Anderson de Lima Luiz
📄 中文摘要:
本文提出了一种名为学习用户重要性追踪器(Learned User Significance Tracker, LUST)的框架,旨在分析视频内容并量化其片段与用户提供的文本描述中重要性主题的相关性。LUST采用多模态分析流程,将视频帧的视觉线索与通过自动语音识别(Automatic Speech Recognition, ASR)从音频轨道提取的文本信息相结合。其核心创新在于使用大语言模型(Large Language Models, LLMs)构建的层次化两阶段相关性评分机制。首先,通过初始的“直接相关性”评分($S_{d,i}$),根据视觉和听觉内容的即时表现评估单个片段与主题的相关性;随后,通过“上下文相关性”评分($S_{c,i}$),结合前述主题评分的时间演进进行细化评估,使模型能够理解叙事的动态变化。LUST框架的目标是提供一种细致且具有时间感知的用户定义重要性度量,输出带有可视化相关性评分和全面分析日志的标注视频。研究结果表明,该框架在捕捉视频内容中用户定义的主题重要性方面具有显著优势,尤其是在处理复杂叙事和多模态数据时表现突出。这一方法不仅为多媒体内容分析提供了新的视角,也为个性化内容推荐和视频摘要生成等领域提供了潜在的应用价值。作者通过实验验证了LUST在多种视频数据集上的有效性,展示了其在主题追踪任务中的鲁棒性和适应性。总之,LUST框架为多模态内容理解和用户导向的视频分析奠定了重要基础。
多模态分析大语言模型主题重要性追踪视频内容分析自动语音识别
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态分析领域具有重要创新,可能对视频内容理解产生较大影响。

OmniPlay:全模态模型在全模态游戏中的基准测试

ArXiv ID: 2508.04361
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Fuqing Bie, Shiyu Huang, Xijia Tao, Zhiqin Fang, Leyi Pan, Junzhe Chen, Min Ren, Liuyu Xiang, Zhaofe
📄 中文摘要:
本文提出了一种全新的诊断性基准测试工具OmniPlay,旨在评估和探究全模态模型在动态交互环境中的智能融合与推理能力。传统的静态基准测试缺乏主动性,而现有的交互式基准测试往往忽略了关键的听觉和时间线索,存在严重的模态瓶颈。OmniPlay基于模态相互依赖的核心理念,设计了五个游戏环境,通过系统性地构建协同与冲突场景,迫使智能体进行真正的跨模态推理。研究对六个领先的全模态模型进行了全面评估,结果揭示了一个关键的两极分化现象:这些模型在高保真记忆任务上表现出超人性能,但在需要强大推理和战略规划的挑战中普遍失败。进一步分析表明,这种脆弱性源于模型融合机制的不稳定性,在模态冲突下会导致灾难性的性能下降。此外,研究还发现了一个反直觉的“少即是多”悖论,即在某些情况下移除部分感官信息反而能提升性能。作者指出,通向强大通用人工智能(AGI)的道路需要超越简单的规模扩展,明确聚焦于协同融合机制的研究。本文的OmniPlay平台已在GitHub上开放供匿名评审使用,为后续研究提供了重要的测试工具和数据支持。研究结果对全模态模型的开发和评估具有重要指导意义,强调了跨模态推理能力在未来人工智能发展中的核心地位。
全模态模型基准测试跨模态推理人工智能游戏环境
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新性基准测试工具,对全模态模型研究有重要影响。

TSPO:长篇视频语言理解的时间采样策略优化

ArXiv ID: 2508.04369
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Canhui Tang, Zifan Han, Hongbo Sun, Sanping Zhou, Xuchong Zhang, Xin Wei, Ye Yuan, Jinglin Xu, Hao S
📄 中文摘要:
多模态大型语言模型(MLLMs)在视觉-语言任务中取得了显著进展,但处理长时长视频输入时仍面临挑战。这主要源于MLLMs的上下文限制和训练成本,导致需要在将视频输入模型前进行稀疏帧采样。现有的视频MLLMs多采用无训练的均匀采样或关键帧搜索方法,但这些方法可能错过关键事件,或受限于预训练模型的事件理解能力。同时,构建基于训练的采样方法因稀疏帧采样的无监督和不可微分特性而具有挑战性。为解决这些问题,本文提出了时间采样策略优化(TSPO),通过强化学习提升MLLMs在长篇视频-语言理解中的表现。具体而言,本文首先设计了一个可训练的事件感知时间代理模块,通过捕捉事件与查询的相关性进行概率关键帧选择;其次,提出了TSPO强化学习范式,将关键帧选择和语言生成建模为联合决策过程,实现端到端的群体相对优化,并采用高效的基于规则的奖励机制;此外,为TSPO的训练构建了包含全面时间数据和视频“针尖麦芒”数据的长视频训练数据构建流程;最后,引入基于规则的回答准确性和时间定位奖励机制来优化时间采样策略。大量实验表明,TSPO在多个长视频理解基准测试中取得了最先进的性能,并且在不同的前沿视频MLLMs中展现了良好的迁移能力。
多模态语言模型长视频理解时间采样强化学习关键帧选择
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在长视频理解领域提出创新方法,具有较大潜在影响。

通过视频思考:多模态工具增强的强化学习用于长视频推理

ArXiv ID: 2508.04416
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Haoji Zhang, Xin Gu, Jiawen Li, Chixiang Ma, Sule Bai, Chubin Zhang, Bowen Zhang, Zhichao Zhou, Dong
📄 中文摘要:
本文研究了多模态大型语言模型(MLLMs)在视频推理能力方面的关键作用,特别是在视频问答和时间定位等下游任务中的应用。传统的基于文本的思维链(CoT)推理方法在处理长视频或复杂推理链时,常常面临跨模态交互不足和幻觉增加的问题。为解决这些挑战,本文提出了一种新颖的端到端代理视频推理框架——通过工具增强学习的视频智能(VITAL)。该框架利用视觉工具箱,能够按需密集采样新的视频帧,并生成多模态CoT,以实现精准的长视频推理。研究发现,时间定位和视频问答任务在视频理解中具有互补性。因此,作者构建了两个高质量的多任务视频推理数据集:MTVR-CoT-72k用于监督微调,MTVR-RL-110k用于强化学习。此外,本文提出了一种难度感知的组相对策略优化算法(DGRPO),以缓解多任务强化学习中的难度不平衡问题。在11个具有挑战性的视频理解基准测试上的广泛实验表明,VITAL在视频问答和时间定位任务中表现出卓越的推理能力,尤其是在长视频场景中优于现有方法。所有代码、数据和模型权重将公开发布,为后续研究提供重要资源。本研究通过创新的多模态工具增强方法和强化学习策略,为长视频推理提供了新的解决方案,对多模态学习领域具有重要意义。
多模态学习视频推理强化学习思维链时间定位
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新框架VITAL,显著提升长视频推理能力,具有较大领域影响力。

解码多模态迷宫:多模态注意力模型可解释性采用的系统性综述

ArXiv ID: 2508.04427
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Md Raisul Kibria, S\'ebastien Lafond, Janan Arslan
📄 中文摘要:
多模态学习近年来取得了显著进展,尤其是注意力模型的集成在多种任务中带来了性能的显著提升。与此同时,对可解释人工智能(XAI)的需求推动了大量研究,旨在解读这些模型复杂的决策过程。本文系统性地回顾了2020年1月至2024年初发表的关于多模态模型可解释性的研究文献。在XAI的广泛目标框架下,本文从多个维度分析了文献,包括模型架构、涉及的模态、解释算法和评估方法。分析表明,大多数研究集中在视觉-语言和纯语言模型上,基于注意力的技术是最常用的解释方法。然而,这些方法往往无法充分捕捉模态之间的全部交互,这一挑战因跨领域的架构异质性而进一步加剧。更为重要的是,本文发现多模态环境下的XAI评估方法大多不系统,缺乏一致性、鲁棒性以及对模态特定认知和上下文因素的考虑。基于这些发现,本文提出了一套全面的建议,旨在促进多模态XAI研究中严谨、透明和标准化的评估与报告实践。我们的目标是支持未来研究开发更具可解释性、责任感和负责任的多模态AI系统,将可解释性作为核心。
多模态学习可解释人工智能注意力模型系统性综述评估方法
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在多模态XAI领域提出重要见解和建议,具有较大影响力。

使用条件生成对抗网络(cGAN)进行情感检测:一种深度学习方法

ArXiv ID: 2508.04481
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Anushka Srivastava
📄 中文摘要:
本文提出了一种基于深度学习的情感检测方法,采用条件生成对抗网络(cGAN)作为核心技术。与传统的单模态技术仅依赖单一数据类型不同,本研究探索了一种多模态框架,整合文本、音频和面部表情数据进行情感分析。所提出的cGAN架构通过训练生成富含情感的合成数据,显著提升了跨模态情感分类的准确性。实验结果表明,与基线模型相比,该方法在情感识别性能上取得了显著改进,尤其是在多模态数据融合方面的表现尤为突出。研究还探讨了cGAN在增强人机交互系统中的潜力,通过更细致的情感理解改善用户体验。此外,本文分析了不同模态数据对情感检测的影响,揭示了多模态方法在捕捉复杂情感模式方面的优势。作者指出,尽管当前模型在特定数据集上表现优异,但仍需进一步研究以解决数据稀疏性和模型泛化能力的问题。总体而言,这项工作为情感计算领域提供了新的视角,强调了生成模型在处理多模态情感数据中的重要作用,并为未来在人机交互、心理健康监测等领域的应用奠定了基础。
情感检测条件生成对抗网络深度学习多模态框架人机交互
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在情感检测领域具有重要创新,可能显著提升人机交互技术。

MSC:一个带有接地分割和片段级描述的海洋野生动物视频数据集

ArXiv ID: 2508.04549
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Ki
📄 中文摘要:
本文针对海洋视频理解中的挑战,提出了一种新的研究框架和数据集。海洋视频由于海洋对象和周围环境的动态性、相机运动以及水下场景的复杂性,对视频理解提出了重大挑战。现有的视频描述数据集通常聚焦于通用或以人为中心的领域,难以泛化到海洋环境的复杂性,也无法深入洞察海洋生物。为解决这些局限性,作者提出了一种两阶段的面向海洋对象的视频描述流程,并引入了一个全面的视频理解基准数据集MSC。该数据集利用视频、文本和分割掩码的三元组,促进视觉接地和描述,从而提升海洋视频的理解与分析能力,并支持海洋视频生成。此外,作者强调了视频分割在检测场景变化中的显著对象转换方面的有效性,这种方法显著丰富了描述内容的语义。数据集和相关代码已公开发布于https://msc.hkustvgd.com。研究结果表明,该数据集和方法在海洋视频理解领域具有重要的应用价值,为后续研究提供了宝贵的资源和基准。通过这种创新方法,研究人员能够更好地捕捉海洋环境中的动态特征和生物行为,为海洋生态研究和保护提供技术支持。作者还讨论了该框架在实际应用中的潜力,特别是在海洋生物监测和环境变化分析中的作用。
海洋视频视频理解视觉接地视频描述数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在海洋视频理解领域具有重要创新,可能对生态研究产生较大影响。

CLASP:基于跨模态显著锚点的语义传播用于弱监督密集音视频事件定位

ArXiv ID: 2508.04566
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Jinxing Zhou, Ziheng Zhou, Yanghao Zhou, Yuxin Mao, Zhangling Duan, Dan Guo
📄 中文摘要:
本文研究了密集音视频事件定位(DAVEL)任务,旨在对未修剪视频中同时在音频和视觉模态中发生的事件进行时间定位。研究特别关注一种新的、更具挑战性的弱监督设置(W-DAVEL任务),即仅提供视频级事件标签,而每个事件的时间边界未知。为解决W-DAVEL问题,作者提出利用跨模态显著锚点(cross-modal salient anchors),这些锚点被定义为在弱监督下能够可靠预测的时间戳,且在音频和视觉模态中表现出高度一致的事件语义。具体而言,作者设计了一个互惠事件一致性评估模块,通过测量预测的音频和视觉事件类别之间的差异生成一致性分数。随后,该分数被用于跨模态显著锚点识别模块,通过全局视频和局部时间窗口识别机制确定音频和视觉锚点特征。融合后的多模态锚点特征被输入到基于锚点的时间传播模块,以增强原始时间音频和视觉特征中的事件语义编码,从而在弱监督条件下实现更好的时间定位。作者在UnAV-100和ActivityNet1.3数据集上建立了W-DAVEL任务的基准测试,广泛的实验表明,该方法取得了最先进的性能。研究不仅在弱监督多模态事件定位领域提供了新的视角,还为跨模态语义一致性研究奠定了基础,具有重要的理论和应用价值。
音视频事件定位弱监督学习跨模态学习显著锚点语义传播
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在弱监督音视频事件定位领域具有重要创新,可能对多模态学习产生较大影响。

使用多模态可穿戴传感器检测脊髓损伤患者的自主神经反射失调

ArXiv ID: 2508.03715
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Bertram Fuchs, Mehdi Ejtehadi, Ana Cisnal, J\"urgen Pannek, Anke Scheel-Sailer, Robert Riener,
📄 中文摘要:
自主神经反射失调(AD)是一种可能危及生命的病症,常见于脊髓损伤(SCI)患者,其特征是突发性、严重的血压(BP)骤升。早期、准确的检测对于预防心血管并发症至关重要,但目前的监测方法要么具有侵入性,要么依赖主观症状报告,限制了其在日常生活中的应用。本研究提出了一种非侵入性、可解释的机器学习框架,利用多模态可穿戴传感器检测AD。研究从27名慢性SCI患者在尿动力学检查期间收集数据,数据包括心电图(ECG)、光电容积描记法(PPG)、生物阻抗(BioZ)、体温、呼吸率(RR)和心率(HR),这些数据来自三种商用设备。通过同步的袖带式血压测量获得客观的AD标签。在信号预处理和特征提取后,采用BorutaSHAP进行稳健的特征选择,并利用SHAP值提供可解释性。研究训练了基于模态和设备的弱学习器,并通过堆叠集成元模型进行聚合,交叉验证按参与者分层以确保泛化能力。结果表明,心率和心电图衍生的特征最具信息量,尤其是那些捕捉节奏形态和变异性的特征。最近质心集成模型表现最佳(宏F1分数=0.77±0.03),显著优于基线模型。在各模态中,心率取得了最高的曲线下面积(AUC=0.93),其次是心电图(0.88)和PPG(0.86)。呼吸率和体温特征对整体精度的贡献较小,这与数据缺失和低特异性一致。该模型对传感器数据缺失具有鲁棒性,并与临床AD事件高度一致。这些结果为SCI患者的个性化、实时监测迈出了重要一步,具有重要的临床应用潜力。
自主神经反射失调脊髓损伤可穿戴传感器机器学习心率监测
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在SCI患者监测领域具有重要创新,可能显著改善患者生活质量。

多模态眼科诊断综述:从任务特定方法到基础模型

ArXiv ID: 2508.03734
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Xiaoling Luo, Ruli Zheng, Qiaojian Zheng, Zibo Du, Shuo Yang, Meidan Ding, Qihao Xu, Chengliang Liu,
📄 中文摘要:
视觉障碍是全球主要的健康挑战,多模态成像技术为精准的眼科诊断提供了互补信息。本文系统综述了截至2025年的眼科多模态深度学习方法的最新进展,重点分为两大类:任务特定的多模态方法和大规模多模态基础模型。任务特定方法针对特定临床应用设计,如病变检测、疾病诊断和图像合成,使用的成像方式包括彩色眼底摄影、光学相干断层扫描和血管造影等。而基础模型则结合了复杂的视觉-语言架构和在大规模眼科数据集上预训练的大型语言模型,支持跨模态理解、自动化临床报告生成和决策支持。本文深入分析了重要数据集、评估指标以及方法创新,包括自监督学习、基于注意力的融合和对比对齐技术。同时,文章讨论了当前面临的挑战,如数据变异性、标注不足、解释性缺乏以及在不同患者群体中的泛化能力问题。最后,综述提出了未来发展方向,强调超宽场成像和基于强化学习的推理框架的应用,以构建智能、可解释且临床适用的眼科人工智能系统。本文为研究人员和临床医生提供了全面的参考,旨在推动多模态眼科诊断技术的进一步发展。
多模态成像眼科诊断深度学习基础模型人工智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文具有重要创新性,对眼科AI诊断领域有较大潜在影响。

AVG-LLaVA:一种高效的自适应视觉粒度大型多模态模型

ArXiv ID: 2410.02745
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Zhibin Lan, Liqiang Niu, Fandong Meng, Wenbo Li, Jie Zhou, Jinsong Su
📄 中文摘要:
近年来,大型多模态模型(LMMs)在处理高分辨率图像时取得了显著进展。传统的主流LMMs通常将高分辨率图像分割为多个局部图像和一个全局图像,导致视觉令牌(visual tokens)数量庞大。本研究提出了一种新型模型AVG-LLaVA,该模型能够根据输入图像和指令自适应地选择合适的视觉粒度。具体而言,研究团队首先通过多重池化层获取不同粒度的视觉令牌,随后设计了一个视觉粒度路由器(visual granularity router),该路由器包括一个Transformer层、一个MLP层和一个投票层,用于根据图像和指令选择合适的视觉粒度。此外,研究还提出了一种新的训练范式RGLF,旨在使路由器预测的粒度与LMM的偏好对齐,而无需额外的标注数据。广泛的实验和分析表明,AVG-LLaVA在11个基准测试中表现出色,同时显著减少了视觉令牌的数量并加速了推理过程。例如,在AI2D基准测试中,视觉令牌数量减少了85.3%,推理速度提升了2.53倍。研究结果表明,AVG-LLaVA在性能和效率上均优于现有方法,为大型多模态模型在高分辨率图像处理中的应用提供了新的思路和解决方案。其自适应视觉粒度的设计理念和训练范式可能对未来的多模态模型研究产生深远影响。
大型多模态模型自适应视觉粒度视觉令牌推理速度机器学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态模型领域具有重要创新,可能显著提升效率和性能。

3DTTNet:基于多模态融合的越野环境三维可穿越地形建模

ArXiv ID: 2412.08195
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Zitong Chen, Chao Sun, Shida Nie, Chen Min, Changjiu Ning, Haoyu Li, Bo Wang
📄 中文摘要:
越野环境由于缺乏结构化道路以及存在复杂障碍物(如不平坦地形、植被和遮挡物),对自主地面车辆构成了重大挑战。传统的感知算法主要针对结构化环境设计,在非结构化场景中往往失效。本研究通过语义场景补全实现了可穿越区域的识别,提出了一种新颖的多模态方法——3DTTNet,通过融合激光雷达点云和前视单目图像生成密集的可穿越地形估计。借助多模态数据集成,增强了环境特征提取能力,这对复杂地形中的精确地形建模至关重要。此外,本文引入了RELLIS-OCC数据集,该数据集包含三维可穿越标注,并结合了台阶高度、坡度和不平坦度等几何特征。通过对车辆越障条件的全面分析以及车辆本体结构约束的引入,生成了四种穿越成本标签:致命、中等成本、低成本和自由。实验结果表明,3DTTNet在三维可穿越区域识别方面优于其他对比方法,特别是在具有不规则几何形状和部分遮挡的越野环境中。具体而言,3DTTNet在场景补全的交并比(IoU)指标上比其他模型提高了42%。该框架具有可扩展性和适应性,可适用于各种车辆平台,支持占用网格参数的调整,并能集成先进的动态模型以进行穿越成本估计。本研究为越野环境中自主车辆的感知和导航提供了重要支持,具有广泛的应用前景。
多模态融合三维地形建模越野环境自主车辆语义场景补全
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在越野环境感知领域具有重要创新,可能显著提升自主车辆性能。

CCStereo:用于双耳音频生成的音频-视觉上下文与对比学习

ArXiv ID: 2501.02786
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Yuanhong Chen, Kazuki Shimada, Christian Simon, Yukara Ikemiya, Takashi Shibuya, Yuki Mitsufuji
📄 中文摘要:
双耳音频生成(BAG)旨在利用视觉提示将单声道音频转换为立体声音频,这需要对空间和语义信息有深入理解。然而,现有模型存在过度拟合房间环境以及丢失细粒度空间细节的风险。本研究提出了一种新的音频-视觉双耳生成模型,称为CCStereo。该模型引入了音频-视觉条件归一化层,通过视觉上下文动态调整目标差分音频特征的均值和方差,从而实现更好的特征对齐。此外,提出了一种新的对比学习方法,通过从打乱的视觉特征中挖掘负样本,增强模型对空间信息的敏感性。同时,本文还提出了一种成本效益高的测试时数据增强方法,利用视频数据进一步提升生成性能。实验结果表明,该方法在FAIR-Play和MUSIC-Stereo基准数据集上实现了最先进的生成精度,证明了其在双耳音频生成任务中的优越性。研究不仅改进了音频生成的空间细节捕捉能力,还为音频-视觉跨模态学习提供了新的思路。结论指出,CCStereo模型在处理复杂环境下的音频生成任务时表现出色,未来可进一步探索其在其他多模态任务中的应用潜力。
双耳音频生成音频-视觉学习对比学习条件归一化测试时增强
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在双耳音频生成领域具有重要创新,可能对多模态学习产生较大影响。

基于Matryoshka的多模态大语言模型的自适应音视频语音识别

ArXiv ID: 2503.06362
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Umberto Cappellazzo, Minsu Kim, Stavros Petridis
📄 中文摘要:
音视频语音识别(AVSR)通过结合音频和视觉模态来提升在噪声环境下的鲁棒性。近年来,大语言模型(LLMs)在语音识别领域,包括AVSR,展现出强大的性能。然而,较长的语音表示导致LLMs的计算成本较高。传统方法通过在输入LLM之前压缩数据来降低成本,但高压缩率往往会损害识别精度。为解决这一问题,本文提出了Llama-MTSK,这是首个基于Matryoshka的多模态大语言模型用于AVSR。该模型能够在不同的计算约束下灵活调整音视频token的分配。受Matryoshka表示学习的启发,Llama-MTSK通过单一架构编码多粒度的表示,避免了使用多个独立模型的复杂性。为了实现高效的微调,本文引入了三种基于LoRA的策略,结合全局和特定规模的模块。在主要的AVSR数据集上的评估结果表明,Llama-MTSK的性能与固定压缩水平下训练的模型相当甚至更优。这一研究不仅在计算效率和识别精度之间取得了平衡,还为多模态大语言模型在资源受限环境下的应用提供了新的思路。作者通过创新的架构设计和微调策略,展示了模型在不同计算预算下的适应性,为未来的语音识别系统设计提供了重要的参考价值。研究结论表明,Llama-MTSK在保持高精度的同时显著降低了计算成本,具有广泛的应用潜力,尤其是在移动设备或边缘计算场景中。
音视频语音识别多模态大语言模型Matryoshka表示学习自适应计算LoRA微调
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在AVSR领域提出创新方法,具有较大应用潜力与影响力。

基于RGB-事件数据的行人属性识别:基准数据集与非对称RWKV融合框架

ArXiv ID: 2504.10018
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Xiao Wang, Haiyang Wang, Shiao Wang, Qiang Chen, Jiandong Jin, Haoyu Song, Bo Jiang, Chenglong Li
📄 中文摘要:
本文针对传统基于RGB帧相机的行人属性识别方法在光照条件和运动模糊等限制下的性能不足问题,提出了一种新的多模态RGB-事件数据行人属性识别任务。传统方法主要关注行人的外貌和服装特征,缺乏对情感维度的探索。本研究受事件相机在低光照、高速和低功耗方面的优势启发,首次构建了一个大规模多模态行人属性识别数据集EventPAR,包含10万对RGB-事件样本,涵盖50个属性(包括外貌和六种人类情感),并覆盖多样化的场景和季节。通过在该数据集上重新训练和评估主流行人属性识别(PAR)模型,本文建立了全面的基准,为未来的数据和算法研究奠定了基础。此外,本文提出了一种基于RWKV的多模态行人属性识别框架,该框架包括RWKV视觉编码器和非对称RWKV融合模块。在EventPAR数据集以及两个模拟数据集(MARS-Attribute和DukeMTMC-VID-Attribute)上进行的广泛实验表明,该方法取得了最先进的性能。研究还计划开源代码和数据集,为领域内进一步研究提供支持。本文的创新在于引入事件相机数据与RGB数据的结合,拓展了行人属性识别的情感维度,并通过新型融合框架显著提升了识别精度,为计算机视觉领域在复杂环境下的行人分析提供了新思路。
行人属性识别多模态数据事件相机RWKV框架情感识别
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出新型数据集和框架,具有重要创新性,可能对行人属性识别领域产生较大影响。

CMT:一种带有拓扑预测器的级联MAR,用于多模态条件CAD生成

ArXiv ID: 2504.20830
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Jianyu Wu, Yizhou Wang, Xiangyu Yue, Xinzhu Ma, Jingyang Guo, Dongzhan Zhou, Wanli Ouyang, Shixiang
📄 中文摘要:
在工业设计和制造中,准确且用户友好的计算机辅助设计(CAD)至关重要。然而,现有方法由于过于简化的表示或无法支持多模态设计需求的架构,仍然难以实现这一目标。本研究从方法和数据集两个方面尝试解决这一问题。首先,作者提出了一种带有拓扑预测器的级联MAR(CMT),这是基于边界表示(B-Rep)的首个多模态CAD生成框架。具体而言,级联MAR能够有效捕捉B-Rep中至关重要的‘边-轮廓-表面’先验知识,而拓扑预测器则直接从MAR中的紧凑令牌中估计B-Rep的拓扑结构。其次,为了支持大规模训练,作者开发了一个大规模多模态CAD数据集mmABC,该数据集包含超过130万个带有多种模态注释的B-Rep模型,包括点云、文本描述和多视图图像。广泛的实验表明,CMT在条件和无条件CAD生成任务中均表现出色。例如,在无条件生成任务中,相比于ABC数据集上的最先进方法,CMT在覆盖率和有效率上分别提高了+10.68%和+10.3%。此外,在mmABC数据集上的图像条件CAD生成任务中,CMT的Chamfer距离指标提高了+4.01。这些结果表明,CMT在多模态CAD生成领域具有显著的优势,为工业设计和制造提供了更高效和灵活的工具。作者通过创新的框架设计和大规模数据集的构建,为CAD生成技术的发展提供了重要贡献。
计算机辅助设计多模态生成边界表示拓扑预测大规模数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新框架和数据集,对CAD生成领域有较大影响。

纯文本推理释放零样本多模态评估器的潜力

ArXiv ID: 2505.18601
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun
📄 中文摘要:
本研究提出了一种基于推理的多模态评估模型Flex-Judge,旨在解决大型语言模型(LLM)作为代理评估器(即LLM-as-a-Judge)在多模态任务中泛化能力不足的问题。研究背景源于人类生成的奖励信号对生成模型与人类偏好对齐的重要性,而传统方法依赖大量模态特定训练数据和高成本的手动标注。Flex-Judge的核心创新在于利用结构化的文本推理解释作为通用的决策模式,仅通过少量的文本推理数据即可实现跨模态(如图像、视频)和评估格式的鲁棒泛化。研究方法包括设计一种推理引导的训练框架,通过文本监督学习通用的判断逻辑,并将其迁移到多模态评估任务中。实验结果表明,尽管Flex-Judge的训练数据量远少于现有模型,但其性能与最先进的商业API和经过广泛训练的多模态评估器相当甚至更优。特别是在资源受限的领域(如分子评估),Flex-Judge展现了显著的实用价值,填补了全面评估基准不足的空白。研究结论强调,基于推理的文本监督是一种高效、低成本的替代方案,相比传统的标注密集型方法,具有显著的可扩展性,为多模态模型作为评估器的应用提供了新思路。这一框架不仅推动了零样本多模态评估技术的发展,也为资源受限场景下的模型对齐提供了重要参考。
多模态评估零样本学习文本推理模型对齐人工智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态评估领域具有重要创新,可能显著影响模型对齐技术的发展。

EchoMimicV3:仅需13亿参数即可实现统一的多模态多任务人体动画

ArXiv ID: 2507.03905
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma
📄 中文摘要:
近年来,人体动画领域的研究通常依赖大规模视频模型以实现更逼真的表现效果。然而,此类方法因推理速度慢和计算需求高而限制了实际应用。此外,传统方法往往为每个动画任务采用独立的模型,这在多任务场景中增加了成本并加剧了资源困境。为解决这些问题,本文提出了EchoMimicV3,一个高效的框架,统一了多任务和多模态的人体动画处理。EchoMimicV3的核心设计包括三个方面:任务混合范式(Soup-of-Tasks)、模态混合范式(Soup-of-Modals)以及新颖的训练与推理策略。任务混合范式通过多任务掩码输入和反直觉的任务分配策略,在不增加模型复杂度的前提下实现多任务收益。模态混合范式引入了耦合-解耦多模态交叉注意力模块以注入多模态条件,并结合多模态时间步长相位感知动态分配机制来调节多模态混合。此外,本文提出了负向直接偏好优化、相位感知负分类器无关引导(CFG)以及长视频CFG策略,以确保训练和推理的稳定性。大量实验和分析表明,EchoMimicV3仅使用13亿参数的模型规模,便在定量和定性评估中取得了具有竞争力的性能。作者承诺将代码开源以供社区使用。本研究为人体动画领域提供了一种高效且统一的解决方案,显著降低了计算成本,同时保持了高质量的动画生成效果,为多任务多模态动画生成技术的发展提供了重要参考。
人体动画多模态多任务深度学习模型优化
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态多任务动画生成领域具有重要创新,可能显著影响相关技术应用。

短视频错误信息检测的一致性和不变性泛化学习

ArXiv ID: 2507.04061
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Hanghui Guo, Weijie Shi, Mengze Li, Juncheng Li, Hao Chen, Yue Cui, Jiajie Xu, Jia Zhu, Jiawei Shen,
📄 中文摘要:
短视频错误信息检测是多模态领域的一个重要研究方向,旨在准确识别伴随音频的视频格式中的错误信息。尽管该领域已有显著进展,但当前模型在特定领域(源领域)上训练后,在未见领域(目标领域)上的表现往往不尽如人意,主要是由于领域间差距的存在。为了在短视频错误信息检测任务中实现有效的领域泛化,本研究深入探讨了不同领域的特性:(1)不同领域的检测可能主要依赖于不同的模态(即主要关注视频或音频),因此提升领域泛化能力的关键在于同时优化所有模态的模型性能;(2)对于一些关注跨模态联合欺诈的领域,需要依赖跨模态融合进行全面分析,然而各模态中存在的领域偏差(尤其是视频的每一帧)会在融合过程中累积,严重影响错误信息的最终识别。为解决这些问题,本文提出了一种新的领域泛化模型——DOCTOR(DOmain generalization model via ConsisTency and invariance learning for shORt-video misinformation detection),该模型包含两个核心模块:首先,通过跨模态特征插值将多种模态映射到共享空间,并通过插值蒸馏同步多模态学习;其次,设计扩散模型添加噪声以保留多模态核心特征,并通过跨模态引导去噪增强领域不变特征。大量实验验证了DOCTOR模型的有效性,其代码已公开于GitHub。本研究为短视频错误信息检测的领域泛化问题提供了创新解决方案,对多模态学习和领域适应研究具有重要参考价值。
短视频错误信息检测领域泛化多模态学习跨模态融合不变性学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在领域泛化方面提出创新方法,对多模态学习有较大潜在影响。

鲍勃的彩纸:音乐与视频生成中的语音记忆攻击

ArXiv ID: 2507.17937
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Jaechul Roh, Zachary Novack, Yuefeng Peng, Niloofar Mireshghallah, Taylor Berg-Kirkpatrick, Amir Hou
📄 中文摘要:
本研究揭示了生成模型中一种新型的跨模态记忆现象,超越了传统的逐字文本再现,表现为非字面模式、语义关联,甚至在歌词到歌曲(L2S)和文本到视频(T2V)等转录条件生成任务中跨模态的表现。研究团队发现,这些模型在训练过程中会通过间接的语音路径泄露受版权保护的内容,而这种泄露无法通过传统的基于文本的分析检测到。本文提出了一种名为对抗性语音提示(APT)的攻击方法,通过将标志性短语替换为同音异义的替代词(例如将“mom's spaghetti”替换为“Bob's confetti”),在保留声学形式的同时大幅改变语义内容。实验表明,通过语音上相似但语义无关的歌词提示,模型能够重现记忆中的歌曲。黑盒模型如SUNO和开源模型如YuE生成的输出在旋律、节奏和声乐上与原曲高度相似,并在AudioJudge、CLAP和CoverID等评估工具上获得高分,且这种效应在不同 жанр 和语言中均存在。更令人惊讶的是,研究发现仅通过语音提示,文本到视频模型(如Veo 3)也能触发视觉记忆:当输入《Lose Yourself》的改编歌词时,模型生成的场景与原音乐视频高度一致,包括戴帽衫的说唱歌手和昏暗的城市背景,尽管提示中未提供明确的视觉线索。这种跨模态泄露构成前所未有的威胁,表明模型记忆了超越训练模态的深层结构模式,使得传统的版权过滤等安全措施失效。本研究揭示了转录条件生成模型的根本性漏洞,并对版权、来源和多模态生成系统的安全部署提出了迫切关注。
生成模型跨模态记忆语音攻击版权泄露多模态生成
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究揭示了生成模型跨模态记忆的重大漏洞,具有潜在的广泛影响。

SimMLM:一种用于缺失模态的多模态学习的简单框架

ArXiv ID: 2507.19264
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Sijie Li, Chen Chen, Jungong Han
📄 中文摘要:
本文提出了一种名为SimMLM的简单而高效的框架,用于处理缺失模态情况下的多模态学习。与现有依赖复杂网络架构或数据插补技术的方法不同,SimMLM提供了一种通用且有效的解决方案,能够适应各种缺失模态场景,并显著提升准确性和鲁棒性。SimMLM的核心是一个通用的动态模态专家混合(DMoME)架构,该架构包含一个动态可学习的门控机制,能够在完整模态和部分模态设置下自动调整每个模态的贡献权重。本框架的一个关键创新是提出了‘更多与更少’(MoFe)排序损失函数,该损失函数确保随着可用模态数量的增加,任务准确性得以提升或保持稳定,符合直观原则:减少一个或多个模态不应提高准确性。作者在多模态医学图像分割任务(BraTS 2018)以及多模态分类任务(UPMC Food-101, avMNIST)上对SimMLM进行了验证,结果表明该框架在完整模态和缺失模态场景下均表现出色,超越了竞争方法,展现了更高的准确性、可解释性、鲁棒性和可靠性。SimMLM为多模态学习提供了一种简洁而强大的工具,尤其在测试时面对模态缺失的挑战时表现出显著优势,为未来的研究和应用奠定了坚实基础。
多模态学习缺失模态动态门控机制排序损失医学图像分割
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,解决多模态学习难题,具有较大应用潜力。

ChartM3:基于多模态指令的图表编辑基准测试

ArXiv ID: 2507.21167
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Donglu Yang, Liang Zhang, Zihao Yue, Liangyu Chen, Yichen Xu, Wenxuan Wang, Qin Jin
📄 中文摘要:
图表作为数据分析中广泛应用的可视化形式,在研究和工业领域中具有重要价值。传统的图表编辑方法主要依赖自然语言指令,但这种方式往往过于模糊,难以支持精细化的编辑操作。本研究提出了一种全新的多模态图表编辑范式,用户意图通过自然语言与视觉指示器的结合来表达,视觉指示器能够明确指出需要修改的图表元素。为支持这一范式,作者构建了ChartM3,一个全新的多模态图表编辑基准数据集,包含1000个样本,涵盖四种编辑难度级别。每个样本以(图表、代码、多模态指令)三元组形式呈现。此外,ChartM3提供了多层次复杂性和多视角评估的指标,从视觉外观和代码正确性两个方面对图表编辑模型进行全面评估。基准测试结果显示,当前多模态大语言模型(MLLMs),包括GPT-4o,在理解和执行视觉指示器方面的能力存在显著局限。为解决这一问题,作者进一步构建了ChartM3-Train,一个包含24,000个多模态图表编辑样本的大规模训练数据集。通过在该数据集上对MLLMs进行微调,模型性能得到显著提升,证明了多模态监督在构建实用图表编辑系统中的重要性。本研究的数据集、代码和评估工具已公开,供学术界和工业界进一步研究和应用。
多模态学习图表编辑基准测试大语言模型数据可视化
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新的多模态图表编辑范式,具有较大应用潜力与影响力。

基于多模态大语言模型的双向似然估计在文本-视频检索中的应用

ArXiv ID: 2507.23284
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Dohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim
📄 中文摘要:
文本-视频检索旨在从大规模在线数据库中找到与给定视频(或文本)查询最相关的文本(或视频)候选。近年来,多模态大语言模型(MLLMs)被广泛用于提升检索性能,尤其是在处理长或复杂的查询-候选对时表现出色。然而,直接基于候选似然进行检索的朴素应用会引入候选先验偏差,导致模型更倾向于选择具有较高先验概率的候选,而非与查询更相关的候选。为解决这一问题,本文提出了一种新颖的检索框架——基于多模态大语言模型的双向似然估计(BLiM)。该框架通过训练模型同时从给定视频生成文本和从给定文本生成视频特征,综合利用查询和候选的似然估计。此外,本文还引入了候选先验归一化(CPN),这是一个简单而有效的无训练分数校准模块,旨在缓解候选先验偏差。在四个文本-视频检索基准数据集上的实验结果表明,结合CPN的BLiM框架平均在R@1指标上超越了先前最先进的模型6.4个百分点,有效减轻了候选先验偏差,并突出了查询与候选之间的相关性。进一步的分析表明,CPN在检索之外的多种多模态任务中也具有广泛适用性,通过减少对文本先验的依赖增强了视觉理解能力。本研究为多模态检索领域提供了重要的方法创新,并为未来的研究奠定了基础。
文本-视频检索多模态大语言模型双向似然估计候选先验偏差视觉理解
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新框架,显著提升检索性能,具有较大领域影响力。

ChineseEEG-2:一个用于阅读和听力过程中多模态语义对齐和神经解码的EEG数据集

ArXiv ID: 2508.04240
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Sitong Chen, Beiqianyi Li, Cuilin He, Dongyang Li, Mingyang Wu, Xinke Shen, Song Wang, Xuetao Wei, X
📄 中文摘要:
基于EEG的神经解码研究需要大规模的基准数据集,尤其是在口语、听力和阅读等多模态下的脑-语言配对数据,以实现神经活动与大型语言模型(LLMs)的语义表征对齐。然而,此类数据集较为稀缺,特别是在非英语语言中。本研究推出了ChineseEEG-2,一个高密度EEG数据集,旨在为真实语言任务下的神经解码模型提供基准支持。ChineseEEG-2在前一数据集ChineseEEG(专注于无声阅读)的基础上,新增了两种主动模态:朗读(Reading Aloud, RA)和被动听力(Passive Listening, PL),并使用相同的中文语料库。研究中,四名参与者在约10.7小时的朗读过程中同时记录了EEG和音频数据,随后这些录音被播放给另外八名参与者,收集了约21.6小时的听力EEG数据。这种设置实现了RA和PL模态下的语音时间和语义对齐。ChineseEEG-2包含EEG信号、精确音频、预训练语言模型的对齐语义嵌入以及任务标签。结合ChineseEEG,该数据集支持跨口语、听力和阅读的联合语义对齐学习,为多模态语言任务下的神经解码算法基准测试和脑-LLM对齐提供了重要资源,尤其是在中文语境中。ChineseEEG-2为下一代神经语义解码提供了关键的基准数据集,推动了脑机接口和语义解码领域的发展。
EEG数据集神经解码多模态语义对齐中文语料脑机接口
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态语义解码领域具有重要创新,可能显著影响脑机接口技术发展。

UniTalker:会话式语音-视觉合成

ArXiv ID: 2508.04585
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Yifan Hu, Rui Liu, Yi Ren, Xiang Yin, Haizhou Li
📄 中文摘要:
会话式语音合成(CSS)是用户-代理交互领域的一项关键任务,旨在为用户生成更具表达力和共情力的语音。然而,在现实世界的人际交流中,'倾听'和'眼神交流'在传递情感方面起着至关重要的作用。现有CSS研究仅限于感知对话上下文中的文本和语音,限制了其效果,且仅提供语音响应进一步约束了交互体验。为解决这些局限性,本文提出了一种会话式语音-视觉合成(CSVS)任务,作为传统CSS的扩展。通过利用多模态对话上下文,CSVS为用户提供连贯的视听响应。为此,作者开发了一个名为UniTalker的CSVS系统,这是一个统一的模型,无缝集成了多模态感知和多模态渲染能力。具体而言,UniTalker利用大规模语言模型全面理解对话上下文中的多模态线索,包括说话者、文本、语音和说话面部动画。随后,采用多任务序列预测方法,首先推断目标话语的情感,然后生成具有共情力的语音和自然的说话面部动画。为了确保生成的语音-视觉内容在情感、内容和时长上保持一致,作者引入了三项关键优化:1)设计专门的神经地标编解码器,对面部表情序列进行标记化和重建;2)提出双模态语音-视觉硬对齐解码策略;3)在生成阶段应用情感引导的渲染技术。全面的客观和主观实验表明,UniTalker合成的语音更具共情力,并为用户提供了更自然且情感一致的说话面部动画。这一研究在提升用户交互体验方面具有重要意义,为多模态人机交互开辟了新的可能性。
会话式语音合成多模态交互语音-视觉合成共情力人机交互
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态交互领域具有重要创新,可能显著提升用户体验。

利用因果充分性和必要性破解多模态大语言模型的幻觉问题

ArXiv ID: 2508.04182
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Peizheng Guo, Jingyao Wang, Wenwen Qiang, Huijie Guo, Changwen Zheng, Jiahuan Zhou, Gang Hua
📄 中文摘要:
[基于标题推测] 本论文可能聚焦于多模态大语言模型(MLLMs)在处理文本、图像等多模态数据时产生的‘幻觉’问题,即模型生成不符合事实或逻辑的内容。研究可能提出了一种基于因果推理的新方法,通过分析因果充分性和必要性,识别并缓解模型在推理或生成过程中的错误倾向。论文可能探讨了模型幻觉的根本原因,设计了相应的算法或框架来增强模型的准确性和可靠性,并通过实验验证了方法的有效性。此研究或为多模态学习领域提供了一种创新视角,尤其在提高模型的可信度和实用性方面具有重要意义,可能对智能对话系统、图像描述生成等应用场景产生积极影响。
多模态大语言模型幻觉问题因果推理充分性与必要性
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 标题显示创新性,可能对多模态学习有重要影响

真正的多模态上下文学习需要关注视觉上下文

ArXiv ID: 2507.15807
发布日期: 2025-08-07
聚类ID: 聚类 24
📝 作者: Shuo Chen, Jianzhe Liu, Zhen Han, Yan Xia, Daniel Cremers, Philip Torr, Volker Tresp, Jindong Gu
📄 中文摘要:
[基于标题推测] 本论文可能探讨了多模态学习中视觉上下文的重要性,特别是在上下文学习(In-Context Learning)框架下如何有效整合视觉信息与文本或其他模态数据。研究可能聚焦于现有的多模态模型在处理视觉信息时的不足,例如忽略视觉上下文对语义理解的影响,并提出了一种新的方法或模型改进,强调视觉上下文在提升多模态学习效果中的关键作用。论文可能通过实验验证了视觉上下文对模型性能的提升效果,分析了不同模态之间的交互机制,并讨论了其在实际应用(如图像描述、视觉问答等)中的潜力。此外,研究可能还探讨了注意力机制在多模态学习中的应用,特别是在如何平衡视觉和文本信息的重要性方面提供了新的见解。这项工作可能为多模态人工智能系统的设计提供重要参考。
多模态学习上下文学习视觉上下文注意力机制人工智能
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 标题显示出创新性,关注多模态学习中的视觉上下文问题,可能有较大影响。