← 返回总览

计算机科学-模态与视觉

2025-08-08 K-means智能聚类结果

聚类 8 • 机器学习算法识别
51 论文总数
51 高分论文
7.9 平均评分
7 关键词数

🔍 聚类关键词特征

模态视觉语言图像文本推理生成

LumiGen:一种基于LVLM增强的迭代框架用于精细化文本到图像生成

ArXiv ID: 2508.04732
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Xiaoqi Dong, Xiangyu Zhou, Nicholas Evans, Yujia Lin
📄 中文摘要:
文本到图像(Text-to-Image, T2I)生成技术在扩散模型的推动下取得了显著进展,但仍然面临处理复杂指令、实现精细化内容控制以及保持深层语义一致性等挑战。现有的T2I模型在准确文本渲染、精确姿态生成和复杂构图一致性等方面常常表现不佳。与此同时,视觉-语言模型(Vision-Language Models, LVLMs)在跨模态理解和指令遵循方面展现出强大的能力。本研究提出了一种新颖的基于LVLM增强的迭代框架LumiGen,旨在通过闭环的LVLM驱动反馈机制提升T2I模型的性能,特别是在需要精细化控制的领域。LumiGen包括两个核心模块:智能提示解析与增强(Intelligent Prompt Parsing & Augmentation, IPPA)模块,用于主动增强提示;以及迭代视觉反馈与优化(Iterative Visual Feedback & Refinement, IVFR)模块,作为‘视觉批评家’对生成的图像进行迭代校正和优化。在具有挑战性的LongBench-T2I基准测试中,LumiGen取得了3.08的优异平均分数,超越了当前最先进的基线模型。尤其值得注意的是,该框架在文本渲染和姿态表达等关键维度上实现了显著改进,验证了LVLM集成在实现更可控、更高质图像生成方面的有效性。研究结果表明,LumiGen为T2I生成技术提供了一种创新的解决方案,有望推动该领域在复杂任务中的应用和发展。
文本到图像生成视觉-语言模型精细化控制迭代优化图像生成质量
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,显著提升T2I生成质量,具有较大领域影响力。

少样本学习的基础多模态模型

ArXiv ID: 2508.04746
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Pengtao Dang, Tingbo Guo, Sha Cao, Chi Zhang
📄 中文摘要:
少样本学习(FSL)是一种机器学习范式,旨在从极少量的标记样本(通常每类少于10个)中泛化模型。在生物医学、环境科学、材料科学和机械科学等领域,样本数量有限且数据采集成本高、耗时长或受伦理限制,FSL显得尤为重要。本研究提出了一种创新的FSL方法,通过展示在大规模多模态模型(LMMM)上训练一系列跨领域、跨任务类型和输入模态的独立任务,可以显著提升FSL模型的泛化能力,优于基于传统元学习的同类型任务模型。为此,我们首先构建了一个多模态模型少样本数据集(M3FD,包含超过10,000个少样本数据),涵盖2D RGB图像、2D/3D医学扫描、表格和时间序列数据集,并手动整理了分类等FSL任务。此外,我们提出了M3F(少样本学习多模态模型框架),这是一个专为数据受限的科学应用设计的新型大规模多模态模型框架。M3F通过模块化流水线支持多种科学数据类型。通过在M3FD上微调模型,M3F提升了模型性能,使LMMM在现实世界的FSL部署中变得可行。为降低复杂FSL数据的获取门槛并促进公共使用的可重复性,M3FD配备了一个灵活且用户友好的工具,支持高效查询、任务特定采样和预处理。我们的数据集和框架共同提供了一个统一且可扩展的解决方案,显著降低了在数据稀缺的科学领域应用LMMM的障碍。
少样本学习多模态模型机器学习科学数据泛化能力
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在少样本学习领域具有重要创新,可能对数据稀缺的科学应用产生较大影响。

PA-RNet:面向多模态时间序列预测的扰动感知推理网络

ArXiv ID: 2508.04750
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Chanjuan Liu (School of Computer Science and Technology, Dalian University of Technology, Dalian, Ch
📄 中文摘要:
在现实世界的应用中,多模态时间序列数据常常受到干扰,尤其是在文本模态中。现有的多模态时间序列预测方法往往忽略了文本数据中固有的扰动,例如无关、噪声或模糊的内容,这些干扰会显著降低模型性能,特别是当噪声强度变化或源于结构不一致时。为解决这一挑战,本文提出了一种鲁棒的多模态预测框架——PA-RNet(扰动感知推理网络)。PA-RNet 包含一个扰动感知投影模块和一个跨模态注意力机制,能够有效分离文本嵌入中的噪声,同时保持语义上有意义的表示,从而提升模型的泛化能力。从理论上讲,本文证明了 PA-RNet 相对于文本输入的 Lipschitz 连续性,并证明所提出的扰动模块可以降低预期预测误差,为噪声条件下的稳定性提供了强有力的保证。此外,本文还引入了一个文本扰动流程,可以无缝集成到现有的多模态时间序列预测任务中,允许系统性地评估模型在不同级别文本噪声下的鲁棒性。在不同领域和时间设置下进行的广泛实验表明,PA-RNet 在性能上始终优于最先进的基线方法。研究结果表明,PA-RNet 在处理多模态时间序列数据中的文本噪声问题上具有显著优势,为未来的多模态预测研究提供了重要的理论和实践基础。
多模态时间序列预测扰动感知跨模态注意力文本噪声鲁棒性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态预测领域具有重要创新,可能对噪声处理产生较大影响。

VER-Bench:评估多模态大语言模型在细粒度视觉证据推理中的能力

ArXiv ID: 2508.04852
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Chenhui Qiang, Zhaoyang Wei, Xumeng Han Zipeng Wang, Siyao Li, Xiangyuan Lan, Jianbin Jiao, Zhenjun
📄 中文摘要:
随着多模态大语言模型(MLLMs)的快速发展,评估其视觉能力变得日益重要。当前的基准测试主要分为两类:基础感知基准测试,关注局部细节但缺乏深度推理(如“图像中有什么?”);主流推理基准测试,聚焦于图像中的显著元素,但可能无法评估需要复杂分析的细微线索。然而,深刻的视觉理解和复杂推理更多依赖于解释细微、不显眼的局部细节,而非感知显著的宏观对象。这些细节尽管在图像中占比极小(平均仅0.25%),却往往蕴含更丰富、更关键的信息,用于稳健的分析。为填补这一空白,本研究提出了VER-Bench,一个全新的评估框架,用于测试MLLMs在以下方面的能力:1)识别细粒度的视觉线索;2)将这些线索与世界知识相结合进行复杂推理。VER-Bench包含374个精心设计的问题,涵盖地理空间、时间、情境、意图、系统状态和符号推理等多个维度,每个问题均附带结构化证据:视觉线索及基于线索的推理过程。研究结果揭示了当前模型在提取细微视觉证据及构建基于证据的论点方面的局限性,强调了提升模型在细粒度视觉证据提取、整合及推理能力的重要性,以实现真正的视觉理解和类人分析。数据集及相关材料已公开于GitHub。
多模态大语言模型细粒度视觉证据复杂推理VER-Bench视觉理解
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性评估框架,对多模态模型发展有重要影响。

双流注意力与多模态查询在交通应用中的目标检测

ArXiv ID: 2508.04868
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Noreen Anwar, Guillaume-Alexandre Bilodeau, Wassim Bouachir
📄 中文摘要:
本文提出了一种新颖的目标检测框架——双流注意力与多模态查询(DAMM),旨在解决基于Transformer的目标检测器在遮挡、精细定位和计算效率方面的问题。传统的Transformer检测器由于固定查询和密集注意力机制,常常面临性能瓶颈。DAMM通过引入查询自适应和结构化交叉注意力机制,显著提升了检测精度和效率。该框架利用三种查询类型:基于视觉-语言模型的外观查询、基于多边形嵌入的位置查询以及用于通用场景覆盖的随机学习查询。此外,DAMM的双流交叉注意力模块分别对语义特征和空间特征进行优化,从而在复杂场景中提升了定位精度。研究在四个具有挑战性的基准数据集上对DAMM进行了评估,结果显示其在平均精度(AP)和召回率方面均达到了最先进的性能,验证了多模态查询自适应和双流注意力机制的有效性。作者还提供了开源代码以供进一步研究和应用。本研究为交通应用中的目标检测提供了重要的技术支持,尤其是在处理遮挡和复杂场景时表现出色,具有广泛的实际应用潜力。
目标检测双流注意力多模态查询交通应用计算机视觉
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在目标检测领域具有重要创新,尤其在交通应用中表现出色,可能产生较大影响。

统一模态分离:一种用于无监督域适应的视觉-语言框架

ArXiv ID: 2508.04987
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Xinyao Li, Jingjing Li, Zhekai Du, Lei Zhu, Heng Tao Shen
📄 中文摘要:
无监督域适应(UDA)旨在使在有标签源域上训练的模型能够处理新的无标签目标域。近年来,预训练的视觉-语言模型(VLMs)通过利用语义信息在零样本任务中展现出优异的性能,通过对齐视觉和文本嵌入,VLMs在弥合域间差距方面取得了显著成功。然而,不同模态之间天然存在差异,即所谓的模态差距。研究发现,在模态差距存在的情况下直接进行UDA仅能传递模态不变的知识,导致目标域性能不佳。为解决这一问题,本文提出了一种统一的模态分离框架,同时考虑模态特定和模态不变的成分。在训练过程中,从VLM特征中分离出不同的模态成分,并以统一的方式分别处理。在测试阶段,自动确定模态自适应集成权重,以最大化不同成分的协同效应。为评估实例级别的模态特性,本文设计了一种模态差异度量方法,将样本分类为模态不变、模态特定和不确定三类。模态不变样本被用于促进跨模态对齐,而不确定样本则被标注以增强模型能力。基于提示调整技术,本文方法在性能上实现了高达9%的提升,同时计算效率提高了9倍。广泛的实验和分析表明,该设计在不同骨干网络、基准、数据集和适应设置下均表现出色,验证了其有效性。
无监督域适应视觉-语言模型模态分离跨模态对齐提示调整
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,显著提升UDA性能,具有较大领域影响力。

通过建模模内和模间因果注意力解构多模态情感分析中的偏见

ArXiv ID: 2508.04999
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Menghua Jiang, Yuxia Lin, Baoliang Chen, Haifeng Hu, Yuncheng Jiang, Sijie Mai
📄 中文摘要:
多模态情感分析(MSA)旨在通过整合文本、音频和视觉数据等多种模态信息来理解人类情感。然而,现有方法常常受到模内和模间虚假相关性的影响,导致模型依赖统计捷径而非真正的因果关系,从而削弱了模型的泛化能力。为解决这一问题,本文提出了一种多关系多模态因果干预(MMCI)模型,该模型利用因果理论中的后门调整方法来应对统计捷径带来的混杂效应。具体而言,研究首先将多模态输入建模为多关系图,以显式捕捉模内和模间的依赖关系。随后,通过注意力机制分别估计并解构与这些模内和模间关系对应的因果特征和捷径特征。最后,应用后门调整方法对捷径特征进行分层,并将其与因果特征动态结合,以促使MMCI模型在分布变化下产生稳定的预测结果。在多个标准MSA数据集和分布外(OOD)测试集上的广泛实验表明,该方法有效抑制了偏见并提升了性能。研究结果不仅验证了MMCI模型在处理多模态情感分析任务中的优越性,还为解决多模态学习中的虚假相关性问题提供了新的视角和方法论支持,具有重要的理论和实践意义。
多模态情感分析因果干预虚假相关性注意力机制后门调整
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态情感分析中引入因果干预,具有重要创新和潜在影响力。

多模态因果驱动的表示学习用于泛化性医学图像分割

ArXiv ID: 2508.05008
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Xusheng Liang, Lihua Zhou, Nianxin Li, Miao Xu, Ziyang Song, Dong Yi, Jinlin Wu, Hongbin Liu, Jiebo
📄 中文摘要:
视觉-语言模型(VLMs),如CLIP,在多种计算机视觉任务中展现了出色的零样本能力。然而,由于医学图像数据的高变异性和复杂性,其在医学成像领域的应用仍面临挑战。医学图像常常因设备差异、操作伪影和成像模式等混杂因素导致显著的域偏移,从而在应用于未见领域时表现出较差的泛化能力。为解决这一问题,本文提出了一种新颖的框架——多模态因果驱动的表示学习(MCDRL),该框架将因果推断与视觉-语言模型相结合,以应对医学图像分割中的域泛化问题。MCDRL的实现分为两步:首先,利用CLIP的跨模态能力通过文本提示识别候选病变区域,并构建一个混杂因素字典,专门用于表示特定于域的变异;其次,训练一个因果干预网络,利用该字典识别并消除这些特定于域的变异的影响,同时保留对分割任务至关重要的解剖结构信息。大量实验表明,MCDRL在分割精度和泛化能力方面持续优于现有竞争方法,展现了显著的优势。本研究通过结合因果推理和多模态学习,为医学图像处理中的域泛化问题提供了创新解决方案,具有重要的理论和应用价值。
医学图像分割域泛化多模态学习因果推断视觉-语言模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在医学图像分割领域提出创新方法,具有较大潜在影响。

在图像中寻找针:多模态大语言模型能否定位细微细节?

ArXiv ID: 2508.05053
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Parth Thakkar, Ankush Agarwal, Prasad Kasu, Pulkit Bansal, Chaitanya Devaguptapu
📄 中文摘要:
本文研究了多模态大语言模型(MLLMs)在复杂文档中定位和推理细粒度细节的能力。尽管MLLMs在文档理解任务中表现出色,但其在处理细微但关键细节方面的能力尚未得到充分研究,例如在餐厅菜单中查找特定营养信息或在冗长的报纸文章中识别免责声明。这些任务要求在广泛的叙述中对小而重要的细节给予细致关注,类似于在图像中寻找针(Finding Needles in Images, NiM)。为解决这一研究空白,作者引入了NiM基准数据集,该数据集涵盖了报纸、菜单和讲座图像等多种现实世界文档,专门用于评估MLLMs在这些复杂任务中的能力。在此基础上,作者进一步提出了Spot-IT方法,这是一种简单而有效的方法,通过智能补丁选择和Gaussian注意力机制增强MLLMs的能力,灵感来源于人类在搜索文档时的缩放和聚焦行为。广泛的实验揭示了当前MLLMs在处理细粒度文档理解任务方面的能力和局限性,同时验证了Spot-IT方法的有效性。相比基线方法,Spot-IT在需要从复杂布局中精确提取细节的场景中取得了显著改进。研究结果不仅展示了多模态模型在细粒度任务中的潜力,也为未来的模型优化提供了方向。
多模态大语言模型细粒度细节文档理解NiM基准Spot-IT方法
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新方法和基准,具有较大领域影响力。

多模态感知对模仿学习中样本复杂度和优化景观影响的分析

ArXiv ID: 2508.05077
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Luai Abuelsamen, Temitope Lukman Adebanjo
📄 中文摘要:
本文从统计学习理论的视角探讨了多模态模仿学习的理论基础,重点分析了多模态感知(如RGB-D、本体感觉、语言)对模仿策略的样本复杂度和优化景观的影响。研究基于多模态学习理论的最新进展,表明合理整合的多模态策略相较于单模态策略能够实现更紧的泛化界限和更有利的优化景观。作者通过对理论框架的全面综述,解释了为何多模态架构(如PerAct和CLIPort)在性能上优于单模态模型,并将这些实证结果与Rademacher复杂性、PAC学习和信息论等基本概念联系起来。具体而言,研究揭示了多模态感知如何通过增加信息维度降低样本复杂度,从而提高模型的学习效率和泛化能力。此外,作者还探讨了多模态输入对优化过程的影响,指出多模态策略能够有效避免局部最优问题,构建更平滑的优化景观。研究结果为多模态模仿学习的设计提供了理论支持,并为未来在机器人控制和人机交互等领域的应用奠定了基础。结论表明,多模态感知不仅是提升模仿学习性能的关键因素,也为理解复杂学习系统的理论机制提供了新的视角。
多模态感知模仿学习样本复杂度优化景观统计学习理论
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在多模态模仿学习领域具有重要创新,可能对机器人学习产生较大影响。

MedMKEB:医学多模态大语言模型的全面知识编辑基准

ArXiv ID: 2508.05083
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Dexuan Xu, Jieyi Wang, Zhongyan Chai, Yongzhi Cao, Hanpin Wang, Huamin Zhang, Yu Huang
📄 中文摘要:
随着多模态大语言模型(MLLMs)在医学人工智能领域的显著进步,其在统一视觉和文本信息理解方面的能力得到了极大提升。然而,医学知识不断演变,模型需要高效更新过时或错误信息,而无需从头开始重新训练。尽管文本知识编辑已得到广泛研究,但涉及图像和文本多模态的医学知识编辑仍缺乏系统性基准。为填补这一空白,本文提出了MedMKEB,这是首个专门为评估医学多模态大语言模型知识编辑的可靠性、通用性、局部性、可移植性和鲁棒性而设计的全面基准。MedMKEB基于高质量的医学视觉问答数据集构建,并通过精心设计的编辑任务进行丰富,包括反事实校正、语义泛化、知识迁移和对抗性鲁棒性测试。基准的准确性和可靠性通过人类专家验证得到保障。对当前最先进的通用和医学MLLMs进行的广泛单次编辑和顺序编辑实验揭示了现有基于知识的编辑方法在医学领域的局限性,强调了开发专门编辑策略的必要性。实验结果表明,现有方法在处理医学多模态知识编辑时面临挑战,尤其是在确保编辑后模型性能的稳定性和准确性方面。MedMKEB的提出为开发可信且高效的医学知识编辑算法提供了标准基准,有助于推动该领域的研究和应用发展,为医学人工智能的知识更新提供了重要工具和参考。
医学多模态模型知识编辑基准测试视觉问答人工智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究填补了医学多模态知识编辑基准的空白,具有重要创新和潜在影响力。

JPS:通过协作视觉扰动和文本引导实现多模态大语言模型的越狱

ArXiv ID: 2508.05087
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan
📄 中文摘要:
本文研究了针对多模态大语言模型(MLLMs)的越狱攻击问题,指出当前研究主要关注攻击成功率(ASR),而忽视了生成响应是否真正满足攻击者的恶意意图,导致生成的输出内容虽然绕过了安全过滤,但往往缺乏实质性有害内容。为解决这一问题,作者提出了JPS(Jailbreak MLLMs with collaborative visual Perturbation and textual Steering)方法,通过视觉图像扰动和文本引导提示的协作实现越狱攻击。具体而言,JPS采用目标导向的对抗性图像扰动以有效绕过安全机制,同时通过多代理系统优化的“引导提示”来精确引导模型响应,使其符合攻击者的意图。视觉和文本组件通过迭代协同优化进一步提升性能。为评估攻击结果的质量,作者提出了恶意意图满足率(MIFR)指标,并使用基于推理的大语言模型(Reasoning-LLM)的评估器进行测量。实验结果表明,JPS在多个MLLMs和基准测试中均取得了最高的ASR和MIFR,分析进一步验证了其有效性。该研究不仅在技术上实现了突破,还为多模态模型的安全性研究提供了新的视角和评估标准,具有重要的理论和实践意义。代码已公开,供进一步研究和验证使用。
多模态大语言模型越狱攻击视觉扰动文本引导恶意意图满足率
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态模型安全领域具有重要创新,可能对未来安全策略产生较大影响。

多模态事实核查:统一的视觉、文本和上下文表示

ArXiv ID: 2508.05097
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Aditya Kishore, Gaurav Kumar, Jasabanta Patro
📄 中文摘要:
随着多模态虚假信息的增长速度加快,传统的以文本证据为主的事实核查系统面临重大挑战。多模态虚假信息通常结合文本和图像来支持其主张。本研究提出了一种名为“MultiCheck”的统一框架,用于细粒度的多模态事实验证。该框架旨在对结构化的文本和视觉信号进行推理,其架构结合了专门的文本和图像编码器,并通过一个融合模块捕捉跨模态关系,利用元素级交互来实现信息整合。随后,一个分类头预测主张的真实性,同时通过对比学习目标在共享潜在空间中促进主张-证据对的语义对齐。本研究在Factify 2数据集上进行了评估,取得了0.84的加权F1分数,显著优于基线模型。实验结果凸显了显式多模态推理的有效性,展示了该方法在复杂现实场景中可扩展且可解释的事实核查潜力。该框架不仅提升了事实核查的准确性,还为处理多模态信息提供了新的思路,可能对未来的虚假信息检测和内容验证技术产生深远影响。研究结论表明,结合视觉和文本信息的统一表示方法在应对多模态虚假信息方面具有重要价值,为构建更强大的事实核查系统奠定了基础。
多模态事实核查虚假信息检测跨模态推理对比学习统一表示
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态事实核查领域具有重要创新,可能显著提升虚假信息检测能力。

用于指代图像分割和定位的潜在表达生成

ArXiv ID: 2508.05123
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Seonghoon Yu, Joonbeom Hong, Joonseok Lee, Jeany Son
📄 中文摘要:
视觉定位任务,如指代图像分割(RIS)和指代表达理解(REC),旨在根据给定的文本描述定位图像中的目标对象。图像中的目标对象可以通过多种方式描述,反映出颜色、位置等多种属性。然而,现有方法大多依赖单一文本输入,仅能捕捉视觉领域丰富信息的一部分,导致类似对象的误识别问题。为解决这一问题,本文提出了一种新颖的视觉定位框架,通过从单一文本输入生成多个潜在表达,结合原始描述中缺失的补充视觉细节来增强定位能力。具体而言,作者引入了主体分配器和视觉概念注入器模块,将共享主体和独特属性概念嵌入到潜在表示中,从而捕捉目标特定的视觉线索。此外,提出了一种正边距对比学习策略,将所有潜在表达与原始文本对齐,同时保留细微差异。实验结果表明,该方法在多个基准测试中显著优于最先进的RIS和REC方法,并且在广义指代表达分割(GRES)基准上取得了卓越表现。这一框架通过整合文本和视觉信息的多样性,有效提升了目标定位的准确性和鲁棒性,为视觉定位任务提供了新的研究思路和解决方案。研究结论表明,潜在表达生成在处理复杂视觉-文本交互任务中具有重要潜力,可能进一步推动相关领域的发展。
视觉定位指代图像分割潜在表达生成对比学习计算机视觉
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,提升视觉定位精度,具有较大领域影响力。

FedGIN:基于动态全局强度非线性增强的联邦学习用于多模态图像器官分割

ArXiv ID: 2508.05137
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen, Mattijs Elschot
📄 中文摘要:
医学图像分割在人工智能辅助诊断、手术规划和治疗监测中发挥着关键作用。准确且鲁棒的分割模型对于实现跨多种成像模态的可靠、数据驱动的临床决策至关重要。由于不同模态图像特性存在固有差异,开发一个能够有效泛化到多种模态的统一模型将极大地优化临床工作流程,并减少对特定模态训练的需求。然而,实际部署面临数据稀缺、模态间域偏移(如CT与MRI)以及隐私限制导致的数据共享困难等重大挑战。为解决这些问题,本文提出了一种联邦学习(FL)框架FedGIN,用于在不共享原始患者数据的情况下实现多模态器官分割。该方法集成了一个轻量级的全局强度非线性(GIN)增强模块,在本地训练过程中协调模态特定的强度分布。研究使用两种数据集进行评估:一个是有限数据集,另一个是完整数据集。在有限数据集场景中,模型最初仅使用MRI数据进行训练,随后加入CT数据以评估性能提升;在完整数据集场景中,所有客户端均充分利用MRI和CT数据进行训练。结果显示,在有限数据场景下,FedGIN在MRI测试案例上的3D Dice分数相较于无GIN的联邦学习提高了12%至18%,并持续优于本地基线。在完整数据集场景中,FedGIN表现出接近集中式训练的性能,相较于仅MRI基线提高了30%的Dice分数,相较于仅CT基线提高了10%,凸显了其在隐私约束下的强大跨模态泛化能力。本研究为医学图像处理中的数据隐私保护和模型泛化提供了创新解决方案。
联邦学习医学图像分割多模态图像强度增强隐私保护
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在隐私保护与跨模态泛化方面具有重要创新,可能对医学影像领域产生较大影响。

QA-Dragon:面向知识密集型视觉问答的查询感知动态RAG系统

ArXiv ID: 2508.05197
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li
📄 中文摘要:
检索增强生成(RAG)技术通过将外部知识融入生成过程,有效缓解了多模态大语言模型(MLLMs)中的幻觉问题,并已成为知识密集型视觉问答(VQA)的广泛采用方法。然而,现有RAG方法通常仅从文本或图像中单独检索信息,限制了其处理需要多跳推理或最新事实知识的复杂查询的能力。为解决这一局限性,本文提出了QA-Dragon,一种面向知识密集型VQA的查询感知动态RAG系统。QA-Dragon引入了一个领域路由器,用于识别查询的主题领域以进行领域特定推理,同时配备搜索路由器,动态选择最优检索策略。通过在混合设置中协调文本和图像搜索代理,该系统支持多模态、多轮和多跳推理,能够有效应对复杂的VQA任务。本研究在2025年KDD杯Meta CRAG-MM挑战赛中对QA-Dragon进行了评估,结果表明其在挑战性场景下显著提升了基础模型的推理性能。相比基线方法,QA-Dragon在单源任务上的答案准确率和知识重叠分数提高了5.06%,在多源任务上提高了6.35%,在多轮任务上提高了5.03%。该框架展示了在知识密集型VQA任务中的强大潜力,为多模态推理提供了新的解决方案,并为未来的研究奠定了基础。
视觉问答检索增强生成多模态推理动态检索知识密集型任务
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在视觉问答领域提出重要创新,具有较大应用潜力。

SPEX:一种用于光谱遥感图像土地覆盖提取的视觉-语言模型

ArXiv ID: 2508.05202
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jian
📄 中文摘要:
光谱信息长期以来被认为是遥感观测中的关键线索。然而,尽管已开发出众多视觉-语言模型用于像素级别的解释,光谱信息仍未被充分利用,导致在多光谱场景中的性能不佳。为解决这一局限性,本研究构建了一个名为SPIE的视觉-语言指令跟随数据集,该数据集基于经典光谱指数计算,将土地覆盖对象的光谱先验编码为大型语言模型(LLM)可识别的文本属性。基于此数据集,作者提出了SPEX,一种专为指令驱动的土地覆盖提取设计的多模态大型语言模型。为此,研究引入了多种精心设计的组件和训练策略,包括多尺度特征聚合、令牌上下文压缩以及多光谱视觉预训练,以实现精确且灵活的像素级解释。据作者所知,SPEX是首个专注于光谱遥感图像中土地覆盖提取的多模态视觉-语言模型。在五个公开多光谱数据集上的广泛实验表明,SPEX在提取典型土地覆盖类别(如植被、建筑物和水体)方面始终优于现有的最先进方法。此外,SPEX能够为其预测生成文本解释,从而提升了可解释性和用户友好性。本研究为遥感图像处理领域提供了一种创新工具,有望显著提升土地覆盖分类的精度和实用性。代码将在https://github.com/MiliLab/SPEX上发布。
光谱遥感土地覆盖提取视觉-语言模型多模态学习像素级解释
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: SPEX在遥感领域具有重要创新性,可能显著提升土地覆盖提取精度。

VFlowOpt:基于视觉信息流引导优化的LMMs令牌剪枝框架

ArXiv ID: 2508.05211
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Sihan Yang, Runsen Xu, Chenhang Cui, Tai Wang, Dahua Lin, Jiangmiao Pang
📄 中文摘要:
大型多模态模型(LMMs)在视觉-语言任务中表现出色,其通过大量视觉令牌获取细粒度的视觉信息,但这种令牌冗余导致了显著的计算成本。以往的研究主要集中在推理过程中减少视觉令牌,通常通过基于视觉令牌间或视觉-语言令牌间注意力分数生成的重要性图来剪枝令牌。然而,现有的剪枝框架和策略较为简单,探索不足,常导致性能显著下降。本文提出了VFlowOpt,一种新型令牌剪枝框架,引入了重要性图生成过程和带有回收机制的渐进式剪枝模块,并通过视觉信息流引导方法进一步优化剪枝策略的超参数。具体而言,VFlowOpt基于令牌的注意力上下文相关性和patch级信息熵计算图像令牌的重要性图,随后决定保留或剪枝哪些令牌,并将剪枝的令牌聚合为回收令牌以避免潜在信息丢失。最后,采用视觉信息流引导方法,将LMM中的最后一个令牌视为文本-视觉交互的最具代表性信号,通过最小化剪枝前后令牌表示的差异,定制适用于不同LMM的优越剪枝策略。实验结果表明,VFlowOpt能够在剪枝90%的视觉令牌的同时保持相当的性能,实现KV-Cache内存减少89%和推理速度提升3.8倍。这一框架为LMMs的高效推理提供了重要解决方案,具有显著的实用价值和理论意义。
大型多模态模型令牌剪枝视觉信息流高效推理注意力机制
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性剪枝框架,显著提升LMMs效率,具有较大应用潜力。

推理追踪:基于思维链推理的长期视觉-语言追踪

ArXiv ID: 2508.05221
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Xiao Wang, Liye Jin, Xufeng Lou, Shiao Wang, Lan Chen, Bo Jiang, Zhipeng Zhang
📄 中文摘要:
近年来,视觉-语言追踪(Vision-Language Tracking)因其通过文本信息有效解决目标对象指定时的不灵活性和不准确性问题而受到越来越多的关注。然而,现有研究要么直接将固定语言与视觉特征融合,要么仅通过注意力机制进行简单修改,性能仍然有限。近期,一些研究者探索了通过文本生成来适应追踪过程中目标的变化,但这些工作未能提供模型推理过程的洞察,也未充分利用大型模型的优势,进一步限制了整体性能。为解决上述问题,本文提出了一种基于推理的视觉-语言追踪框架——ReasoningTrack,该框架基于预训练的视觉-语言模型Qwen2.5-VL构建。研究采用监督微调(SFT)和强化学习(GRPO)对推理和语言生成进行优化,将更新的语言描述嵌入并与视觉特征一起输入统一的追踪主干网络,随后通过追踪头部预测目标对象的具体位置。此外,本文还提出了一个大规模长期视觉-语言追踪基准数据集TNLLT,包含200个视频序列,并在该数据集上重新训练和评估了20个基线视觉追踪器,为视觉-语言追踪任务奠定了坚实基础。通过在多个视觉-语言追踪基准数据集上的广泛实验,充分验证了所提出的基于推理的自然语言生成策略的有效性。本文的源代码将在https://github.com/Event-AHU/Open_VLTrack上发布。
视觉-语言追踪思维链推理长期追踪自然语言生成计算机视觉
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架和数据集,对视觉-语言追踪领域有重要影响。

资源受限下的联合多模态情感推理与分类:通过思维链增强与蒸馏

ArXiv ID: 2508.05234
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Haonan Shangguan, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Ge Yu
📄 中文摘要:
随着社交媒体平台上多模态内容的激增,多模态情感分析(MSA)取得了显著进展,大型语言模型(LLMs)的应用进一步推动了该领域的发展。然而,当前方法主要依赖参数量庞大的多模态大型语言模型(MLLMs)的知识和推理能力进行情感分类,忽视了在资源受限环境下自主生成多模态情感推理的问题。为此,本研究聚焦于资源受限下的联合多模态情感推理与分类任务(JMSRC),旨在仅使用轻量级模型同时完成多模态情感推理链生成和情感分类。作者提出了一种多模态思维链推理蒸馏模型(MulCoT-RD),专门为JMSRC设计,采用“教师-助教-学生”的蒸馏范式以应对资源受限环境下的部署挑战。首先,利用高性能的多模态大型语言模型生成初始推理数据集,并通过多任务学习机制训练一个中等规模的助教模型。随后,联合训练一个轻量级学生模型,以实现高效的多模态情感推理生成和分类。在四个数据集上的广泛实验表明,仅使用3B参数的MulCoT-RD在JMSRC任务上表现出色,同时展现出强大的泛化能力和更高的可解释性。本研究为资源受限环境下的多模态情感分析提供了创新解决方案,具有重要的实际应用价值。
多模态情感分析资源受限思维链推理模型蒸馏情感分类
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在资源受限环境下实现多模态情感推理与分类,具有重要创新和应用潜力。

RegionMed-CLIP:一种面向医学图像理解的区域感知多模态对比学习预训练模型

ArXiv ID: 2508.05244
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Tianchen Fang, Guiru Liu
📄 中文摘要:
医学图像理解在实现自动化诊断和数据驱动的临床决策支持中发挥着关键作用。然而,其发展受到两个主要挑战的阻碍:高质量标注医学数据的有限性以及对全局图像特征的过度依赖,这往往忽略了细微但具有临床意义的病理区域。为解决这些问题,本研究提出了RegionMed-CLIP,一种区域感知的多模态对比学习框架,明确结合了局部病理信号和整体语义表征。该方法的核心是一个创新的感兴趣区域(ROI)处理器,能够自适应地整合细粒度的区域特征与全局上下文,并通过渐进式训练策略增强多模态分层对齐能力。为了支持大规模区域级表征学习,研究团队构建了MedRegion-500k,一个包含广泛区域标注和多层次临床描述的综合性医学图像-文本语料库。在图像-文本检索、零样本分类和视觉问答任务上的广泛实验表明,RegionMed-CLIP在性能上显著优于现有的最先进的视觉语言模型。研究结果强调了区域感知对比预训练的重要性,并将RegionMed-CLIP定位为推动多模态医学图像理解发展的坚实基础。本研究不仅在技术上实现了创新,还通过构建大规模数据集为后续研究提供了宝贵资源,具有重要的学术和应用价值。
医学图像理解多模态对比学习区域感知预训练模型临床决策支持
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在医学图像理解领域具有重要创新,可能显著提升自动化诊断能力。

B4DL:用于时空理解的4D LiDAR大语言模型基准

ArXiv ID: 2508.05269
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Changho Choi, Youngwoo Shin, Gyojin Han, Dong-Jae Lee, Junmo Kim
📄 中文摘要:
本研究聚焦于动态户外环境的理解,强调捕捉复杂的对象交互及其随时间演变的重要性。基于LiDAR的4D点云数据提供了精确的空间几何信息和丰富的时序线索,是表征现实世界场景的理想选择。然而,由于缺乏高质量、特定模态的标注数据以及能够处理其高维结构的MLLM(多模态大语言模型)架构,4D LiDAR在MLLM领域的研究仍未得到充分探索。为解决这些挑战,本文提出了B4DL,一个专门为训练和评估MLLM在4D LiDAR理解能力而设计的新基准。同时,作者开发了一种可扩展的数据生成流程和一个MLLM模型,该模型首次通过将原始4D LiDAR数据与语言理解相结合,直接处理4D LiDAR数据。结合所提出的数据集和基准,该模型为动态户外环境中的时空推理提供了一个统一的解决方案。研究还提供了渲染的4D LiDAR视频、生成的数据集以及在多种场景下的推理输出。本研究的创新在于填补了4D LiDAR在多模态模型中的应用空白,为动态环境理解提供了新的工具和方法。关键发现表明,通过专门设计的基准和模型,MLLM能够在4D LiDAR数据上实现有效的时空推理,这对自动驾驶、智能监控等领域具有潜在的应用价值。结论指出,B4DL基准和相关模型为未来的研究奠定了基础,并呼吁更多关于4D LiDAR多模态理解的工作。
4D LiDAR多模态大语言模型时空理解动态环境基准数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在4D LiDAR与MLLM结合领域具有重要创新,可能推动动态环境理解技术发展。

mKG-RAG:基于多模态知识图谱增强的RAG用于视觉问答

ArXiv ID: 2508.05318
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Xu Yuan, Liangbo Ning, Wenqi Fan, Qing Li
📄 中文摘要:
近年来,检索增强生成(RAG)技术被提出用于扩展多模态大语言模型(MLLMs)的内部知识,通过将外部知识库融入生成过程,广泛应用于基于知识的视觉问答(VQA)任务中。然而,传统的基于RAG的VQA方法依赖于非结构化文档,忽视了知识元素之间的结构化关系,常常引入无关或误导性内容,从而降低了答案的准确性和可靠性。为解决这一问题,本文提出了一种基于多模态知识图谱(KGs)的多模态知识增强生成框架(mKG-RAG),专门针对知识密集型VQA任务。具体而言,该方法利用MLLM驱动的关键词提取和视觉-文本匹配技术,从多模态文档中提炼出语义一致且模态对齐的实体和关系,构建高质量的多模态知识图谱作为结构化知识表示。此外,研究引入了一种双阶段检索策略,配备了问题感知的多模态检索器,以提高检索效率并优化精度。全面的实验结果表明,该方法显著优于现有方法,在基于知识的VQA领域建立了新的技术标杆。本研究通过将结构化多模态知识融入RAG框架,为VQA任务提供了更准确、更可靠的解决方案,对多模态学习和知识表示领域具有重要意义。
多模态知识图谱检索增强生成视觉问答多模态大语言模型知识表示
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在VQA领域引入多模态知识图谱,具有重要创新和较大潜力。

StructVRM:将多模态推理与结构化可验证奖励模型对齐

ArXiv ID: 2508.05383
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Xiangxiang Zhang, Jingxuan Wei, Donghong Zhong, Qi Chen, Caijun Jia, Cheng Tan, Jinming Gu, Xiaobo Q
📄 中文摘要:
现有的视觉-语言模型(Vision-Language Models)在处理复杂的多问题推理任务时常常面临挑战,尤其是在部分正确性对有效学习至关重要的情况下。传统的奖励机制通常为整个回答提供单一的二元分数,这种粗粒度的评估方式难以指导模型解决包含多个子问题的复杂任务。为解决这一问题,本文提出了StructVRM,一种将多模态推理与结构化可验证奖励模型(Structured and Verifiable Reward Models)对齐的方法。其核心是一个基于模型的验证器,经过训练后能够提供细粒度的子问题级反馈,评估语义和数学等价性,而非依赖僵硬的字符串匹配。这种方法允许在以往难以处理的复杂问题格式中实现细致的部分得分评估。广泛的实验验证了StructVRM的有效性。作者训练的模型Seed-StructVRM在12个公开多模态基准测试中的6个以及新 curation 的高难度STEM-Bench基准测试中取得了最先进的性能。StructVRM的成功表明,使用结构化、可验证的奖励进行训练是提升多模态模型在复杂现实世界推理领域能力的一种高效方法。这一研究为多模态模型在处理多层次推理任务时提供了新的视角和工具,有助于推动人工智能在教育、科学计算等领域的应用。
多模态推理结构化奖励模型视觉-语言模型子问题反馈STEM基准测试
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: StructVRM在多模态推理领域具有重要创新,可能显著提升复杂任务性能。

用加权Banzhaf交互解释视觉-语言编码器中的相似性

ArXiv ID: 2508.05430
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Hubert Baniecki, Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke H\"ullermeier, Pr
📄 中文摘要:
本文研究了语言-图像预训练(LIP)技术在视觉-语言模型中的应用,这些模型能够实现零样本分类、定位、多模态检索和语义理解。针对现有解释方法(如显著性图)仅能捕捉一阶归因、忽略跨模态复杂交互的局限性,作者提出了一种统一的视觉-语言编码器相似性分解方法——FIxLIP(忠实交互解释)。该方法基于博弈论,通过分析加权Banzhaf交互指数,相较于Shapley交互量化框架提供了更高的灵活性和计算效率。从实践角度,作者扩展了解释评估指标,如指向游戏和插入/删除曲线下面积,使其适用于二阶交互解释。实验在MS COCO和ImageNet-1k基准数据集上验证了FIxLIP等二阶方法在一阶归因方法上的优越性。此外,FIxLIP还被用于比较不同模型(如CLIP与SigLIP-2,ViT-B/32与ViT-L/16)的性能差异。研究不仅提供了高质量的解释结果,还展示了FIxLIP在模型分析和比较中的实用价值,为视觉-语言编码器的可解释性研究提供了新视角。作者通过理论与实验结合,揭示了跨模态交互在模型相似性输出中的重要作用,强调了二阶解释方法在理解复杂模型行为中的潜力。结论表明,FIxLIP方法在提升解释质量和支持模型比较方面具有显著优势,为未来多模态模型的可解释性研究奠定了基础。
视觉-语言编码器相似性解释加权Banzhaf交互跨模态交互可解释性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的FIxLIP方法,提升了视觉-语言模型解释质量,具有较大影响力。

通过多模态大语言模型辅助的进化搜索发现可解释的程序化策略

ArXiv ID: 2508.05433
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu Zhang
📄 中文摘要:
在设计控制策略时,可解释性和高性能是两个至关重要的目标,尤其是在安全关键任务中。深度强化学习显著提升了性能,但其固有的不可解释性常常削弱信任并阻碍现实世界的部署。本研究通过提出一种新颖的程序化策略发现方法——多模态大语言模型辅助的进化搜索(MLES),应对这一双重挑战。MLES利用多模态大语言模型作为策略生成器,并结合进化机制实现自动策略优化。该方法在策略生成过程中集成了基于视觉反馈的行为分析,以识别失败模式并促进有针对性的改进,从而提高策略发现的效率,并生成适应性强、与人类目标一致的策略。实验结果表明,MLES在两个控制任务中的策略发现能力和效率与近端策略优化(PPO)相当,同时提供了透明的控制逻辑和可追溯的设计过程。这一范式克服了预定义领域特定语言的局限性,促进了知识的转移和重用,并且在各种控制任务中具有可扩展性。MLES展现出作为下一代可解释控制策略发现领先方法的潜力,为安全关键任务中的策略设计提供了新的可能性,同时增强了人类对自动化系统的信任。
可解释性控制策略多模态大语言模型进化搜索强化学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在可解释性与性能之间取得平衡,具有较大潜在影响。

MoMA:一种多模态代理混合架构用于增强临床预测建模

ArXiv ID: 2508.05492
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Jifan Gao, Mahmudur Rahman, John Caskey, Madeline Oguss, Ann O'Rourke, Randy Brown, Anne Stey,
📄 中文摘要:
多模态电子健康记录(EHR)数据相较于单一模态数据能够提供更丰富、更全面的患者健康洞察。然而,由于数据需求的复杂性,有效整合不同数据模态以进行临床预测建模仍然是一个挑战。本研究提出了一种新颖的架构——多模态代理混合架构(MoMA),旨在利用多个大型语言模型(LLM)代理来处理多模态EHR数据以完成临床预测任务。MoMA通过专门的LLM代理(称为“专家代理”)将非文本模态数据(如医学影像和实验室结果)转化为结构化的文本摘要。这些摘要与临床笔记一起由另一个LLM(“聚合代理”)整合,生成统一的多模态摘要,随后由第三个LLM(“预测代理”)基于此摘要进行临床预测。本研究在三个预测任务上对MoMA进行了评估,使用了包含不同模态组合和预测设置的真实世界数据集。结果表明,MoMA在各项任务中均优于当前最先进的方法,展现了其更高的准确性和灵活性。MoMA的架构设计充分利用了大型语言模型在处理多模态数据方面的能力,为临床预测建模提供了一种创新且高效的解决方案。研究还讨论了MoMA在不同临床场景中的潜在应用价值,以及其在数据隐私和模型解释性方面的未来改进方向。总体而言,MoMA为多模态数据在医疗领域的应用开辟了新的可能性,具有重要的学术和实践意义。
多模态数据电子健康记录大型语言模型临床预测医疗信息学
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: MoMA在多模态临床预测领域展现重要创新,具有较大应用潜力。

MELLA:为低资源语言多模态大语言模型桥接语言能力和文化根基

ArXiv ID: 2508.05502
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
📄 中文摘要:
多模态大语言模型(MLLMs)在高资源语言中表现出色,但在低资源语言环境中效果显著下降。现有的多语言增强方法通常局限于文本模态或仅依赖机器翻译,虽然能在一定程度上帮助模型获得基本的语言能力并生成简单的描述,但忽略了多模态信息丰富性和文化根基的重要性,而这两者对于有效服务低资源语言用户至关重要。为了解决这一问题,本研究提出了两个关键目标:1)语言能力;2)文化根基,特别强调文化意识。为实现这两个目标,研究团队提出了一种双源策略,针对每个目标定制数据收集方式,分别从本土网络替代文本中获取文化相关数据,以及从MLLM生成的标题中获取语言相关数据。作为具体实现,本文介绍了MELLA,一个多模态、多语言数据集。实验结果表明,在MELLA数据集上进行微调后,针对八种语言的多种MLLM骨干模型普遍表现出性能提升,模型能够生成更为详实的‘厚描述’。研究进一步验证了性能提升来源于文化知识增强和语言能力提升的双重作用。MELLA数据集为低资源语言的多模态模型研究提供了重要资源,有助于推动相关领域的发展。数据集已公开,可通过指定链接获取。
多模态大语言模型低资源语言文化根基语言能力MELLA数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新方法解决低资源语言问题,具有较大潜在影响。

人工智能与人类审核员:多模态大语言模型在品牌安全内容审核中的比较评估

ArXiv ID: 2508.05527
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Adi Levi, Or Levi, Sardhendu Mishra, Jonathan Morra
📄 中文摘要:
随着在线视频内容量的指数级增长,审核不安全视频的需求已超出人类能力范围,不仅带来运营挑战,还对审核员的心理健康构成威胁。虽然近期研究展示了多模态大语言模型(MLLMs)在多种视频理解任务中的优势,但其在多模态内容审核领域的应用仍未被充分探索,尤其是在需要同时理解视觉和文本线索的复杂场景中。本研究聚焦于品牌安全分类,这是内容审核的一个关键子领域,旨在保护广告的完整性。为此,我们引入了一个全新的多模态、多语言数据集,该数据集由专业审核员在多种风险类别下精心标注。通过详细的比较分析,我们展示了如Gemini、GPT和Llama等MLLMs在多模态品牌安全分类中的有效性,并评估了它们与专业人类审核员在准确性和成本效率方面的表现。此外,我们深入讨论了MLLMs的局限性和失败案例,揭示了其在实际应用中的潜在挑战。本研究同时发布了相关数据集,以促进未来在有效且负责任的品牌安全和内容审核领域的研究。本文的研究成果为内容审核技术的自动化发展提供了重要参考,同时也为平衡技术效率与伦理责任提供了新的视角。
多模态大语言模型内容审核品牌安全人工智能数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究创新性强,对内容审核领域有较大潜在影响。

MV-Debate:多视图代理辩论与动态反思门控在社交媒体多模态有害内容检测中的应用

ArXiv ID: 2508.05557
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Rui Lu, Jinhe Bi, Yunpu Ma, Feng Xiao, Yuntao Du, Yijun Tian
📄 中文摘要:
社交媒体已演变为一个复杂的多模态环境,其中文本、图像和其他信号相互作用,形成微妙的含义,常常隐藏有害意图。识别此类意图(如讽刺、仇恨言论或虚假信息)极具挑战性,原因包括跨模态矛盾、快速的文化变迁以及微妙的语用线索。为应对这些挑战,本文提出了MV-Debate,一种基于多视图代理辩论与动态反思门控的统一多模态有害内容检测框架。MV-Debate集成了四个互补的辩论代理:表面分析器、深度推理器、模态对比器和社会语境分析器,从不同的解释视角分析内容。通过迭代辩论和反思,代理在反思增益准则下优化响应,确保准确性和效率。实验在三个基准数据集上进行,结果表明MV-Debate显著优于强大的单模型和现有的多代理辩论基线。本研究强调了多代理辩论在推动安全关键的在线环境中可靠社交意图检测方面的潜力。研究背景在于社交媒体中多模态内容的复杂性及其对有害内容检测的挑战,主要方法是通过多视图代理的协作与动态反思机制实现内容的多维度分析,关键发现是该框架在准确性和效率上均表现出色,结论是多代理辩论为解决多模态有害内容检测问题提供了新的有效途径,并可能在未来进一步提升在线安全领域的应用效果。
多模态学习有害内容检测多代理辩论动态反思门控社交媒体
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态有害内容检测领域具有重要创新,可能对在线安全产生较大影响。

跟随指令:一个用于世界数据合成的全面多模态大语言模型代理

ArXiv ID: 2508.05580
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Kunyu Feng, Yue Ma, Xinhua Zhang, Boshi Liu, Yikuang Yuluo, Yinhan Zhang, Runtao Liu, Hongyu Liu, Zh
📄 中文摘要:
随着人工智能生成内容(AIGC)需求的不断增长,高质量、多样化且可扩展的数据变得至关重要。然而,收集大规模真实世界数据成本高昂且耗时,阻碍了下游应用的发展。尽管一些研究尝试通过渲染过程收集特定任务数据,但大多数方法仍依赖手动场景构建,限制了其可扩展性和准确性。为解决这些挑战,本文提出了‘跟随指令’(Follow-Your-Instruction),这是一个由多模态大语言模型(MLLM)驱动的框架,用于自动合成高质量的2D、3D和4D数据。该框架首先通过MLLM-Collector利用多模态输入收集资产及其相关描述;随后构建3D布局,并通过MLLM-Generator和MLLM-Optimizer结合视觉-语言模型(VLMs)对多视角场景进行语义优化;最后,利用MLLM-Planner生成时间上连贯的未来帧。本研究通过对2D、3D和4D生成任务的全面实验评估了生成数据的质量。结果表明,我们的合成数据显著提升了现有基线模型的性能,证明了‘跟随指令’作为生成智能的可扩展且有效的数据引擎的潜力。该方法不仅克服了传统数据收集的局限性,还为人工智能生成内容的多样化应用提供了新的可能性,具有重要的实际价值和研究意义。
多模态大语言模型数据合成人工智能生成内容视觉-语言模型3D布局
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性数据合成框架,具有较大应用潜力与影响力。

LLaVA-RE:基于多模态大语言模型的二元图像-文本相关性评估

ArXiv ID: 2508.05602
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Tao Sun, Oliver Liu, JinJin Li, Lan Ma
📄 中文摘要:
多模态生成式人工智能通常涉及根据一种模态的输入生成另一种模态的图像或文本响应。图像-文本相关性评估对于衡量响应质量或对候选响应进行排序至关重要。其中,二元相关性评估,即判断‘相关’与‘不相关’,是一个基本问题。然而,由于文本格式多样且相关性的定义在不同场景中存在差异,这一任务具有挑战性。研究发现,多模态大语言模型(MLLMs)是构建此类评估器的理想选择,因为它们能够灵活处理复杂的文本格式,并可融入额外的任务信息。本文提出了LLaVA-RE,这是首次尝试使用多模态大语言模型进行二元图像-文本相关性评估。LLaVA-RE遵循LLaVA架构,采用了详细的任务指令和多模态上下文样本。此外,本文还提出了一个涵盖多种任务的新型二元相关性数据集。实验结果验证了该框架的有效性,表明LLaVA-RE在处理不同任务和复杂文本格式时表现出较高的准确性和鲁棒性。研究的关键发现包括:通过结合任务特定指令和上下文样本,多模态大语言模型能够显著提升相关性评估的性能,尤其是在多样化场景下。结论指出,LLaVA-RE为多模态生成式AI的评估提供了一种创新且高效的解决方案,未来可进一步扩展到更广泛的应用场景中。
多模态大语言模型图像-文本相关性二元评估LLaVA-RE生成式人工智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态AI评估领域具有重要创新,可能对相关技术发展产生较大影响。

Uni-cot:迈向文本与视觉统一的思维链推理

ArXiv ID: 2508.05606
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Luozheng Qin, Jia Gong, Yuqing Sun, Tianjiao Li, Mengping Yang, Xiaomeng Yang, Chao Qu, Zhiyu Tan, H
📄 中文摘要:
本论文提出了一种名为Uni-cot的新方法,旨在将思维链(Chain-of-Thought, CoT)推理统一应用于文本和视觉语言任务中。CoT推理通过将复杂任务分解为一系列简单的子任务,显著提升了大型语言模型(LLMs)的性能。然而,将CoT扩展到视觉语言推理任务中仍面临挑战,主要由于视觉状态转换的复杂性以及现有方法在建模视觉状态转换能力上的局限性,或因架构碎片化导致的视觉轨迹不连贯。Uni-cot通过创新的统一架构设计,克服了这些问题,实现了文本和视觉数据的无缝集成与推理。研究中,作者提出了一种全新的模型框架,能够同时处理文本和视觉输入,并在推理过程中保持视觉状态的连贯性。通过一系列实验,Uni-cot在多个视觉语言推理任务上表现出色,相较于传统方法,其在准确性和推理一致性上均有显著提升。关键发现包括:Uni-cot能够有效捕捉视觉状态的动态变化,并在复杂任务中生成更具逻辑性的推理路径。此外,该方法还展示了较强的泛化能力,可适应不同类型的视觉语言数据集。论文结论指出,Uni-cot为视觉语言推理领域提供了一种全新的视角,并为未来多模态人工智能系统的发展奠定了基础。尽管如此,作者也指出了当前方法的局限性,例如对大规模数据集的计算需求较高,并提出了未来优化的方向,如降低计算成本和进一步提升模型对复杂场景的理解能力。
思维链推理视觉语言推理大型语言模型多模态人工智能统一架构
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: Uni-cot在视觉语言推理领域具有重要创新,可能显著影响多模态AI发展。

通过多模态检索增强基础模型理解蛋白质功能

ArXiv ID: 2508.04724
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Timothy Fei Truong Jr, Tristan Bepler
📄 中文摘要:
本研究聚焦于蛋白质语言模型(PLMs),这些模型通过学习自然蛋白质序列的概率分布,展现出在蛋白质理解和设计方面的潜力。研究背景表明,尽管模型规模的扩展提升了结构预测能力,但在突变理解和蛋白质功能预测的表示质量方面改进有限。为此,本文提出了PoET-2,一种多模态、检索增强的蛋白质基础模型。该模型结合了家族特异性进化约束的上下文学习,并可选地引入结构条件,以学习蛋白质序列的生成分布。PoET-2采用层次化的变换器编码器,对序列上下文顺序具有等变性,并结合双重解码器架构,同时实现因果语言建模和掩码语言建模目标,使其能够在完全生成和双向表示学习模式下运行。在零样本变异效应预测任务中,PoET-2取得了最先进的性能,尤其在评估多重突变和复杂的插入-删除(indel)突变评分方面表现突出。在有监督设置下,PoET-2的嵌入表示在学习序列-功能关系方面优于先前方法,特别是在小数据集上的表现尤为显著。本研究强调了将检索增强与多模态、家族中心建模相结合的益处,为推进蛋白质基础模型的发展提供了重要见解。结论表明,PoET-2不仅提升了蛋白质功能预测的精度,还为未来的蛋白质设计和理解研究奠定了坚实基础。
蛋白质语言模型多模态建模检索增强变异效应预测序列-功能关系
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在蛋白质功能预测领域具有重要创新,可能对生物信息学产生较大影响。

CodonMoE:用于mRNA分析的DNA语言模型

ArXiv ID: 2508.04739
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Shiyi Du, Litian Liang, Jiayi Li, Carl Kingsford
📄 中文摘要:
基因组语言模型(gLMs)面临一个基本的效率挑战:要么为每种生物学模态(DNA和RNA)维护独立的专门模型,要么开发大型多模态架构。两种方法均带来显著的计算负担——模态特定模型尽管存在生物学上的内在联系,却需要冗余的基础设施;而多模态架构则需要大量参数和广泛的跨模态预训练。为解决这一局限性,本研究提出了CodonMoE(自适应密码子改革专家混合模型),一种轻量级适配器,能够将DNA语言模型转化为有效的RNA分析工具,而无需进行RNA特定的预训练。理论分析表明,CodonMoE在密码子层面上是一个通用逼近器,只要专家容量足够,就能将任意函数从密码子序列映射到RNA属性。在涵盖稳定性、表达和调控的四个RNA预测任务中,配备CodonMoE的DNA模型显著优于未修改的模型,其中HyenaDNA+CodonMoE系列在使用比专门RNA模型少80%参数的情况下,取得了最先进的成果。通过保持次二次复杂度同时实现卓越性能,本方法为统一基因组语言建模提供了一条原则性路径,利用更丰富的DNA数据,减少计算开销,同时保留模态特定的性能优势。本研究为基因组语言模型的效率提升和跨模态应用提供了重要启示,为未来的生物信息学研究奠定了基础。
基因组语言模型CodonMoEDNA模型RNA分析计算效率
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新方法,显著提升效率和性能,具有较大潜力影响领域发展。

M2Chat:为多模态大语言模型赋能,实现交错文本-图像生成

ArXiv ID: 2311.17963
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Xiaowei Chi, Junbo Qi, Rongyu Zhang, Shanghang Zhang, Qifeng Liu, Yike Guo
📄 中文摘要:
当前的大语言模型(LLM)聊天机器人,如GPT-4V,通过连接人类指令与视觉表征实现了文本-图像生成,但其在多个下游任务上的高效对齐方法和高保真性能仍显不足。本文提出了一种新颖的统一多模态大语言模型框架M2Chat,旨在生成跨各种场景的交错文本-图像对话。具体而言,我们设计了M3Adapter模块,该模块能够高效整合来自多模态提示的细粒度低层次视觉信息和高层次语义特征。在良好对齐的融合特征基础上,M3Adapter采用可学习的门控策略,自适应地平衡模型在不同任务中的创造力与一致性。此外,为了进一步提升M3Adapter的有效性,同时保持语义上下文理解的连贯性,我们引入了两阶段M3FT微调策略。该策略分别针对图像-文本对齐和视觉指令优化不同的参数组。广泛的实验表明,M2Chat在多个基准测试中超越了最先进的同类模型,展现了其在交错生成、讲故事和多模态对话系统方面的强大能力。本研究的成果为多模态大语言模型在复杂任务中的应用提供了重要参考,其代码和演示已公开发布。
多模态学习大语言模型文本-图像生成M2Chat视觉对齐
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态生成领域具有重要创新,可能对未来研究产生较大影响。

StitchFusion:融合任意视觉模态以增强多模态语义分割

ArXiv ID: 2408.01343
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Bingyu Li, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li
📄 中文摘要:
多模态语义分割在复杂场景中显著提升了分割精度,但当前方法通常依赖于针对特定模态定制的特征融合模块,这限制了输入的灵活性并增加了训练参数量。为解决这些挑战,本文提出了StitchFusion,一种简单而有效的模态融合框架。该框架直接利用大规模预训练模型作为编码器和特征融合器,支持任意视觉模态输入,并实现了全面的多模态和多尺度特征融合。具体而言,StitchFusion在编码阶段通过共享多模态视觉信息实现模态整合。为增强跨模态信息交互,本文引入了多方向适配器模块(MultiAdapter),在编码过程中实现跨模态信息传递。通过MultiAdapter在预训练编码器间传播多尺度信息,StitchFusion在编码阶段完成了多模态视觉信息的整合。广泛的对比实验表明,该模型在四个多模态分割数据集上取得了最先进的性能,且额外参数量极少。此外,实验还展示了MultiAdapter与现有特征融合模块(FFMs)的互补性,验证了其在提升性能方面的潜力。本研究的代码已公开于StitchFusion_repo。本文提出的方法不仅在技术上具有创新性,还为多模态语义分割的灵活性和高效性提供了新的思路,对未来相关研究具有重要的参考价值。
多模态语义分割特征融合预训练模型跨模态信息计算机视觉
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 创新性强,方法有效且灵活,对多模态分割领域有较大潜力。

TokenFlow:用于多模态理解与生成的统一图像分词器

ArXiv ID: 2412.03069
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Liao Qu, Huichao Zhang, Yiheng Liu, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Daniel K. Du, Zehuan Yuan,
📄 中文摘要:
本文提出了TokenFlow,一种新颖的统一图像分词器,旨在弥合多模态理解与生成之间长期存在的差距。传统研究尝试使用单一的以重建为目标的向量量化(VQ)编码器来统一这两个任务,但研究发现,理解和生成任务对视觉信息的粒度需求存在根本差异,导致在多模态理解任务中的性能受到显著影响。TokenFlow通过创新的双码本架构解决了这一挑战,该架构解耦了语义特征和像素级特征的学习,同时通过共享映射机制保持两者的对齐。这种设计使得系统能够直接访问理解任务所需的高层次语义表征以及生成任务所需的细粒度视觉特征。广泛的实验表明,TokenFlow在多个维度上表现出色。基于TokenFlow,本文首次展示了离散视觉输入在理解性能上超越LLaVA-1.5 13B,平均提升了7.2%。在图像重建方面,TokenFlow在384×384分辨率下取得了0.63的优秀FID分数。此外,TokenFlow在自回归图像生成任务中以256×256分辨率取得了0.55的GenEval分数,确立了领域内最先进的性能,与SDXL的结果相当。研究结果表明,TokenFlow在多模态理解与生成任务中均展现出显著优势,为未来的多模态学习提供了重要的技术基础。
多模态学习图像分词器向量量化语义表征图像生成
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: TokenFlow在多模态学习领域具有重要创新,可能显著影响未来研究方向。

PromptDresser:通过生成性文本提示和提示感知掩码提升虚拟试穿的质量和可控性

ArXiv ID: 2412.16978
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Jeongho Kim, Hoiyeong Jin, Sunghyun Park, Jaegul Choo
📄 中文摘要:
近年来,虚拟试穿技术通过微调预训练的文本到图像扩散模型,显著提升了生成能力。然而,文本提示在虚拟试穿中的应用仍未被充分探索。本文提出了一种文本可编辑的虚拟试穿任务,旨在基于提供的服装图像修改服装,同时根据文本描述调整穿着风格(如塞衣方式、合身度)。在文本可编辑虚拟试穿中,存在三个关键问题:(i)为成对的人-服装数据设计丰富的文本描述以训练模型;(ii)解决现有人员服装的文本信息与新服装生成之间的冲突;(iii)根据文本描述自适应调整修复掩码,确保编辑区域准确,同时保留与新服装无关的原始人员外观。为解决这些问题,本文提出了PromptDresser,一种基于生成性文本提示的文本可编辑虚拟试穿模型,利用大型多模态模型(LMM)的辅助,实现高质量和多样化的操作。我们的方法通过上下文学习利用LMM,为人员和服装图像独立生成详细的文本描述,包括姿态细节和编辑属性,且人工成本极低。此外,为了确保编辑区域,我们根据文本提示自适应调整修复掩码。PromptDresser增强了文本可编辑性,同时有效传递仅通过图像难以捕捉的服装细节,从而提升图像质量。实验表明,PromptDresser显著优于基线方法,展现出卓越的文本驱动控制能力和多样化的服装操作能力。相关代码已公开于GitHub。
虚拟试穿文本提示生成模型多模态模型图像编辑
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在虚拟试穿领域提出创新方法,具有较大应用潜力与影响力。

人类认知基准揭示多模态大语言模型在基础视觉能力上的差距

ArXiv ID: 2502.16435
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Jen-Tse Huang, Dasen Dai, Jen-Yuan Huang, Youliang Yuan, Xiaoyuan Liu, Wenxuan Wang, Wenxiang Jiao,
📄 中文摘要:
尽管多模态大语言模型(MLLMs)在流行的多模态基准测试上取得了显著进展,但它们在人类能够轻松解决的基础视觉推理任务(如识别空间关系)上仍然表现不佳。为了系统性地研究这一差距,本研究引入了VisFactor基准测试,该基准数字化了来自一项成熟的认知心理学评估中的20个以视觉为中心的分测试。这些分测试涵盖了人类视觉认知的四个核心领域:(1)可视化与空间处理,(2)感知与闭合,(3)记忆,以及(4)推理。研究评估了来自GPT、Gemini、Claude、LLaMA、Qwen和SEED家族的20个前沿MLLM模型。表现最好的模型得分仅为25.19(满分100),在心理旋转、空间关系推断和图形-背景区分等任务上持续失败,无论模型规模或提示策略如何。这些发现表明,当前MLLM在高级基准测试上的性能提升并未反映出类似人类的基础视觉认知能力,挑战了大规模预训练自然诱导类格式塔感知能力的假设。研究还指出,现有模型在低层次视觉认知任务上的不足可能限制其在更复杂多模态任务中的表现。VisFactor数据集和评估工具已公开发布,可通过https://github.com/CUHK-ARISE/VisFactor获取。这一研究为理解MLLM的视觉认知局限性提供了重要视角,并为未来模型设计和训练策略的改进奠定了基础。
多模态大语言模型视觉认知空间推理VisFactor基准人类认知
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究揭示MLLM在基础视觉认知上的局限,具有重要的理论和实践意义。

多模态上下文中的检索增强生成基准测试

ArXiv ID: 2502.17297
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Zhenghao Liu, Xingsheng Zhu, Tianshuo Zhou, Xinyi Zhang, Xiaoyuan Yi, Yukun Yan, Ge Yu, Maosong Sun
📄 中文摘要:
随着多模态大型语言模型(MLLMs)的快速发展,其在理解图像和文本方面的能力显著提升。然而,这些模型在检索增强生成(RAG)中利用多模态上下文信息的潜力尚未被充分探索。本文提出了一种新的基准测试框架——多模态检索增强生成(M2RAG),旨在评估多模态大型语言模型在利用多模态检索文档知识方面的有效性。该基准测试包括四个任务:图像描述、多模态问答、多模态事实验证和图像重新排序,所有任务均设置在开放域环境中,要求RAG模型从多模态文档集合中检索与查询相关的信息,并将其作为上下文输入用于RAG建模。为了提升MLLMs在多模态上下文中的利用能力,本文还引入了一种新的指令微调方法——多模态检索增强指令微调(MM-RAIT),该方法优化了MLLMs在多模态环境下的表现。实验结果表明,MM-RAIT显著提升了不同RAG模型生成响应的质量,与MiniCPM-V 2.6和Qwen2-VL相比,性能分别提升了34%和33%。研究数据和代码已公开,供学术界进一步研究和验证。本文的研究为多模态RAG领域提供了重要的基准和方法支持,对推动多模态人工智能的发展具有重要意义。
多模态学习检索增强生成大型语言模型指令微调基准测试
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新基准和方法,对多模态RAG领域有较大影响。

CM-Diff:一种用于红外与可见光图像双向跨模态翻译的单一生成网络扩散模型

ArXiv ID: 2503.09514
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Bin Hu, Chenqiang Gao, Shurui Liu, Junjie Guo, Fang Chen, Fangcen Liu, Junwei Han
📄 中文摘要:
图像翻译是解决红外与可见光模态信息缺失问题的重要方法,同时也有助于增强特定模态的数据集。然而,现有的红外与可见光图像翻译方法要么仅实现单向模态翻译,要么依赖循环一致性进行双向模态翻译,这可能导致性能不佳。本研究提出了一种双向跨模态翻译扩散模型(CM-Diff),能够同时建模红外和可见光两种模态的数据分布。为了应对这一挑战,研究团队在训练过程中结合翻译方向标签进行指导,并引入跨模态特征控制。具体而言,本文将两种模态之间映射关系的建立视为学习数据分布和理解模态差异的过程,并通过一种新颖的双向扩散训练(BDT)方法实现。此外,研究还提出了一种统计约束推理(SCI)机制,以确保生成的图像紧密贴合目标模态的数据分布。实验结果表明,CM-Diff在性能上优于现有最先进的方法,展现了其在生成双模态数据集方面的潜力。这一模型不仅在技术上实现了双向翻译的高效性,还为跨模态数据增强提供了新的可能性。研究结论表明,CM-Diff在红外与可见光图像翻译领域具有重要的应用价值,可能为后续的多模态数据集构建和相关应用研究奠定基础。
跨模态翻译红外图像可见光图像扩散模型数据分布
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在跨模态翻译领域有重要创新,可能对数据集构建产生较大影响。

跨图像对比解码:大型视觉-语言模型中语言先验的精确无损抑制

ArXiv ID: 2505.10634
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng
📄 中文摘要:
大型视觉-语言模型(LVLMs)过度依赖语言先验是导致幻觉(hallucination)的主要原因,常常生成在语言上合理但在视觉上不一致的输出。近期研究探索了对比解码作为一种无需训练的解决方案,但这些方法通常通过扰动原始图像构建对比视觉输入,导致对比分布失真、对比信号不完整以及语言先验的过度抑制。基于语言先验在不同图像间往往保持一致的观察,本文提出了一种简单而有效的无需训练方法——跨图像对比解码(Cross-Image Contrastive Decoding, CICD),该方法使用无关图像作为对比视觉输入。为了解决过度抑制语言先验可能对生成响应质量产生负面影响的问题,本文进一步引入了一种基于跨图像模型行为差异的动态选择机制。通过选择性地抑制语言先验,该方法在不损害模型性能的前提下有效减少了幻觉现象。在多个基准测试和LVLMs上的广泛实验验证了CICD的有效性和泛化能力,特别是在语言先验占主导地位的图像描述任务中表现尤为突出。研究结果表明,CICD能够在保持生成质量的同时,显著降低视觉-语言模型中的幻觉问题,为未来的模型优化提供了新的思路。
视觉-语言模型对比解码语言先验幻觉抑制图像描述
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新方法解决LVLMs幻觉问题,具有较大潜在影响。

诊断与缓解多模态大语言模型中的模态干扰

ArXiv ID: 2505.19616
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Rui Cai, Bangzheng Li, Xiaofei Wen, Muhao Chen, Zhe Zhao
📄 中文摘要:
多模态大语言模型(MLLMs)在多种任务中展现了令人印象深刻的能力,但它们在区分任务相关与无关信号时常常遇到困难,尤其是在视觉问答(VQA)等任务中,容易受到误导性或虚假输入的影响。本研究将这一广泛局限性定义为跨模态能力问题,即模型无法公平评估所有模态的输入。在特定模态任务(如图像分类或纯文本问答)中,这一问题更为明显,模型应仅依赖单一模态,但无关模态的虚假信息往往导致性能显著下降,作者将其称为模态干扰,作为跨模态能力问题的具体且可测量的表现形式。为验证并量化这一问题,研究设计了基于扰动的因果诊断实验。此外,为缓解模态干扰,作者提出了一种新颖的框架对MLLMs进行微调,包括基于扰动的数据增强(采用启发式扰动和通过投影梯度下降(PGD)的对抗性扰动)以及对模型输出应用一致性正则化策略(针对原始和扰动输入)。在多个基准数据集(图像密集型、文本密集型和VQA任务)以及不同规模的多个模型家族上的实验表明,该方法在鲁棒性和跨模态能力方面取得了显著改进,证明了其在提升单模态推理能力的同时增强多模态任务性能的有效性。这一研究为多模态模型的健壮性设计提供了重要参考,并为解决跨模态能力问题奠定了基础。
多模态大语言模型模态干扰跨模态能力数据增强一致性正则化
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多模态模型鲁棒性方面有重要创新,可能对领域发展产生较大影响。

VLM4D:迈向视觉语言模型的时空感知能力

ArXiv ID: 2508.02095
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Do
📄 中文摘要:
视觉语言模型(VLMs)在整合语言和视觉推理方面展现了卓越的能力,但其在理解动态时空交互方面的能力仍存在根本性局限。人类能够轻松追踪和推理物体运动、旋转和视角变化,这些能力对于稳健的动态现实世界理解至关重要,但当前的VLMs明显缺乏这些能力。本文提出了VLM4D,这是首个专门设计用于评估VLMs时空推理能力的基准测试。该基准包括多样化的现实世界和合成视频,并配有精心设计的问答对,重点关注平移和旋转运动、视角感知以及运动连续性。通过对最先进的开源和闭源VLMs的全面评估,我们发现与人类基准相比存在显著的性能差距,凸显了现有模型的基本缺陷。深入分析表明,VLMs在整合多个视觉线索和保持时间连贯性方面尤其困难。我们进一步探索了有前景的研究方向,例如利用4D特征场重建和针对性的时空监督微调,证明了这些方法在增强时空理解方面的有效性。本研究旨在鼓励更深入地探索如何提升VLMs的空间和时间 grounding,为动态环境下的视觉智能提供更强大、更可靠的支持。这一工作不仅揭示了当前VLMs的局限性,还为未来的模型改进提供了明确的方向和方法论支持。
视觉语言模型时空推理VLM4D基准动态环境视觉智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新基准,推动VLMs时空能力发展,具有较大潜力影响领域。

Patho-AgenticRAG:通过强化学习实现面向病理学视觉语言模型的多模态代理检索增强生成

ArXiv ID: 2508.02258
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Wenchuan Zhang, Jingru Guo, Hengzhe Zhang, Penghao Zhang, Jie Chen, Shuwan Zhang, Zhang Zhang, Yuhao
📄 中文摘要:
尽管视觉语言模型(VLMs)在医学影像领域表现出较强的泛化能力,但病理学由于其超高分辨率、复杂的组织结构以及细微的临床语义,带来了独特的挑战。这些因素使得病理学VLMs容易产生幻觉,即生成与视觉证据不一致的输出,从而损害临床信任。现有的检索增强生成(RAG)方法在该领域主要依赖基于文本的知识库,限制了其利用诊断性视觉线索的能力。为解决这一问题,本文提出了Patho-AgenticRAG,一个多模态RAG框架,其数据库基于权威病理学教科书的页面级嵌入。与传统的纯文本检索系统不同,Patho-AgenticRAG支持文本-图像联合搜索,能够直接检索包含查询文本和相关视觉线索的教科书页面,从而避免关键图像信息的丢失。此外,该框架还支持推理、任务分解和多轮搜索交互,提升了复杂诊断场景下的准确性。实验结果表明,Patho-AgenticRAG在复杂病理任务(如多选诊断和视觉问答)中显著优于现有的多模态模型。本研究为病理学领域的多模态模型提供了新的解决方案,有助于提高诊断的准确性和临床可信度。项目代码已公开于Patho-AgenticRAG仓库。
病理学视觉语言模型多模态检索强化学习医学影像
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在病理学多模态模型领域具有重要创新,可能显著提升诊断精度。

原发性鼻咽癌MRI数据集与多模态分割

ArXiv ID: 2404.03253
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Yin Li, Qi Chen, Kai Wang, Meige Li, Liping Si, Yingwei Guo, Yu Xiong, Qixing Wang, Yang Qin, Ling X
📄 中文摘要:
本研究针对鼻咽癌(NPC)的早期诊断、肿瘤分割和疾病分期管理中多模态磁共振成像(MRI)数据的重要性,提出并公开了首个全面的鼻咽癌MRI数据集。由于缺乏公开的综合性数据集,鼻咽癌的诊断、治疗规划以及机器学习算法的发展受到限制。为解决这一关键需求,本研究收集了277名原发性鼻咽癌患者的MRI轴位成像数据,包括T1加权、T2加权和对比增强T1加权序列,共计831次扫描。该数据集不仅包含相应的临床数据,还提供了由经验丰富的放射科医生手动标注和分割的高质量数据资源,这些数据来源于未经治疗的原发性鼻咽癌患者。这一数据集的建立为鼻咽癌的诊断和治疗研究提供了宝贵的资源,有助于推动相关领域的机器学习算法开发和临床应用。通过公开这一数据集,研究人员可以更好地探索多模态MRI在鼻咽癌管理中的潜力,进而提升早期诊断的准确性和治疗效果。本研究为鼻咽癌相关研究奠定了重要基础,并有望促进医学影像学与人工智能技术的结合,改善患者预后。
鼻咽癌MRI数据集多模态成像肿瘤分割医学影像学
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 数据集填补了鼻咽癌研究空白,具有重要创新性和潜在影响力。

MM2CT:基于Mamba的多模态图像融合的MR到CT转换

ArXiv ID: 2508.05476
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Chaohui Gong, Zhiying Wu, Zisheng Huang, Gaofeng Meng, Zhen Lei, Hongbin Liu
📄 中文摘要:
磁共振(MR)到计算机断层扫描(CT)的转换技术具有显著优势,包括消除CT扫描相关的辐射暴露以及减轻患者运动引起的成像伪影。然而,现有方法主要基于单模态MR到CT的转换,针对多模态融合的研究较为有限。为解决这一问题,本文提出了一种多模态MR到CT(MM2CT)转换方法,利用多模态T1和T2加权MRI数据,结合创新的基于Mamba的框架进行多模态医学图像合成。Mamba框架有效克服了卷积神经网络(CNN)中局部感受野有限的问题以及Transformer模型高计算复杂度的问题。MM2CT充分利用这一优势,保持长距离依赖建模能力,同时实现多模态MR特征的整合。此外,本文还引入了动态局部卷积模块和动态增强模块,以提升MRI到CT的合成质量。在公开的骨盆数据集上的实验表明,MM2CT在结构相似性指数(SSIM)和峰值信噪比(PSNR)等指标上取得了最先进的性能,验证了该方法的有效性和优越性。研究成果为医学图像处理领域提供了新的技术手段,有助于减少患者在诊断过程中的辐射暴露,并提升图像合成的精度和临床应用价值。本文的代码已公开,供学术界进一步研究和验证。
多模态图像融合MR到CT转换Mamba框架医学图像合成动态卷积
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在医学图像处理领域具有重要创新性,可能对临床应用产生较大影响。

通过图像风格迁移实现MR与超声图像的粗到精联合配准

ArXiv ID: 2508.05240
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Junyi Wang, Xi Zhu, Yikun Guo, Zixi Wang, Haichuan Gao, Le Zhang, Fan Zhang
📄 中文摘要:
本研究提出了一种用于配准术前磁共振(MR)图像和术后切除超声(US)图像的处理流程。研究背景在于解决MR和US图像由于成像模态差异带来的配准难题,这在医学影像分析和手术导航中具有重要意义。作者利用无配对的风格迁移技术,基于3D CycleGAN生成合成的T1图像,从而显著提升配准性能。具体方法上,该流程采用了粗到精的配准策略,首先通过仿射变换实现全局对齐,随后通过局部变形变换进一步优化细节配准。实验结果表明,该方法在大多数情况下有效提高了MR和US图像对之间的一致性,特别是在处理复杂的术后图像变化时表现出较好的鲁棒性。关键发现包括风格迁移技术在跨模态图像配准中的潜力,以及粗到精策略在提高配准精度方面的优势。结论指出,该方法为医学影像配准提供了一种创新且实用的解决方案,未来可进一步优化算法效率并扩展到其他跨模态影像任务中。
图像配准风格迁移磁共振图像超声图像3D CycleGAN
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在医学影像配准领域具有重要创新,可能对临床应用产生较大影响。

视觉语言模型能否理解模仿动作?

ArXiv ID: 2506.21586
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Hyundong Cho, Spencer Lin, Tejas Srinivasan, Michael Saxon, Deuksin Kwon, Natali T. Chavez, Jonathan
📄 中文摘要:
非语言交流(NVC)在人类语言中扮演着重要角色,但由于其广泛性和个体及文化间解释的巨大差异,研究NVC具有挑战性。然而,哑剧——一种仅通过手势、表情和动作来表达意图的戏剧技巧——作为NVC的一个子集,具有明确的具身动作,且人类对其解释的差异较小。本研究认为,理解哑剧动作是视觉语言模型能够解释和指令更微妙NVC方面的关键前提。为此,作者提出了一个新的基于视频的问答基准测试——哑剧识别多模态评估(MIME),包含86种哑剧动作。MIME使用动作捕捉数据构建,涵盖了每种动作在角色、背景和视角上的多种变化,以评估识别的鲁棒性。研究发现,无论是开源权重还是基于API的视觉语言模型,在MIME上的表现均显著低于人类水平。这表明,当前模型在理解人类手势方面存在不足,亟需进一步研究以增强其对人类手势的鲁棒理解能力。本文通过MIME基准测试,为视觉语言模型在非语言交流领域的应用提供了重要的测试平台,并指出了未来研究的方向,即如何提升模型对复杂人类行为的理解和建模能力。这一研究不仅有助于推动人工智能在多模态交互中的发展,也为跨文化交流中的非语言理解提供了新的视角。
视觉语言模型非语言交流哑剧动作多模态评估人类手势
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 论文提出新颖基准测试,对视觉语言模型研究有重要推动作用。

疼痛识别的多表示图:将多种皮肤电活动信号整合为单一图像

ArXiv ID: 2507.21881
发布日期: 2025-08-08
聚类ID: 聚类 8
📝 作者: Stefanos Gkikas, Ioannis Kyprakis, Manolis Tsiknakis
📄 中文摘要:
疼痛是一种复杂的现象,影响着大量人群。可靠且一致的疼痛评估对患者有益,并为开发有效和先进的管理策略奠定了基础。自动疼痛评估系统能够提供持续监测,支持临床决策,旨在减轻痛苦并防止功能下降。通过整合生理信号,这些系统为个体的状况提供了客观、准确的洞察。本研究提交至《第二届多模态感知大挑战:下一代疼痛评估(AI4PAIN)》。研究提出了一种新颖的处理流程,以皮肤电活动信号作为输入模态,创建信号的多种表示形式,并将其可视化为波形,最终在单一多表示图中联合呈现。通过结合多种处理和滤波技术以及多种表示组合的广泛实验,证明了所提出方法的有效性。该方法在多个案例中表现出与传统融合方法相当甚至更优的结果,确立了其作为整合不同信号表示或模态的强大替代方案的地位。研究背景聚焦于疼痛评估的自动化需求,方法创新在于将多重信号表示整合为单一图像以提高识别精度,关键发现包括多表示图在疼痛识别任务中的优越性能,结论指出该方法为多模态数据融合提供了新的视角和可能性,有望在临床应用中发挥重要作用。
疼痛识别皮肤电活动多表示图多模态感知自动评估
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在疼痛评估领域具有重要创新,可能对临床应用产生较大影响。