← 返回总览

计算机科学-语言与视觉

2025-08-07 K-means智能聚类结果

聚类 3 • 机器学习算法识别
80 论文总数
80 高分论文
7.9 平均评分
7 关键词数

🔍 聚类关键词特征

语言视觉评估文本图像语音基准

FeynTune:用于高能理论的大语言模型

ArXiv ID: 2508.03716
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Paul Richmond, Prarit Agarwal, Borun Chowdhury, Vasilis Niarchos, Constantinos Papageorgakis
📄 中文摘要:
本文提出了一种专门针对高能理论物理学的大语言模型(LLM),通过对拥有80亿参数的Llama-3.1模型进行微调,生成20个不同的变体。每个变体基于arXiv上截至2024年8月的摘要数据进行训练,数据涵盖高能理论(hep-th)、高能现象学(hep-ph)和经典与量子引力(gr-qc)等领域的不同组合。此外,研究还包括了对生物学(q-bio)和计算机科学(cs)等非相关领域摘要数据集的训练,以进行对比分析。所有模型采用两种低秩适应(LoRA)微调方法(LoRA-QKV和LoRA-all)以及不同规模的数据集进行训练,并在hep-th摘要补全任务上显著优于基础模型。研究发现:1)所有基于hep-th摘要训练的模型在补全任务中表现优于基础模型;2)通过增加其他领域的数据集(如hep-ph、gr-qc甚至cs和q-bio)可以提升性能,尤其是在hep-th文献库相对较小的情况下,跨领域数据增强了模型的创造性;3)仅基于非hep-th领域训练的模型在hep-th测试集上的表现较差,但仍优于基础模型;4)与主流商业LLM(如ChatGPT、Claude、Gemini、DeepSeek)相比,微调模型在技术语言使用上具有竞争力,但由于仅基于摘要训练,事实准确性有限。研究还探讨了模型在语义相似性、困惑度和人工评估方面的表现,指出未来的改进方向包括使用完整论文进行训练、扩展为对话式研究助手以及结合检索增强生成(RAG)和强化学习以提升推理能力。本研究作为概念验证,为高能理论物理学领域的专用语言模型开发奠定了基础。
大语言模型高能理论物理微调低秩适应arXiv摘要
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在高能理论物理与AI交叉领域具有重要创新,可能推动专用科学模型的发展。

基于大型语言模型的集成电路足迹几何理解

ArXiv ID: 2508.03725
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yida Wang, Taiting Lu, Runze Liu, Lanqing Yang, Yifan Yang, Zhe Chen, Yuehai Wang, Yixin Liu, Kaiyua
📄 中文摘要:
本文研究了集成电路(IC)印刷电路板(PCB)足迹几何标注的重要性及其在定义组件与PCB布局物理接口中的关键作用。由于足迹图纸的无结构性和抽象图表注释,自动解析和精确的足迹几何建模面临巨大挑战。当前尚无直接从IC机械图纸中自动进行封装几何标注的方法。本文首次探讨了大型多模态模型(LMMs)在解决IC足迹几何理解问题时的视觉感知性能,发现现有LMMs在几何感知精度上存在严重不足,限制了其在足迹几何标注中的表现。为解决这一问题,作者提出了LLM4-IC8K框架,将IC机械图纸视为图像,利用大型语言模型(LLMs)进行结构化几何解释,模仿人类工程师的逐步推理方法,处理引脚数量感知、引脚中心坐标计算和引脚尺寸估计三个子任务。框架采用两阶段训练策略,首先在合成生成的IC足迹图上训练LMMs以学习基本几何推理,然后在真实数据表图纸上进行微调以提升在实际场景中的鲁棒性和准确性。为支持这一研究,作者引入了ICG EO8K多模态数据集,包含8608个标注样本,其中4138个为手工制作的IC足迹样本,4470个为合成生成样本。实验表明,LLM4-IC8K在提出的基准测试中显著优于现有最先进的LMMs,其足迹图精确转换能力有助于推动PCB行业的标准化。研究还通过与传统电子设计自动化(EDA)工具的比较,展示了其在效率上的突破,平均每样本生成时间仅为0.26分钟,相比传统工具减少了高达58倍的时间,同时保持了相当的准确性。作者指出,尽管取得了显著进展,未来可通过强化学习等方法进一步提升模型性能,并计划扩展真实数据集规模以建立更全面的基准。
集成电路足迹几何大型语言模型印刷电路板多模态数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新框架和数据集,对PCB设计自动化有重要影响,可能推动行业标准化。

GanitBench:评估视觉语言模型数学推理能力的双语基准

ArXiv ID: 2508.03737
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Ashutosh Bandooni, Brindha Subburaj
📄 中文摘要:
本文介绍了GanitBench,一个全新的双语数学推理基准数据集,旨在评估视觉语言模型(VLMs)在数学问题解决中的能力。该数据集包含1527个仅视觉的问题,涵盖了多个数学主题,并以英语和印地语两种语言提供。数据来源于印度两大重要考试——JEE Advanced和CBSE董事会考试,包含图像形式的题目及其必要图形和文本信息。研究通过零样本和两样本思维链(CoT)设置,对两种闭源模型(GPT-4o mini和Claude 3 Haiku)进行了评估。结果显示,GPT-4o mini在基准测试中表现更优,其最高平均准确率为38.15%。此外,研究引入了“双重锁定”约束条件,即仅当英语和印地语版本的答案均正确时才认为问题被正确解答,这一约束显著降低了模型的性能。研究还发现,两样本CoT设置在该环境下表现更为有效,而模型在印地语问题上的表现普遍低于英语问题。本文的主要贡献包括提供一个双语数学基准数据集、评估闭源VLMs在不同设置下的表现,以及在常规条件和“双重锁定”约束下的结果分析。作者希望通过此工作促进印地语等语言在研究中的纳入,并推动非英语语言数学推理领域的发展。未来可扩展至更多学科和印度其他重要考试及语言。
数学基准多模态推理视觉语言模型双语数据集思维链
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在双语数学推理基准领域具有重要创新,可能对视觉语言模型评估产生较大影响。

通过布局保留的内容替换生成合成发票

ArXiv ID: 2508.03754
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Bevin V, Ananthakrishnan P V, Ragesh KR, Sanjay M, Vineeth S, Bibin Wilson
📄 中文摘要:
本研究提出了一种新颖的流水线方法,用于生成高保真的合成发票文档及其对应的结构化数据,以解决自动发票处理中机器学习模型对大规模多样化数据集的需求。研究背景源于真实发票数据获取受隐私法规限制及手动标注成本高昂的问题。作者设计了一个多阶段流程,首先通过光学字符识别(OCR)技术从源发票中提取文本内容和精确的空间布局;随后,利用大型语言模型(LLM)生成上下文合理的合成内容替换选定数据字段;最后,采用图像修复技术擦除原始文本并在相同位置渲染新的合成文本,确保布局和字体特征的一致性。该方法产出一对输出:视觉上逼真的新发票图像和与之完美对齐的结构化数据文件(JSON格式)。实验结果表明,该流水线能够从单一源文档生成多样化的合成发票,保持视觉真实性和语义合理性,为文档智能模型的训练提供了可扩展的解决方案。研究还讨论了当前方法的局限性,如对OCR质量的依赖及未生成非文本元素(如标志),并提出了未来改进方向,包括改进OCR依赖性和生成非文本元素等。结论指出,该方法有效缓解了数据稀缺问题,有助于构建更鲁棒和准确的发票处理模型。
合成发票文档智能光学字符识别大型语言模型数据增强
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性合成数据生成方法,对文档智能领域有较大潜在影响。

Refine-IQA:多阶段强化微调用于感知图像质量评估

ArXiv ID: 2508.03763
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Ziheng Jia, Jiaying Qian, Zicheng Zhang, Zijian Chen, Xiongkuo Min
📄 中文摘要:
本文提出了一种名为Refine-IQA的多阶段强化微调(RFT)框架,旨在提升大型多模态模型(LMM)在图像质量评估(IQA)任务中的性能。研究背景源于现有IQA方法在监督微调(SFT)中易出现过拟合问题,且缺乏对模型“思考”过程的有效监督,导致其在低层次视觉质量感知和复杂指令遵循上的局限性。Refine-IQA通过两阶段训练解决这些问题:第一阶段基于新构建的Refine-Perception-20K数据集(包含20,907张图像、12种主要失真类型和超过55K个RFT样本),设计多任务奖励机制,增强模型对低层次视觉质量失真的感知能力;第二阶段针对质量评分任务,引入概率差异奖励策略,隐式监督“思考”过程,确保其对最终决策的贡献。实验结果表明,Refine-IQA系列模型在质量感知和评分任务上表现出色,特别是在6个IQA数据集上的评分性能显著优于现有方法。此外,该框架激活了模型强大的质量解释能力,在质量解释基准测试中也取得了优异结果,仅用约13K个评分标签的RFT训练即可媲美大规模SFT训练的LMM。研究结论表明,Refine-IQA为开发高效、标注友好的视觉质量评估代理提供了重要见解,同时在功能鲁棒性上展现了潜力。未来工作将探索更大规模模型和训练策略的性能上限。
图像质量评估强化微调大型多模态模型视觉质量感知概率差异奖励
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在IQA领域提出创新性框架,具有较大影响力,可能推动LMM在视觉质量评估中的应用。

HPSv3:迈向广谱人类偏好评分

ArXiv ID: 2508.03789
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li
📄 中文摘要:
本文提出了一种新的广谱人类偏好评分方法HPSv3,旨在解决现有文本到图像生成模型评估中与人类感知对齐的挑战。研究背景聚焦于当前人类中心评估指标的局限性,包括数据覆盖不足、特征提取不佳和损失函数效率低下等问题。为此,作者发布了HPDv3数据集,这是首个综合性广谱人类偏好数据集,包含108万对文本-图像对和117万对标注的成对比较数据,涵盖了最先进的生成模型输出以及从低到高质量的真实图像。研究方法上,HPSv3引入了基于视觉语言模型(VLM)的偏好模型,通过不确定性感知的排名损失进行训练,以实现细粒度的排名评估。此外,作者提出了人类偏好链(CoHP),一种迭代图像优化方法,利用HPSv3在每一步选择最佳图像,从而在无需额外数据的情况下提升图像质量。关键发现表明,HPSv3作为广谱图像评估的鲁棒指标,显著优于现有方法,在多个数据集上的偏好预测准确率达到领先水平(例如在HPDv3测试集上准确率为76.9%)。实验还验证了CoHP在提升图像生成质量方面的有效性,生成的图像在语义一致性、真实感和美学吸引力上更符合人类偏好。结论指出,HPSv3和HPDv3为文本到图像生成模型的评估提供了新的基准,而CoHP为图像生成质量的改进提供了高效且与人类对齐的方法。代码和数据集已公开,供学术研究使用。
人类偏好评分文本到图像生成HPSv3HPDv3图像质量评估
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: HPSv3在文本到图像生成评估领域具有重要创新,可能对模型对齐人类偏好产生较大影响。

随机语言的身份测试

ArXiv ID: 2508.03826
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Smayan Agarwal, Shobhit Singh, Aalok Thakkar
📄 中文摘要:
本文首次对随机语言的身份测试进行了理论研究,将形式语言理论与现代分布性质测试相结合,扩展了经典有限域分布测试到无限且结构化的形式语言领域。研究背景源于计算语言学、生物信息学和程序分析中对无限组合结构(如字符串)上分布测试的需求。作者提出了一种多项式时间算法,用于验证有限状态机是否表示随机语言,并证明了有理随机语言可以近似任意概率分布。基于此,开发了一种基于截断的身份测试算法,通过限制支持集大小,将问题转化为有限域测试,利用有理随机语言的指数衰减特性控制截断误差,样本复杂度为Θ(√n/ε2 + n/log n),其中n为截断支持集的大小。关键发现包括:为无限离散分布建立了首个身份测试框架,证明了非负代价寄存器自动机的有效性验证的多项式时间可判定性,以及通过几何分布混合实现通用近似定理。结论指出,尽管字符串域的无限离散性质带来了挑战,但有理随机语言的结构约束使得高效统计测试成为可能,为概率形式方法和结构化数据的统计分析开辟了新方向。未来工作包括优化样本复杂度、扩展到概率上下文无关文法以及探索神经序列模型的应用。
身份测试随机语言加权自动机分布测试形式语言
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在无限分布测试领域具有重要创新,可能对形式语言和概率方法产生较大影响。

MegaWika 2:一个更全面的多语言文章及其来源数据集

ArXiv ID: 2508.03828
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Samuel Barham, Chandler May, Benjamin Van Durme
📄 中文摘要:
本文介绍了MegaWika 2,一个大规模、多语言的维基百科文章数据集,包含文章引用及其抓取的网络来源。相比于原始的MegaWika数据集,MegaWika 2在文章数量上增加了六倍,完整抓取的引用数量翻倍,涵盖了50种语言,共计7700万篇文章和1.72亿个引用,其中6300万引用附有抓取的来源文本。数据集以丰富的结构化形式表示文章内容,并精确记录引用在文章文本中的字符偏移量。MegaWika 2的设计重点在于支持事实核查以及跨时间和语言的分析,同时也适用于报告生成研究和大型语言模型(LLM)的预训练与微调。相比MegaWika 1,MegaWika 2在数据质量和数量上均有显著提升,包括更详细的文章结构表示(如段落分句、表格、信息框等元素的提取)、来源文本质量评估、改进的翻译质量(使用NLLB-200模型)、以及跨语言链接和修订日期等数据增强功能。研究团队通过四个处理流程(提取、翻译、来源质量评估和数据增强)构建数据集,并计划通过增量更新支持时间维度的研究。关键发现包括:尽管整体引用提取率有所下降,但MegaWika 2在覆盖范围和结构化信息方面提供了更丰富的资源;翻译质量通过困惑度评估显示出显著改进,尤其是在大多数语言中。结论指出,MegaWika 2为多语言报告生成、事实核查及相关领域的研究提供了重要支持,并为未来的LLM训练和数据漂移分析奠定了基础。文章也指出了局限性,如语言覆盖不足和数据标准化可能带来的信息丢失问题。
多语言数据集维基百科事实核查报告生成大型语言模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: MegaWika 2在多语言NLP领域具有重要创新,数据规模和结构化设计可能带来较大影响。

面向大型语言模型的多数位感知水印技术

ArXiv ID: 2508.03829
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Jiahao Xu, Rui Hu, Zikai Zhang
📄 中文摘要:
随着大型语言模型(LLMs)在现实世界应用中的广泛部署,其生成有害或欺骗性内容的风险日益增加。为解决这一问题,水印技术成为一种有前景的解决方案,通过在生成的文本中嵌入可识别的二进制信息以实现来源验证和误用追踪。本研究提出了一种新颖的水印方法MajorMark,通过多数位感知编码改善了文本质量与解码准确性之间的基本权衡。MajorMark基于消息的多数位选择优选词集,允许更大且更灵活的词采样范围,从而在保持内容质量的同时,通过基于聚类的解码策略维持高解码准确性。此外,研究还引入了MajorMark+,通过将消息分割为多个块进行独立编码和确定性解码,进一步提升了水印文本的质量和解码精度。实验结果表明,MajorMark和MajorMark+在最新的大型语言模型上显著优于现有的多位水印基准方法,在解码准确性和文本生成质量方面均表现出色。研究还验证了方法在面对文本篡改攻击时的鲁棒性,显示出其在实际应用中的潜力。总之,本研究通过创新的编码和解码策略,为大型语言模型的水印技术提供了重要的改进,平衡了实用性和安全性需求。
大型语言模型水印技术多数位感知文本质量解码准确性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新水印方法,对LLM安全性和可追溯性有重要贡献,可能影响领域发展。

If-T:类型收窄的基准测试

ArXiv ID: 2508.03830
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Hanwen Guo (University of Utah, USA), Ben Greenman (University of Utah, USA)
📄 中文摘要:
本文提出了If-T,一个用于评估类型收窄系统的语言无关设计基准测试,旨在解决动态类型语言中静态类型系统设计中的挑战。研究背景聚焦于动态类型程序中常见的运行时测试驱动的控制流,这要求类型系统具备基于条件测试沿控制路径细化类型环境的能力,即流敏感类型收窄。类型收窄需要表达集合与子集的概念,而集合论类型的复杂性在计算和人体工程学上带来了设计权衡问题。If-T通过一系列简单程序,刻画了类型收窄系统的核心能力,关注其验证正确代码和拒绝错误代码的能力,而非传统的性能测试。基准测试基于类型收窄文献、渐进类型语言(如TypeScript)的文档以及类型检查器实现实验,识别出类型收窄的四个核心技术维度:基本收窄、复合结构收窄、高级控制流和自定义谓词支持。每个维度包含多个主题,并为每个主题设计了至少两个程序(一个应通过类型检查,一个不应通过)。If-T已在五个类型检查器(TypeScript、Flow、Typed Racket、mypy和Pyright)上实现,揭示了它们在逻辑推导追踪和自定义谓词类型检查等方面的差异。研究发现,基本收窄功能在主流类型系统中已达成共识,但高级控制流和自定义谓词支持存在显著差异。If-T为研究者和语言设计者提供了评估类型系统精度与性能权衡的基线,帮助未来设计在精度、注释负担和性能之间取得更好平衡。结论强调,If-T作为设计基准测试,为类型收窄系统的表达能力和 soundness 提供了首个严谨的比较基础,并期待其在更多语言间促进类型收窄思想的交流。
类型收窄渐进类型动态语言基准测试流敏感类型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出If-T基准测试,为类型收窄系统设计提供了重要参考,可能对渐进类型领域产生较大影响。

遗传编程与大型语言模型在程序合成中的比较:无明显胜者

ArXiv ID: 2508.03966
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Jose Guadalupe Hernandez, Anil Kumar Saini, Gabriel Ketron, Jason H. Moore
📄 中文摘要:
本研究比较了遗传编程(GP)和大型语言模型(LLMs)在程序合成任务中的表现,具体聚焦于PushGP和GPT-4o在PSB2基准测试套件上的性能。研究背景在于程序合成作为人工智能领域的重要目标,旨在根据用户提供的规格自动生成计算机程序。GP主要通过输入-输出示例来推导程序行为,而LLMs则可以通过文本描述或示例生成代码。本文通过三种GPT-4o提示变体(仅数据、仅文本、数据与文本结合)以及不同数量的输入-输出示例(50和200个训练案例)进行实验,评估了四种程序合成器的成功率和生成程序的相似性。研究发现,PushGP与GPT-4o(数据-文本提示)结合使用时解决了最多的任务(25个任务中的23个),但没有单一合成器在所有条件下始终占优。GPT-4o在数据-文本提示下表现最佳,解决了18个任务,且不受训练集大小影响;而仅依赖输入-输出示例的PushGP和GPT-4o(仅数据提示)在训练集减少时表现下降。此外,GPT-4o生成的成功程序在不同提示变体下相似性存在显著差异,数据-文本提示的相似性介于仅数据和仅文本之间。结论指出,PushGP和GPT-4o的结合使用能够最大化程序合成的成功率,强调了不同优化技术在特定任务中的互补性,并为未来研究提供了探索程序相似性来源的方向。
遗传编程大型语言模型程序合成PushGPGPT-4o
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文在程序合成领域具有重要创新,揭示了GP与LLM的互补优势,可能对未来研究产生较大影响。

StepWrite:语音驱动文本生成的适应性规划

ArXiv ID: 2508.04011
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Hamza El Alaoui, Atieh Taheri, Yi-Hao Peng, Jeffrey P. Bigham
📄 中文摘要:
本研究提出了一种名为StepWrite的创新型语音交互系统,旨在通过大型语言模型(LLM)驱动的适应性规划,支持在移动中进行免手免眼的结构化长篇文本撰写。研究背景源于当前语音转文本系统在处理复杂、上下文丰富的长篇文本时存在局限,尤其是在用户无法视觉跟踪进度的情况下。StepWrite通过将写作过程分解为可管理的小任务,并以上下文感知的非视觉音频提示逐步引导用户,显著降低了认知负荷。系统根据用户意图和上下文动态调整提示,确保连贯性指导而不损害用户自主性。研究方法包括与25名参与者进行的实证评估,参与者在移动和静止的手忙场景下使用StepWrite、标准听写工具(如Microsoft Word)和对话式语音助手(如ChatGPT高级语音模式)完成写作任务。关键发现表明,StepWrite在减少认知负荷、提高可用性和用户满意度方面显著优于基准方法。技术评估进一步确认了StepWrite在动态上下文提示生成、语调对齐和事实核查方面的能力。结论指出,结构化、上下文感知的语音交互在日常多任务场景中增强了免手免眼通信的潜力,为可穿戴设备和多任务环境中的写作支持提供了新的可能性。未来工作将集中在个性化提示粒度、多模态反馈集成以及长篇文档的层次化支持上。
语音界面适应性规划任务分解免手写作大型语言模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在人机交互领域具有重要创新性,可能对语音驱动写作工具的发展产生较大影响。

双重提示学习:适配视觉-语言模型用于下游图像-文本检索

ArXiv ID: 2508.04028
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yifan Wang, Tao Wang, Chenwei Tang, Caiyang Yu, Zhengqing Zang, Mengmi Zhang, Shudong Huang, Jianche
📄 中文摘要:
本文针对预训练视觉-语言模型(VLMs)在下游图像-文本检索(ITR)任务中的适配难题,提出了一种新颖的双重提示学习框架——联合类别-属性重加权双重提示学习(DCAR)。研究背景源于现有提示学习方法在处理ITR任务时难以同时捕捉细粒度属性和区分相似子类别的问题。DCAR通过从语义和视觉两个维度动态调整提示向量,优化CLIP模型在下游ITR任务中的性能。具体方法包括:(1)在属性层面,基于文本-图像互信息相关性动态更新属性描述的权重,以增强属性识别能力;(2)在类别层面,通过引入多视角负样本和类别匹配加权,学习子类别之间的细微差异,从而提升细粒度表示学习。为验证方法的有效性,作者构建了细粒度描述检索数据集(FDRD),包含超过1500个下游细粒度类别和23万对图像-文本对,并附有详细的属性标注,作为ITR任务的挑战性基准。实验结果表明,DCAR在FDRD数据集上的表现优于现有基线方法,特别是在细粒度属性识别和子类别区分方面展现出显著优势。研究结论指出,DCAR为提示学习在分类任务之外的应用提供了新方向,尤其是在需要细致视觉推理的领域具有潜力。未来工作将进一步扩展到多模态推理任务,并提升跨领域鲁棒性。
细粒度图像-文本检索提示学习跨模态匹配视觉-语言模型细粒度数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新性双重提示学习框架DCAR,对下游图像-文本检索有较大影响潜力。

超越可见:多模态大语言模型中遮挡感知的基准测试

ArXiv ID: 2508.04059
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Zhaochen Liu, Kaiwen Gao, Shuyi Liang, Bin Xiao, Limeng Qiao, Lin Ma, Tingting Jiang
📄 中文摘要:
本文针对多模态大语言模型(MLLMs)在遮挡感知方面的性能进行了深入研究,遮挡感知是人类空间理解的重要基础,涉及视觉识别与推理的整合。尽管MLLMs展现出卓越的能力,但其在遮挡感知上的表现尚未被充分探索。为填补这一空白,作者提出了O-Bench,这是首个专门针对遮挡感知设计的视觉问答(VQA)基准测试。基于SA-1B数据集,通过创新的分层合成方法构建了1365张具有语义一致性的遮挡场景图像,并标注了总计4588个问答对,涵盖五个定制任务,包括二元关系识别、遮挡识别、整体描述、整体推理和遮挡率估计,采用可靠的半自动工作流程完成标注。对22个代表性MLLMs的广泛评估与人类基准对比显示,当前MLLMs与人类在遮挡感知上存在显著性能差距,即使是表现最好的模型Gemini-2.5-Pro也落后人类27.4个百分点。研究发现,模型规模扩展或思考过程改进均不足以弥合这一差距。此外,作者识别出三种典型的失败模式:过于保守的偏见、脆弱的整体预测以及在定量任务上的困难。研究结果表明,MLLMs在基本遮挡识别任务上的准确率接近随机猜测,而在高级任务上的表现与人类差距更大。O-Bench不仅为遮挡感知提供了一个重要的评估工具,还为开发更具视觉智能的MLLMs提供了启发。作者计划在论文发表后公开O-Bench数据集,以促进社区对遮挡感知问题的关注,并推动缩小与人类视觉智能的差距。
遮挡感知多模态大语言模型视觉问答基准测试视觉智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出O-Bench基准,具有重要创新性,可能显著影响多模态模型在遮挡感知领域的研究。

基于大语言模型的自动语音识别的高效扩展

ArXiv ID: 2508.04096
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Bingshen Mu, Yiwen Shao, Kun Wei, Dong Yu, Lei Xie
📄 中文摘要:
本文研究了如何在有限计算资源下高效训练基于大语言模型(LLM)的自动语音识别(ASR)系统以获得最佳性能。研究背景指出,尽管LLM-ASR在语音识别精度上取得了显著进展,但其高计算成本限制了广泛应用。作者通过全面且受控的实验发现,在与LLM集成之前对语音编码器进行预训练,可以显著提高扩展效率,优于传统的LLM-ASR联合后训练方法。基于这一洞察,作者提出了一种新的多阶段训练策略——EFIN(Encoder First Integration),包括三个阶段:首先独立微调语音编码器;其次仅训练投影层至初步收敛;最后联合训练投影层和LLM(使用LoRA进行参数高效微调)。实验结果表明,EFIN在所有评估的训练策略中始终表现出更好的性能,相对字符错误率(CERR)降低了21.1%,同时计算成本(FLOPs)减少了49.9%。此外,作者推导出一个扩展法则,近似描述了ASR错误率与计算量的关系,为LLM-ASR的扩展提供了实用指导。研究还进一步验证了使用更强大的预训练语音编码器(如Whisper-large-v2)可以进一步提升性能。结论指出,EFIN策略在计算效率和ASR性能上均优于基线方法,未来可探索其在其他多模态LLM场景中的应用。
大语言模型自动语音识别高效训练语音编码器扩展法则
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的EFIN训练策略,对LLM-ASR领域有较大影响,具有实用价值。

增强现实作为评估平台:弥合计算机视觉模型的度量与视觉感知之间的差距

ArXiv ID: 2508.04102
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Ashkan Ganj, Yiqin Zhao, Tian Guo
📄 中文摘要:
本研究提出了一种名为ARCADE的增强现实(AR)评估平台,旨在帮助计算机视觉(CV)研究人员更有效地进行以人为中心的模型评估,解决传统评估方法中存在的碎片化和误导性问题。研究背景源于CV模型评估中常见的缺陷,如数据集评估的不一致性、数值度量(如RMSE、PSNR)的冲突性结果,以及感知用户研究的不足和现实世界部署的高工程成本。ARCADE通过模块化、端到端的框架设计,集成了定量度量、定性视觉检查和基于感知的用户研究,支持跨平台AR数据收集、可插拔模型推理接口和低延迟AR流式传输,降低了开展可重复、上下文感知评估的门槛。主要方法包括设计四个核心组件(数据捕获、模型、任务和协议),并提供三种内置AR任务(对象渲染、遮挡渲染和3D点云可视化),以帮助研究人员在现实场景中交互式发现模型特定缺陷。研究通过深度估计和光照估计两种CV模型的案例研究,展示了ARCADE的能力。关键发现表明,传统数值度量无法完全反映模型在AR场景中的感知质量,例如深度估计模型在空间一致性和时间稳定性上的缺陷,以及光照估计模型在物体外观上的细微误差,这些缺陷通过ARCADE的交互式任务得以暴露。研究还评估了系统的性能和可用性,显示其在不同部署和研究场景下的灵活性和有效性,渲染-合成循环在标准分辨率下平均延迟仅为5.2毫秒。结论指出,ARCADE通过提供可重用的模块化框架,显著降低了评估成本,提高了评估的可重复性和公平性,为CV模型从基准驱动开发到应用就绪提供了重要桥梁。未来工作将扩展支持更多CV任务,并探索远程用户交互和自动化场景生成等功能,以进一步提升平台实用性。
增强现实计算机视觉评估平台深度估计光照估计
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: ARCADE提供了创新的评估框架,对CV模型的感知质量评估有重要影响,可能推动领域内评估方法的标准化。

CLIPVehicle:基于视觉的车辆搜索统一框架

ArXiv ID: 2508.04120
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Likai Wang, Ruize Han, Xiangqun Zhang, Wei Feng
📄 中文摘要:
本文提出了一种名为CLIPVehicle的统一框架,旨在解决基于视觉的车辆搜索问题,结合车辆检测和重识别(Re-ID)任务。车辆搜索在智能交通系统和自动驾驶等领域具有重要应用价值,但现有方法通常将检测和重识别作为独立任务处理,导致资源消耗大且缺乏联合优化。为此,本研究首次尝试在端到端框架中同时处理车辆检测和重识别,解决了两任务目标冲突的挑战,即检测关注车辆的共性特征,而重识别聚焦于个体车辆的独特性。CLIPVehicle框架引入了双粒度语义-区域对齐模块,利用视觉-语言模型(VLMs)如CLIP,通过对象粒度和身份粒度的文本提示增强车辆区分能力。此外,提出了一种多层次车辆身份学习策略,从全局图像、单实例边界框和特征层面对车辆身份表示进行学习,有效减少检测误差对重识别的影响。本文还构建了一个新的车辆搜索基准数据集,包括真实世界数据集CityFlowVS和两个合成数据集SynVS-Day及SynVS-All。大量实验结果表明,CLIPVehicle在车辆重识别和人员搜索任务上均优于现有最先进方法。本研究为车辆搜索提供了一种更实用、更高效的解决方案,推动了车辆身份识别领域的发展。
车辆搜索统一框架CLIP视觉-语言学习身份识别
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新性统一框架,对车辆搜索领域有重要影响。

SSEmb:一种用于数学公式检索的联合结构与语义嵌入框架

ArXiv ID: 2508.04162
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Ruyin Li, Xiaoyu Chen
📄 中文摘要:
本文提出了一种新颖的嵌入框架SSEmb,用于数学公式检索,旨在解决数学信息检索(MIR)中的关键挑战,即如何同时捕捉数学公式的结构特征和语义信息。研究背景源于数学公式检索任务(如ARQMath-3),其目标是从社区问答(CQA)帖子中检索与查询公式相关的公式,以支持问题解决、概念学习和数学推理等下游任务。传统方法多依赖基于文本或树的表示以及手工匹配规则,计算成本高,而基于嵌入的深度学习方法通过将公式编码为向量,提供了更高效的相似性计算方式。然而,现有方法未能充分整合结构和语义信息。 SSEmb框架通过两个核心模块实现创新:结构嵌入(StructEmb)和语义嵌入(SemEmb)。StructEmb模块采用图对比学习(GCL)对表示为操作图(OPG)的公式进行编码,并引入了一种基于子结构替换的图数据增强方法,以在保持数学有效性的同时增强结构多样性。SemEmb模块则利用Sentence-BERT对公式周围的文本进行编码,提取上下文语义信息,如使用场景、定义和领域特定语义。最终,通过加权方案融合结构相似性和语义相似性,提升检索性能。 实验在ARQMath-3公式检索任务上进行,结果表明SSEmb在P’@10和nDCG’@10指标上比现有基于嵌入的方法高出超过5个百分点,在自动执行系统中排名第一。此外,当与Approach0等其他方法结合时,SSEmb进一步提升了性能,达到了最先进的成果。消融研究验证了语义模块和图数据增强策略的有效性。作者指出,未来将探索更先进的图表示学习和上下文编码技术,并扩展SSEmb在答案检索任务中的应用。 结论表明,SSEmb通过联合结构和语义特征显著提升了数学公式检索的性能,为该领域的研究提供了重要贡献。
数学信息检索公式检索图对比学习图数据增强语义嵌入
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: SSEmb在数学公式检索领域具有重要创新,显著提升性能,可能对信息检索产生较大影响。

文本转语音技术现状:基于人类欺骗率的案例研究

ArXiv ID: 2508.04179
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Praveen Srinivasa Varadhan, Sherry Thomas, Sai Teja M. S., Suvrat Bhooshan, Mitesh M. Khapra
📄 中文摘要:
本文研究了当前文本转语音(TTS)系统的进展,探讨其是否能在类似图灵测试的评估中真正欺骗人类听众。作者提出了一种新的评估指标——人类欺骗率(HFR),用于直接测量机器生成的语音被误认为是人类语音的频率。通过对开源和商业TTS模型的大规模评估,研究揭示了以下关键发现:首先,基于CMOS的主张人类水平质量的说法在欺骗测试中往往失效,表明现有主观评估方法存在局限;其次,TTS进展应以人类语音具有高HFR的数据集为基准,而非单调或缺乏表现力的参考样本,以避免设置过低的标准;第三,商业模型在零样本设置下接近人类欺骗水平,而开源系统在自然对话语音方面仍面临挑战;第四,对高质量数据进行微调可以提升真实感,但无法完全弥合差距。研究通过135名参与者的众包评估,测试了10个最先进的TTS系统,强调了现有评估方法的不足,如参考匹配偏差和对细微合成线索的忽视。作者建议将HFR作为现有主观测试的补充,提供更以部署为中心的评估视角,以推动TTS系统向真正的感知无差别迈进。研究还指出,商业模型在高质量对话语音的零样本适应性上表现优异,而开源模型需在数据质量和训练策略上进一步改进。最终,本文呼吁建立更全面的评估框架,以超越传统的MOS和CMOS分数,确保TTS技术在现实世界中的适用性。
文本转语音人类欺骗率语音合成主观评估感知无差别
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出HFR指标,对TTS评估具有重要创新,可能显著影响语音合成领域的研究方向。

深入探究深度视觉变换器(Deep ViT)

ArXiv ID: 2508.04181
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Sungrae Hong
📄 中文摘要:
本文研究了类似大型语言模型(LLM)的视觉模型ViT-22B的结构与训练特性,旨在探索其在本地环境中的实用性及性能表现。研究背景源于视觉基础模型的发展相对语言模型较慢,且现有研究缺乏对ViT-22B结构的深入分析和本地训练的实用性探讨。作者通过在本地环境中从头训练ViT-22B模型,观察其训练过程中的不稳定性,发现梯度爆炸问题,并通过引入层归一化(LayerNorm)等改进方法有效稳定了训练过程。实验结果表明,在相同参数规模下,ViT-22B在分类任务(如CIFAR-10和CIFAR-100数据集)上的性能优于传统ViT模型。此外,本文首次尝试将ViT-22B应用于图像生成任务,提出了一种基于ViT的图像生成架构ViTUnet,并对比了ViT和ViT-22B在图像到图像翻译任务中的表现。尽管ViT-22B在某些任务中表现出色,但其在图像生成中的表现并不稳定,尤其在形状和颜色重建方面存在不足。定量评估(如FID分数)显示ViT-22B在部分任务中具有优势,但定性结果表明其生成图像质量仍有提升空间。结论指出,ViT-22B在视觉任务中具有潜力,但其优势并非普遍适用,未来需进一步验证其在不同任务中的表现,以确立其在视觉应用中的标准地位。
视觉变换器ViT-22B图像生成梯度爆炸本地训练
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文对ViT-22B的本地训练和图像生成应用具有重要创新,可能对视觉基础模型研究产生较大影响。

NVSpeech:一个集成且可扩展的类人语音建模管道,包含副语言发声

ArXiv ID: 2508.04195
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu
📄 中文摘要:
本研究提出了NVSpeech,一个集成且可扩展的管道,用于识别和合成汉语语音中的副语言发声(如笑声、呼吸声及口头插入语“呃”“哦”等),这些发声在自然口语交流中至关重要,但传统自动语音识别(ASR)和文本转语音(TTS)系统中常被忽视。研究背景聚焦于副语言发声在表达情感、意图和交互线索中的作用,以及现有系统在处理这些线索时的不足。NVSpeech通过三个主要阶段构建:首先,研究团队手动标注了一个包含48,430条人类语音语料的数据集,涵盖18个词级副语言类别;其次,基于此数据集开发了副语言感知的ASR模型,将副语言线索作为内联可解码标记(如“你真有趣[笑声]”),实现词汇和非词汇内容的联合转录,并用该模型自动标注了一个大规模汉语语料库(174,179条语料,573小时),这是首个大规模词级对齐且包含副语言线索的汉语数据集;最后,通过对人工和自动标注数据微调零样本TTS模型,实现对副语言发声的显式控制,使其能在任意标记位置进行上下文感知插入,生成类人语音合成。实验结果表明,NVSpeech在副语言标签识别(F1分数高达0.84)和表达性语音合成(听众偏好率达78.7%)方面表现出色,且不影响词汇质量。结论指出,NVSpeech为汉语表达性语音建模提供了首个开放的大规模词级标注管道,为未来的类人语音研究奠定了可扩展基础。
副语言发声自动语音识别文本转语音汉语语音建模表达性语音
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在副语言发声建模领域具有重要创新,可能显著提升语音交互系统的自然性。

ShoppingBench:基于真实世界意图的购物基准测试,面向基于大语言模型的智能体

ArXiv ID: 2508.04266
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Jiangyuan Wang, Kejun Xiao, Qi Sun, Huaipeng Zhao, Tao Luo, Jiandong Zhang, Xiaoyi Zeng
📄 中文摘要:
本文提出了一种名为ShoppingBench的新型端到端购物基准测试,旨在解决现有电子商务基准测试中用户意图过于简单的问题。传统基准测试主要关注基本的用户意图,如查找或购买产品,而现实世界中的用户往往追求更复杂的目标,例如使用优惠券、管理预算以及寻找多产品卖家。为了弥合这一差距,ShoppingBench设计了基于真实世界产品的多种意图,并通过可扩展的框架模拟用户指令,涵盖了从简单到复杂的不同挑战级别。为确保评估的一致性和可靠性,本文提供了一个大规模购物沙盒作为交互式模拟环境,包含超过250万种真实世界产品。实验结果表明,即便是最先进的语言智能体(如GPT-4.1)在ShoppingBench的任务上也只能达到不到50%的绝对成功率,凸显了该基准测试的显著挑战性。此外,本文提出了一种轨迹蒸馏策略,并结合监督微调和基于合成轨迹的强化学习,将大型语言智能体的能力蒸馏到一个较小的智能体中。最终,训练后的智能体在性能上与GPT-4.1相当,展现了该方法的潜力。ShoppingBench不仅为评估基于大语言模型的智能体提供了新的测试平台,也为未来在复杂现实场景中的应用奠定了基础。
购物基准测试大语言模型用户意图智能体轨迹蒸馏
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新基准测试,对智能体研究有重要影响。

基于方法的大语言模型推理:提取、复用与持续改进

ArXiv ID: 2508.04289
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Hong Su
📄 中文摘要:
大语言模型(LLMs)在多种语言任务中展现了令人印象深刻的能力。然而,其推理过程主要依赖于训练数据中的统计模式,这限制了它们处理新颖问题和执行一致逻辑推理的能力。本文提出了一种基于方法的大语言模型,通过从训练内容、生成响应和用户交互中提取明确的、可复用的程序来增强模型性能。每个方法以问题及其对应解决方案的形式表示为一个对,存储在外部并根据反馈进行排序。当接收到新查询时,系统会检索并应用最相关的方法来指导大语言模型的响应。这种模型支持持续学习、方法复用以及超越下一词预测的逻辑一致性。实验结果表明,该系统在复杂提示中的事实验证和泛化能力方面取得了显著改进,并且通过用户驱动的优化,新学习的方法能够优于早期方法。本研究通过引入外部方法存储和动态反馈机制,为大语言模型的推理能力提供了新的视角,同时也为模型在面对复杂任务时的适应性和准确性提供了有效支持。作者进一步讨论了该方法在实际应用中的潜力,例如在教育、法律咨询和科学研究等领域中辅助人类决策。总之,本文提出了一种创新框架,旨在克服大语言模型在逻辑推理和问题解决中的局限性,为未来的研究奠定了基础。
大语言模型方法复用持续学习逻辑推理事实验证
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新方法增强大语言模型推理能力,具有较大潜力影响领域发展。

超越排行榜:重新思考大型语言模型的医疗基准

ArXiv ID: 2508.04325
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen
📄 中文摘要:
大型语言模型(LLMs)在医疗领域展现出巨大潜力,促使众多基准测试被开发用于评估其能力。然而,现有基准测试的可靠性引发了广泛关注,主要问题包括缺乏临床真实性、数据管理不完善以及缺乏以安全性为导向的评估指标。为解决这些问题,本研究提出了MedCheck,这是首个面向医疗基准的全生命周期评估框架。该框架将基准测试的开发过程分解为设计到治理的五个连续阶段,并提供了包含46个医疗定制标准的全面检查清单。通过MedCheck,研究对53个医疗LLM基准进行了深入的实证评估。分析揭示了普遍存在的系统性问题,包括与临床实践的深刻脱节、由于未缓解的数据污染风险导致的数据完整性危机,以及对模型鲁棒性和不确定性感知等安全关键评估维度的系统性忽视。基于这些发现,MedCheck不仅作为现有基准的诊断工具,还为推动医疗AI评估的标准化、可靠性和透明性提供了可操作的指导方针。本研究强调了重新思考医疗基准的必要性,旨在通过更科学的方法提升大型语言模型在医疗领域的应用可靠性与安全性,为未来的研究和实践奠定基础。
大型语言模型医疗基准MedCheck框架临床真实性数据完整性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,解决医疗AI评估关键问题,具有较大影响力。

组合对象检索:通过组合表达进行对象级检索

ArXiv ID: 2508.04424
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Tong Wang, Guanyu Yang, Nian Liu, Zongyan Han, Jinxing Zhou, Salman Khan, Fahad Shahbaz Khan
📄 中文摘要:
在多模态系统中,基于用户意图检索细粒度视觉内容仍然是一个挑战。现有的组合图像检索(CIR)方法虽然结合了参考图像和检索文本,但局限于图像级匹配,无法精确定位特定对象。为此,本研究提出了组合对象检索(COR),这是一个全新的任务,超越了图像级检索,实现了对象级精度,允许基于结合参考对象和检索文本的组合表达来检索和分割目标对象。COR在检索灵活性方面提出了重大挑战,要求系统能够识别满足组合表达的任意对象,同时避免场景中语义相似但无关的负面对象。为支持这一研究,作者构建了COR127K,这是首个大规模COR基准数据集,包含127,166个检索三元组,涵盖408个类别中的各种语义变换。此外,作者提出了CORE,一个统一的端到端模型,集成了参考区域编码、自适应视觉-文本交互和区域级对比学习。大量实验表明,CORE在基础类别和新型类别中均显著优于现有模型,为这一具有挑战性的任务建立了一个简单而有效的基线,同时为细粒度多模态检索研究开辟了新的方向。本研究通过引入对象级检索任务,填补了现有图像检索方法的不足,为多模态系统在用户意图理解和细粒度内容匹配方面的应用提供了重要参考。
组合对象检索多模态检索对象级精度视觉-文本交互对比学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出全新任务和基准,具有重要创新,可能对多模态检索领域产生较大影响。

大型语言模型与静态代码分析工具的对比:漏洞检测的系统性基准测试

ArXiv ID: 2508.04448
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Damian Gnieciak, Tomasz Szandala
📄 中文摘要:
本研究对现代软件开发中用于防止错误、漏洞和潜在安全威胁的自动化测试与质量保证工具进行了深入探讨,重点比较了六种自动化方法的性能,包括三种业界标准的基于规则的静态代码分析工具(SonarQube、CodeQL 和 Snyk Code)以及三种在 GitHub Models 平台上托管的先进大型语言模型(GPT-4.1、Mistral Large 和 DeepSeek V3)。研究使用了一个精心挑选的测试集,包含十个真实的 C# 项目,这些项目嵌入了 63 个常见漏洞,涵盖 SQL 注入、硬编码密钥和过时依赖等类别。研究从经典检测准确性(精确率、召回率、F 分数)、分析延迟以及开发者验证真阳性所需的工作量等方面进行了定量和定性评估。结果显示,基于语言模型的扫描工具取得了更高的平均 F1 分数(分别为 0.797、0.753 和 0.750),显著优于静态分析工具(分别为 0.260、0.386 和 0.546)。大型语言模型的优势主要源于其更高的召回率,表明它们在更广泛的代码上下文中推理的能力更强。然而,这种优势伴随着显著的权衡:DeepSeek V3 表现出最高的假阳性率,且所有语言模型由于分词伪影在行或列粒度上定位问题时存在误差。总体而言,大型语言模型在发现真实漏洞方面成功挑战了传统静态分析工具,但其输出噪声较大且定位不精确,限制了其在安全关键审计中的独立使用。因此,研究建议采用混合流程:在开发早期使用语言模型进行广泛的、上下文感知的初步筛选,而将确定性规则扫描器用于高可靠性验证。本文发布的开放基准和基于 JSON 的结果集为下一代自动化代码安全研究奠定了可重复、实践导向的基础。
大型语言模型静态代码分析漏洞检测软件安全自动化测试
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文在软件安全领域具有重要创新,提出混合检测策略,可能影响未来工具开发。

通过因果驱动的视觉对象补全提升大型视觉-语言模型的视觉知识密集型训练

ArXiv ID: 2508.04453
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Qingguo Hu, Ante Wang, Jia Song, Delai Qiu, Qingsong Liu, Jinsong Su
📄 中文摘要:
近年来,大型视觉-语言模型(LVLMs)取得了显著进展,但其在需要深度视觉感知的任务中表现仍不理想,例如识别图像间的细微差异。这可能源于常用指令调整语料库中视觉知识的稀缺,导致模型的视觉感知和推理能力不足。为解决这一问题,本研究提出了一种基于自改进框架的新型视觉知识密集型任务——因果驱动的视觉对象补全(CVC)。该任务要求LVLMs根据图像中可见信息与被遮挡对象之间的因果关系,推断出被遮挡的对象。本研究通过自动化的实例构建流程,廉价地获取了丰富的示例,而无需依赖复杂的LVLMs(如GPT-4V)或人工辅助。随后,LVLMs通过这些创建的实例进行试错学习,实现有效的自我改进。实验结果表明,该方法在四个具有挑战性的专项任务和四个广泛使用的综合基准测试中取得了显著提升。特别是在专项任务上,与基线相比,使用LLaVA-1.5-7B和LLaVA-1.5-13B模型时,性能分别平均提升了5.4%和4.0%。本研究为提升LVLMs的视觉感知能力提供了新的思路和方法,代码已公开于GitHub。
大型视觉-语言模型视觉知识因果驱动对象补全自改进框架
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新方法提升LVLMs性能,具有较大潜在影响。

FrEVL:利用冻结预训练嵌入实现高效的视觉-语言理解

ArXiv ID: 2508.04469
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Emmanuelle Bourigault, Pauline Bourigault
📄 中文摘要:
视觉-语言模型的部署因其巨大的计算需求而受到限制。本文提出了一种名为FrEVL的框架,探索冻结预训练嵌入是否能够支持有效的视觉-语言理解。研究分析表明,冻结嵌入包含丰富的判别任务信息,在标准基准测试中,仅使用6840万可训练参数即可达到最先进性能的85%至95%。这一性能差异揭示了一个关键见解:冻结嵌入的有效性取决于预训练目标与下游任务需求之间的一致性。在考虑包括嵌入提取在内的端到端计算时,FrEVL提供了2.3倍的加速效果,并将能耗降低了52%,使其适用于输入可预计算的场景,或在部署限制优先于边际性能提升的情况下。通过评估,本研究为从业者提供了指导,帮助他们判断冻结嵌入方法何时可以作为完整模型部署的可行替代方案。作者还计划发布完整的实现和评估框架,以促进对高效多模态理解的进一步研究。FrEVL框架不仅在计算效率上取得了显著改进,还在能源消耗方面展现了优势,为资源受限环境下的视觉-语言任务提供了新的解决方案。此外,本文的研究方法和结果对未来在多模态学习领域探索高效模型设计具有重要的参考价值。
视觉-语言理解冻结嵌入高效计算多模态学习预训练模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在高效多模态理解领域具有重要创新,可能对资源受限场景产生较大影响。

CALE:用于词内和词间语义区分的概念对齐嵌入

ArXiv ID: 2508.04494
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Bastien Li\'etard, Gabriel Loiseau
📄 中文摘要:
词汇语义学关注单词在不同上下文中的多重语义以及不同单词含义之间的语义关系。上下文化语言模型(Contextualized Language Models)是一种有价值的工具,能够提供上下文敏感的表示,用于研究词汇含义。近期如XL-LEXEME等研究通过词在上下文(Word-in-Context)任务对模型进行微调,以获得更精确的语义表示。然而,词在上下文任务仅比较同一词条的不同出现,限制了捕获信息的范围。本文提出了一种扩展方法——概念区分(Concept Differentiation),以包含词间场景。我们基于SemCor数据构建了用于此任务的数据集,并在此数据集上对多个表示模型进行微调,提出了概念对齐嵌入(Concept-Aligned Embeddings, CALE)。通过在多种词汇语义任务上对CALE模型及其他模型进行测试,我们证明了所提出的模型能够提供高效的多用途词汇语义表示,并在实验中取得了最佳性能。此外,我们还展示了CALE的微调对嵌入空间的组织结构带来了有价值的改变。研究表明,CALE不仅在词内语义区分上表现出色,还在词间语义关系的捕捉上具有显著优势。这一方法通过扩展上下文化语言模型的应用范围,为词汇语义学研究提供了新的视角和工具。实验结果进一步验证了CALE在处理复杂语义任务时的鲁棒性和适应性,为未来的自然语言处理研究奠定了基础。
词汇语义学上下文化语言模型概念对齐嵌入词间语义微调
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在词汇语义表示上具有重要创新,可能对自然语言处理领域产生较大影响。

分析与缓解对象幻觉:训练偏差视角

ArXiv ID: 2508.04567
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yifan Li, Kun Zhou, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
📄 中文摘要:
随着训练数据的规模不断扩大,大型视觉-语言模型(LVLMs)的多模态能力显著提升,但其仍面临幻觉问题,即生成的文本与视觉输入不一致。本研究从训练数据的角度系统探讨了幻觉问题的成因,并提出了一个新的基准数据集POPEv2,该数据集包含从LVLMs训练数据中收集的、特定对象被遮盖的反事实图像。通过对POPEv2的全面评估,研究发现当前LVLMs存在训练偏差:它们未能充分利用训练数据,并且在训练过程中见过的图像上更容易产生幻觉。具体而言,模型在反事实图像上的表现较差,常常错误地回答关于被遮盖对象的‘是’的问题。为了深入理解这一问题,研究对模型内部组件进行了探测实验,发现训练偏差主要集中在语言建模(LM)头部。基于此,研究提出了Obliviate,一种高效且轻量级的遗忘方法,通过训练偏差遗忘来缓解对象幻觉。Obliviate将训练数据上的真实标签与模型输出之间的差异作为偏差的代理,并采用参数和数据高效的微调策略,仅更新LM头部。大量实验验证了该方法的有效性。Obliviate仅重用训练数据并更新约2%的参数,就在判别任务和生成任务中显著减少了幻觉。此外,该方法在模型规模(2B至72B)和训练数据量方面表现出良好的可扩展性,并对超出对象级幻觉的其他幻觉类型展现出潜在的泛化能力。研究代码和数据将公开发布。
对象幻觉训练偏差大型视觉-语言模型反事实图像遗忘方法
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在缓解LVLMs幻觉问题上具有重要创新,可能对多模态模型发展产生较大影响。

知识到视觉:通过知识分解进行异常定位的视觉属性推理

ArXiv ID: 2508.04572
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Jun Li, Che Liu, Wenjia Bai, Mingxuan Liu, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel
📄 中文摘要:
本文针对医学影像中异常定位的问题展开研究,旨在根据文本描述精确定位临床发现。尽管通用视觉-语言模型(VLMs)在自然场景的定位任务中表现出色,但在医学领域,由于罕见、组合性和领域特定的术语与视觉模式对齐不足,其性能往往不佳。专门的医学VLMs通过大规模领域预训练解决了这一挑战,但需要大量的标注和计算资源。为克服这些限制,本文提出了‘知识到视觉(K2Sight)’框架,通过将临床概念分解为可解释的视觉属性(如形状、密度和解剖位置)引入结构化的语义监督。这些属性从领域本体中提炼,并编码为简洁的指令式提示,在训练过程中指导区域-文本对齐。与传统的报告级监督不同,该方法明确连接了领域知识和空间结构,实现了数据高效的紧凑模型训练。作者使用仅为最先进的医学VLM所需数据的1.5%,训练了参数量为0.23B和2B的紧凑模型。尽管模型规模较小且训练数据有限,这些模型在性能上与7B+参数的医学VLM相当甚至更优,在mAP50指标上提升高达9.82%。该研究展示了通过结构化知识分解和高效训练策略,可以在资源受限的情况下实现高性能的医学影像异常定位,为医学影像处理领域提供了新的思路和方法。代码和模型已公开,供进一步研究和应用。
医学影像异常定位视觉-语言模型知识分解数据高效训练
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在医学影像领域提出创新框架,具有较大应用潜力。

EncQA:基于图表视觉编码的视觉-语言模型基准测试

ArXiv ID: 2508.04650
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Kushin Mukherjee, Donghao Ren, Dominik Moritz, Yannick Assogba
📄 中文摘要:
多模态视觉-语言模型(VLMs)在图表理解基准测试中不断取得更高的分数,然而,现有进展并未完全涵盖图表解读所需的关键视觉推理能力。本研究引入了EncQA,一个基于可视化文献设计的新型基准测试,旨在系统性地覆盖图表理解中至关重要的视觉编码和分析任务。EncQA提供了2076个合成问答对,平衡地覆盖了六种视觉编码通道(位置、长度、面积、颜色定量、颜色定性、形状)和八种任务(寻找极值、检索数值、发现异常、过滤数值、计算精确派生值、计算相对派生值、关联数值、关联相对数值)。通过对9种最先进的VLMs进行评估,发现模型在同一任务内不同编码上的表现差异显著,且在不同任务间的表现也存在较大波动。出乎意料的是,在许多任务-编码对中,模型性能并未随着模型规模的增加而提升。研究结果表明,推进图表理解需要针对特定视觉推理差距制定策略,而不仅仅是单纯扩大模型或数据集规模。本研究揭示了当前VLMs在图表理解中的局限性,并为未来改进提供了明确方向,强调了在视觉编码和任务设计上的精细化研究的重要性。
视觉-语言模型图表理解视觉编码基准测试视觉推理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新基准测试,揭示VLM局限性,对图表理解领域有重要影响。

ANPrompt:针对视觉-语言模型的抗噪提示调整

ArXiv ID: 2508.04677
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yansheng Gao, Yufei Zheng, Jinghan Qu, Zixi Zhu, Yukuan Zhang, Shengsheng Wang
📄 中文摘要:
提示调整(Prompt Tuning)作为一种高效且低计算开销的技术,已被广泛用于视觉-语言模型(VLMs)的适配。然而,现有方法往往忽略了提示调整后的VLMs对弱语义扰动的脆弱性,例如细微的图像或文本噪声,这些扰动会显著降低模型对未见类别的泛化能力。为解决这一问题,本文提出了一种新颖的提示调整框架ANPrompt,旨在增强模型在语义扰动下的鲁棒性。ANPrompt首先通过融合原始文本嵌入和噪声扰动文本嵌入构建弱噪声文本特征,并对其进行聚类以形成噪声提示。这些噪声提示与可学习的提示标记结合,生成抗噪提示,并注入到图像和文本编码器的深层中。为了进一步捕捉噪声感知的视觉语义,ANPrompt通过对视觉编码器输出的提示标记取平均值,计算出抗噪视觉提示原型(NRVPP)。最后,ANPrompt引入了弱语义噪声对齐损失(WALoss),结合标准的交叉熵损失和相似性损失,提出了对齐、鲁棒性和抗噪目标。在11个基准测试上的实验结果表明,ANPrompt在语义噪声鲁棒性和对新类别的泛化能力方面,持续优于现有的提示调整方法。研究表明,ANPrompt通过创新的抗噪机制显著提升了VLMs在复杂环境下的适应能力,为提示调整技术在实际应用中的可靠性提供了重要支持。
提示调整视觉-语言模型抗噪机制语义扰动鲁棒性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: ANPrompt在提示调整领域具有重要创新,提升了模型鲁棒性,可能对VLMs应用产生较大影响。

通过解剖正常性建模提升视觉语义密度以优化医学视觉-语言预训练

ArXiv ID: 2508.03742
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Weiwei Cao, Jianpeng Zhang, Zhongyi Shui, Sinuo Wang, Zeli Chen, Xi Li, Le Lu, Xianghua Ye, Tingbo L
📄 中文摘要:
视觉-语言预训练(VLP)在开发多功能和通用医学诊断能力方面具有巨大潜力。然而,医学图像的低信噪比(SNR)与诊断报告的高信噪比之间的语义密度差距导致了视觉对齐偏差。本研究提出了一种提升视觉语义密度的方法以改善对齐效果。一方面,通过疾病级别的视觉对比学习增强视觉语义,提升模型区分每个解剖结构中正常与异常样本的能力;另一方面,引入了解剖正常性建模方法,利用VQ-VAE在潜在空间中重建正常样本的视觉嵌入,建模每个解剖结构的正常样本分布。通过异常样本的分布偏移放大异常信号,增强模型对异常属性的感知和辨别能力。增强后的视觉表征有效捕捉了与诊断相关的语义,促进了与诊断报告更高效、更准确的对齐。本研究在两个胸部CT数据集(CT-RATE和Rad-ChestCT)以及一个腹部CT数据集(MedVL-CT69K)上进行了广泛实验,全面评估了胸部和腹部CT场景中的多项诊断任务性能,实现了最先进的零样本性能。值得注意的是,该方法在15个器官的54种疾病中取得了平均AUC为84.9%的显著成果,远超现有方法。此外,研究还展示了预训练模型优越的迁移学习能力。代码已公开于GitHub。
视觉-语言预训练医学图像处理解剖正常性建模视觉语义密度对比学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在医学VLP领域提出重要创新,显著提升诊断性能,具有较大影响力。

PET2Rep:面向视觉-语言模型驱动的正电子发射断层扫描自动放射学报告生成

ArXiv ID: 2508.04062
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yichi Zhang, Wenbo Zhang, Zehui Ling, Gang Feng, Sisi Peng, Deshu Chen, Yuchen Liu, Hongwei Zhang, S
📄 中文摘要:
正电子发射断层扫描(PET)是现代肿瘤学和神经学影像学的基石,其独特之处在于能够揭示超越传统影像技术解剖学焦点的动态代谢过程。放射学报告对于临床决策至关重要,但其手动生成过程耗时且劳动密集。近年来,视觉-语言模型(VLMs)在医疗领域的应用显示出巨大潜力,为自动化报告生成提供了有前景的途径。然而,目前VLMs在医疗领域的研究主要集中于结构影像模态,而分子PET影像的独特特性在很大程度上被忽视。为填补这一空白,本研究提出了PET2Rep,一个用于评估通用和医疗专用VLMs在PET影像放射学报告生成中的大规模综合基准数据集。PET2Rep是首个专注于包含代谢信息的PET报告生成的数据集,独特地捕捉了覆盖数十个器官的全身影像-报告对,弥补了现有基准的不足,并反映了现实世界的临床全面性。除了广泛认可的自然语言生成指标外,本研究还引入了一系列临床效率指标,用于评估生成报告中关键器官放射性示踪剂摄取模式描述的质量。通过对30个前沿通用和医疗专用VLMs的直接比较,研究结果表明,当前最先进的VLMs在PET报告生成任务上表现不佳,远未满足实际需求。此外,研究还识别出若干关键不足之处,这些不足需要在医疗应用的发展中加以解决。本研究为推动VLMs在PET影像报告生成领域的进一步发展奠定了基础,并指明了未来研究的方向。
正电子发射断层扫描视觉-语言模型放射学报告生成医学影像处理自动化
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在医学影像AI领域具有重要创新性,可能显著提升自动化报告生成技术。

并行GPT:协调声学和语义信息的独立性与相互依赖性以实现零样本文本转语音

ArXiv ID: 2508.04141
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Jingyuan Xing, Zhipeng Li, Jialong Mai, Xiaofen Xing, Xiangmin Xu
📄 中文摘要:
近年来,语音表示和大型语言模型的进步显著提升了零样本文本转语音(TTS)的性能。然而,现有的零样本TTS模型在捕捉声学和语义特征之间的复杂相关性方面面临挑战,导致语音表达力和相似度不足。其主要原因在于语义和声学特征之间复杂的独立性和相互依赖性关系。本文提出了一种新的TTS框架,通过结合自回归(AR)和非自回归(NAR)模块,协调声学和语义信息的独立性与相互依赖性。其中,AR模型利用提出的并行分词器(Parallel Tokenizer)同时合成顶层语义和声学标记;而考虑到相互依赖性,耦合的NAR模型则基于AR模型的通用输出预测详细标记。基于此架构构建的并行GPT(Parallel GPT)旨在通过其并行结构改进零样本文本转语音合成。实验在英文和中文数据集上进行,结果表明,所提出的模型在合成质量和效率方面显著优于现有的零样本TTS模型。研究通过语音演示进一步验证了模型的效果,相关演示可在指定网站查看。这一框架为零样本TTS领域提供了一种创新的解决方案,有望推动语音合成技术在多语言环境下的进一步发展。
零样本文本转语音并行GPT声学语义信息自回归模型非自回归模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,显著提升零样本TTS性能,具有较大领域影响力。

多语言语音深度伪造源追踪:首个基准研究

ArXiv ID: 2508.04143
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Xi Xuan, Yang Xiao, Rohan Kumar Das, Tomi Kinnunen
📄 中文摘要:
近年来,生成式人工智能技术的进步使得仅通过几秒钟的音频即可生成自然流畅的深度伪造语音变得越来越容易。尽管这些工具支持了许多有益的应用,但它们也引发了严重的安全担忧,因为它们能够生成多种语言的逼真伪造语音,增加了滥用风险。目前的研究主要集中在检测伪造语音上,而对追踪生成这些伪造语音的源模型的研究却相对较少。本文提出了首个多语言语音深度伪造源追踪的基准,涵盖了单语言和跨语言场景。研究比较了基于数字信号处理(DSP)和自监督学习(SSL)的建模方法,探讨了在不同语言上微调的SSL表示如何影响跨语言泛化性能,并评估了模型对未见语言和说话者的泛化能力。研究结果首次全面揭示了在训练和推理语言不同时识别语音生成模型所面临的挑战。通过分析不同建模方法的性能差异,本文为多语言深度伪造源追踪提供了重要的理论和实践指导。此外,作者公开了数据集、协议和代码,为后续研究奠定了基础。本研究不仅填补了语音深度伪造源追踪领域的空白,也为应对生成式AI技术带来的安全威胁提供了关键支持。
深度伪造语音追踪多语言自监督学习跨语言泛化
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出首个多语言语音深度伪造源追踪基准,具有重要创新和潜在影响力。

OpenDCVCs:DCVC系列视频编解码器的PyTorch开源实现与性能评估

ArXiv ID: 2508.04491
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yichi Zhang, Fengqing Zhu
📄 中文摘要:
本文介绍了OpenDCVCs,一个基于PyTorch的开源实现,旨在推动可重复性研究在学习型视频压缩领域的发展。OpenDCVCs提供了四种代表性深度上下文视频压缩(DCVC)模型的统一且可训练实现,包括DCVC、带时间上下文建模的DCVC(DCVC-TCM)、带混合熵建模的DCVC(DCVC-HEM)以及带多样化上下文的DCVC(DCVC-DC)。尽管DCVC系列在比特率降低方面显著优于传统编解码器和其他高级学习模型,但之前的公开代码仅限于评估代码,给可重复性、基准测试及进一步开发带来了显著障碍。OpenDCVCs通过提供一个全面且自包含的框架填补了这一空白,该框架支持所有包含算法的端到端训练与评估。该实现包括详细的文档、评估协议以及在多样化数据集上的广泛基准测试结果,为比较和扩展提供了透明且一致的基础。所有代码和实验工具均在https://gitlab.com/viper-purdue/opendcvcs上公开 доступный,赋能社区加速研究并促进合作。本研究不仅提升了DCVC系列模型的可访问性,还为视频压缩领域的未来发展奠定了坚实基础。通过开源实现,研究人员可以更方便地复现结果、进行性能对比,并基于此框架开发新的算法或改进现有方法。OpenDCVCs的发布标志着学习型视频压缩研究迈向更加开放和协作的方向。
视频压缩深度学习开源实现DCVCPyTorch
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究通过开源实现推动了视频压缩领域的可重复性研究,具有重要创新和较大影响力。

Hulk:面向人类中心任务的通用知识翻译器

ArXiv ID: 2312.01697
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yizhou Wang, Yixuan Wu, Weizhen He, Xun Guo, Feng Zhu, Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ou
📄 中文摘要:
本文提出了一种名为Hulk的创新性多模态人类中心通用模型,旨在解决人类中心感知任务中的多种挑战,如行人检测、基于骨架的动作识别和姿态估计等。这些任务在元宇宙和体育分析等工业应用中具有广泛价值。近年来,人类中心基础模型的发展为多种感知任务带来了益处,但现有模型往往未探索3D视觉和视觉-语言任务,且需要针对特定任务进行微调,限制了其在更多下游任务和场景中的应用。为解决这些问题,Hulk模型通过将各种任务特定的头部模块简化为两个通用头部模块——一个用于离散表示(如语言),另一个用于连续表示(如位置坐标),实现了对2D视觉、3D视觉、基于骨架的任务以及视觉-语言任务的无任务特定微调处理。这两个头部模块的输出可进一步组合成四种不同的输入输出模态,形成统一的表示方式,使得Hulk能够将多样化的人类中心任务视为模态翻译,从而跨任务整合知识。在涵盖8种人类中心任务的12个基准测试中,Hulk展现了卓越性能,在11个基准上取得了最先进的成果。实验结果表明,Hulk不仅在性能上超越现有方法,还通过其通用性和多模态能力为人类中心感知任务提供了新的解决方案。作者还计划在GitHub上开源代码,以促进学术界和工业界的进一步研究与应用。
人类中心感知多模态模型通用知识翻译计算机视觉姿态估计
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: Hulk模型在多模态人类中心任务中展现重要创新,具有较大应用潜力。

基于事件相机进行长期视觉目标跟踪:一种增强型关联记忆跟踪器及基准数据集

ArXiv ID: 2403.05839
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Xiao Wang, Xufeng Lou, Shiao Wang, Ju Huang, Lan Chen, Bo Jiang
📄 中文摘要:
本文针对基于事件流的视觉目标跟踪研究中长期跟踪性能评估不足的问题,提出了一项创新性研究。首先,作者构建了一个新的长期、大规模帧-事件视觉目标跟踪数据集FELT。该数据集包含1,044个长期视频,涵盖190万对RGB帧和事件流数据,涉及60种不同目标对象及14种挑战性属性,为长期跟踪研究提供了丰富的资源。为了建立可靠的基准,作者对21种基线跟踪器在FELT数据集上进行了重新训练和评估,为后续研究提供了对比基础。此外,作者提出了一种基于关联记忆Transformer的RGB-事件长期视觉跟踪器AMTTrack。该方法采用单流跟踪框架,通过Hopfield检索层有效聚合多尺度RGB/事件模板和搜索令牌,同时通过关联记忆更新机制动态维护模板表示,解决长期跟踪中的外观变化问题。在FELT、FE108、VisEvent和COESOT数据集上的广泛实验充分验证了AMTTrack的有效性。研究成果包括数据集和源代码的公开,为事件相机在长期视觉目标跟踪领域的应用提供了重要支持。本文的研究不仅填补了长期跟踪性能评估的空白,还通过创新的跟踪框架和数据集建设推动了相关领域的发展。
事件相机长期跟踪视觉目标跟踪关联记忆基准数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新跟踪器和数据集,对长期视觉跟踪研究有重要影响。

语言模型中的公平性定义解析

ArXiv ID: 2407.18454
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Avash Palikhe, Zichong Wang, Zhipeng Yin, Wenbin Zhang
📄 中文摘要:
语言模型(LMs)在自然语言处理(NLP)的多项任务中展现了卓越的性能。然而,尽管取得了这些进步,语言模型可能会继承并放大与性别、种族等敏感属性相关的社会偏见,从而限制了其在现实世界中的应用。因此,公平性问题在语言模型领域得到了广泛研究,并提出了多种公平性定义。尽管如此,由于缺乏对具体情境下应采用何种公平性定义的明确共识,以及理解这些定义之间差异的复杂性,研究者和从业者常常感到困惑,这阻碍了领域的进一步发展。为此,本文提出了一项系统性综述,旨在阐明适用于语言模型的公平性定义。首先,文章简要介绍了语言模型及其公平性问题,随后提供了现有语言模型公平性概念的全面且最新的概述,并提出了一种基于变换器架构的新型分类法,将这些概念分为仅编码器、仅解码器和编码器-解码器语言模型三类。此外,文章通过实验展示了每种公平性定义的实际含义和结果,突出了其在实践中的影响。最后,文章讨论了当前的研究挑战和开放性问题,旨在激发创新思想并推动该领域的发展。本研究的代码库已公开发布,可通过在线资源获取。这一综述为理解和应用语言模型中的公平性提供了重要参考,有助于解决社会偏见问题并促进更公平的NLP技术发展。
语言模型公平性自然语言处理社会偏见变换器架构
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文对语言模型公平性定义的系统性梳理具有重要意义,可能推动领域内相关研究。

OpenScan:广义开放词汇3D场景理解的基准

ArXiv ID: 2408.11030
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Youjun Zhao, Jiaying Lin, Shuquan Ye, Qianshi Pang, Rynson W. H. Lau
📄 中文摘要:
本文提出了一种新的挑战性任务——广义开放词汇3D场景理解(GOV-3D),旨在探索超越封闭对象类别集合的开放词汇问题,评估模型对3D场景的整体理解能力。传统的开放词汇3D场景理解(OV-3D)方法和基准主要聚焦于对象类别问题,未能全面评估模型对场景的理解深度。GOV-3D任务扩展到更广泛的知识领域,通过语言查询表达细粒度和对象特定的属性。为此,作者构建了一个新的基准数据集OpenScan,涵盖了3D对象属性的八个代表性语言方面,包括功能性、性质和材料等。基于OpenScan基准,作者对当前最先进的OV-3D方法进行了评估,发现这些方法在理解GOV-3D任务中的抽象词汇时表现不佳,仅仅通过增加训练中的对象类别无法解决这一问题。研究揭示了现有方法的局限性,例如对抽象概念的理解不足和泛化能力的欠缺,并探讨了克服这些不足的潜在方向,包括改进模型架构和引入更丰富的语言-视觉对齐训练数据。本文的研究为未来的3D场景理解提供了重要的参考框架,强调了在开放词汇任务中融入更广泛知识的必要性,并为开发更强大的模型指明了方向。
开放词汇3D场景理解OpenScan广义知识计算机视觉
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出新任务和基准,具有重要创新性,可能推动3D场景理解领域发展。

CLIP-AGIQA:利用CLIP提升AI生成图像质量评估性能

ArXiv ID: 2408.15098
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Zhenchen Tang, Zichuan Wang, Bo Peng, Jing Dong
📄 中文摘要:
随着生成技术的快速发展,AI生成图像(AIGIs)已广泛应用于日常生活的各个方面。然而,由于技术尚未成熟,生成图像的质量参差不齐,因此开发针对生成图像的质量评估技术显得尤为重要。尽管已有一些模型被提出用于评估生成图像的质量,但面对日益增多且类别多样的生成图像,这些模型的表现仍显不足。因此,迫切需要开发更先进、更有效的生成图像质量评估模型。近期研究发现,视觉语言模型CLIP在图像质量评估中展现出显著潜力,尤其在自然图像质量评估中表现优异。然而,CLIP在生成图像质量评估中的应用尚未得到充分探索。本文基于这一思路,进一步挖掘CLIP在生成图像质量评估中的潜力,设计了基于CLIP的回归模型CLIP-AGIQA,用于生成图像的质量评估,充分利用了CLIP中丰富的视觉和文本知识。特别地,本文实现了多类别可学习提示(learnable prompts),以充分利用CLIP中的文本知识进行质量评估。在多个生成图像质量评估基准数据集(如AGIQA-3K和AIGCIQA2023)上的广泛实验表明,CLIP-AGIQA在生成图像质量评估中显著优于现有的图像质量评估(IQA)模型,取得了卓越的成果。这一研究为生成图像质量评估提供了新的视角和方法,有助于推动生成技术的发展和应用。
AI生成图像图像质量评估CLIP模型可学习提示计算机视觉
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在生成图像质量评估领域具有重要创新,可能对相关技术发展产生较大影响。

解析树引导的大语言模型提示压缩

ArXiv ID: 2409.15395
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Wenhao Mao, Chengbin Hou, Tianyu Zhang, Xinyu Lin, Ke Tang, Hairong Lv
📄 中文摘要:
向大语言模型(LLMs)提供丰富的上下文已被证明能够显著提升其在多种任务中的表现,但随之而来的长提示不仅增加了计算成本,还可能超出模型的输入限制。近年来,一些提示压缩方法被提出,通过使用语言模型生成较短的提示或开发计算模型选择原始提示的重要部分来缩短提示长度。然而,生成式压缩方法容易出现幻觉问题,而选择性压缩方法往往未考虑语言规则,忽视了提示的全局结构。为解决这一问题,本文提出了一种新颖的选择性压缩方法——PartPrompt。该方法首先基于语言规则为每句话构建解析树,并计算解析树中每个节点的局部信息熵。随后,根据句子、段落和章节之间的层次依赖关系,将这些局部解析树组织成一个全局树。接着,提出了根向传播和叶向传播机制,以调整全局树上节点的值。最后,开发了一种递归算法,根据调整后的节点值对全局树进行剪枝。实验结果表明,PartPrompt 在多个数据集、评估指标、压缩比率以及目标大语言模型的推理任务中均取得了最先进的性能。深入的消融研究验证了 PartPrompt 设计的高效性,而额外的实验进一步展示了其在压缩提示连贯性以及极端长提示场景中的优越性。本研究为提示压缩提供了一种结合语言规则和全局结构的新视角,有助于提升大语言模型在实际应用中的效率和效果。
大语言模型提示压缩解析树信息熵自然语言处理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新方法,结合语言规则与全局结构,具有较大应用潜力。

PAK-UCB上下文强盗:一种在线学习方法用于提示感知的生成模型和大型语言模型选择

ArXiv ID: 2410.13287
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Xiaoyan Hu, Ho-fung Leung, Farzan Farnia
📄 中文摘要:
本文研究了基于提示的生成模型(包括大型语言模型LLMs以及提示引导的图像和视频生成模型)在不同文本提示下的表现差异,提出了一种在线学习框架来预测给定输入提示下的最佳数据生成模型。传统的模型选择通常基于平均评估分数,但这种方法忽略了不同模型可能在特定类型文本提示上表现最佳的可能性。本文通过探索不同文本提示下生成模型排名的变化,提出了一种名为PAK-UCB的算法,解决上下文强盗(CB)问题,其中各臂(即模型)共享上下文变量。PAK-UCB利用生成的样本数据更新基于内核的函数,从而预测每个模型在未见文本提示上的得分。此外,为了加速在线学习过程,作者引入了随机傅里叶特征(RFF),并在真实和模拟的文本到图像及图像到文本生成模型上进行了数值实验。实验结果表明,RFF-UCB在识别不同样本类型下的最佳生成模型方面表现出色。该研究为减少查询次优模型的成本提供了有效方法,并为提示感知的模型选择开辟了新的研究方向。作者还提供了开源代码以支持进一步研究和应用。
在线学习上下文强盗生成模型大型语言模型提示选择
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性在线学习框架,对生成模型选择有重要影响。

AUTALIC:一个针对反自闭症能力主义语言的上下文数据集

ArXiv ID: 2410.16520
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Naba Rizvi, Harper Strickland, Daniel Gitelman, Tristan Cooper, Alexis Morales-Flores, Michael Golde
📄 中文摘要:
随着对自闭症和能力主义的理解不断加深,人们对针对自闭症患者的能力主义语言的认识也在提升。这种语言因其微妙性和上下文依赖性,对自然语言处理(NLP)研究构成了重大挑战。然而,检测反自闭症能力主义语言仍是一个未被充分探索的领域,现有的NLP工具往往无法捕捉其细微表达。本研究推出了AUTALIC,这是首个专注于检测上下文中的反自闭症能力主义语言的基准数据集,填补了该领域的重大空白。该数据集包含从Reddit收集的2400个与自闭症相关的句子,并附带周围的上下文信息,由具有神经多样性背景的训练专家进行标注。研究通过全面评估发现,包括最先进的语言模型(LLMs)在内的当前语言模型,在可靠识别反自闭症能力主义语言并与人类判断一致方面存在困难,凸显了它们在该领域的局限性。研究团队公开发布了AUTALIC数据集及其个体标注,为研究能力主义、神经多样性以及标注任务中分歧的研究人员提供了宝贵资源。该数据集是开发更具包容性和上下文感知能力的NLP系统的重要一步,有助于更好地反映多样化的视角。通过这一工作,研究旨在推动NLP技术的发展,使其在处理与神经多样性相关的内容时更加敏感和准确,为构建更公平的语言处理工具奠定基础。
自闭症能力主义自然语言处理数据集上下文
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究填补了NLP领域的重要空白,具有较大影响力。

模态与任务适应增强零样本组合图像检索

ArXiv ID: 2410.23736
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Haiwen Li, Fei Su, Zhicheng Zhao
📄 中文摘要:
零样本组合图像检索(ZS-CIR)作为一项具有挑战性的视觉-语言任务,旨在利用双模态(图像+文本)查询检索目标图像。传统的ZS-CIR方法通常采用反转网络生成伪词标记以有效表示输入语义。然而,反转网络方法存在两个固有问题:一是任务差异,即反转训练与CIR推理的目标不一致;二是模态差异,即训练与推理阶段的输入特征分布不匹配。为解决这些问题,本文提出了一种轻量级的后处理框架,包括两个核心组件:(1)基于大型语言模型(LLM)的文本锚定三元组构建流程,将标准图像-文本数据集转化为三元组数据集,其中文本描述作为每个三元组的目标;(2)MoTa-Adapter,一种新颖的参数高效微调方法,利用构建的三元组数据将双编码器适应于CIR任务。具体而言,在文本端,通过专家混合(MoE)层集成多组可学习任务提示,以捕捉任务特定先验并处理不同类型的修改;在图像端,MoTa-Adapter调整反转网络的输入以更好地匹配下游文本编码器。此外,提出了一种基于熵的优化策略,对困难样本赋予更大权重,从而实现高效适应。实验结果表明,通过引入所提出的组件,反转网络方法取得了显著改进,在四个广泛使用的基准数据集上达到了最先进的性能。所有数据和代码将公开发布。
零样本组合图像检索模态适应任务适应大型语言模型参数高效微调
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新框架,显著提升ZS-CIR性能,具有较大领域影响力。

DOGR:面向多功能视觉文档定位与指代的探索

ArXiv ID: 2411.17125
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yinan Zhou, Yuxin Chen, Haokun Lin, Yichen Wu, Shuyu Yang, Zhongang Qi, Chen Ma, Li Zhu, Ying Shan
📄 中文摘要:
随着多模态大语言模型(MLLMs)的快速发展,定位与指代能力因其在实现详细理解和灵活用户交互方面的潜力而受到越来越多的关注。然而,在视觉文档理解领域,由于缺乏细粒度数据集和全面的基准测试,这些能力的发展仍然不足。为解决这一问题,本研究提出了文档定位与指代数据引擎(DOGR-Engine),该引擎生成了两种高质量的细粒度文档数据:(1)多粒度解析数据,用于提升文本定位和识别能力;(2)指令调整数据,用于激活MLLMs在对话和推理中的定位与指代功能。基于DOGR-Engine,研究构建了DOGR-Bench基准测试,涵盖了三种文档类型(图表、海报和PDF文档)的七项定位与指代任务,提供了对细粒度文档理解的全面评估。利用生成的数据,研究进一步开发了DOGR模型,作为一个强大的基线模型。该模型在文本定位和识别方面表现出色,同时能够在对话和推理过程中精确地定位和指代关键文本信息,从而将文档理解推进到更细的粒度,并支持灵活的交互范式。研究结果表明,DOGR在提升视觉文档理解的精度和交互性方面具有重要潜力,为未来的多模态学习和文档处理提供了新的研究方向和实践基础。
多模态大语言模型视觉文档理解定位与指代细粒度数据基准测试
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在视觉文档理解领域提出创新方法和基准,具有较大影响力。

3DGraphLLM:结合语义图和大型语言模型进行3D场景理解

ArXiv ID: 2412.18450
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Tatiana Zemskova, Dmitry Yudin
📄 中文摘要:
本文提出了一种名为3DGraphLLM的新方法,旨在通过结合语义图和大型语言模型(LLMs)来增强对3D场景的理解能力。3D场景图作为一种紧凑的场景模型,不仅捕捉场景中的对象,还包括对象之间的语义关系,是机器人应用中极具潜力的结构。为了实现与用户的有效交互,智能体需要能够回答关于周围3D环境的各种自然语言查询。大型语言模型因其在自然语言理解和推理方面的能力,成为用户-机器人交互的理想解决方案。然而,现有方法通常仅依赖几何信息(如对象坐标),忽略了对象之间丰富的语义关系。本研究通过构建一种可学习的3D场景图表示方法,明确纳入了语义关系,并将其作为输入提供给大型语言模型,用于执行3D视觉-语言任务。实验在多个公开数据集(如ScanRefer、Multi3DRefer、ScanQA、Sqa3D和Scan2cap)上进行,结果表明,与未利用对象间语义关系的基线方法相比,3DGraphLLM在性能上取得了显著提升。这一方法为3D场景理解和用户交互提供了新的视角,可能在机器人技术和智能体交互领域产生广泛应用。作者还公开了相关代码,便于进一步研究和验证。
3D场景理解语义图大型语言模型视觉-语言任务机器人交互
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在3D场景理解领域具有重要创新,可能对机器人交互产生较大影响。

评估大型语言模型在多语言噪声OCR数据上的问答鲁棒性

ArXiv ID: 2502.16781
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Bhawna Piryani, Jamshid Mozafari, Abdelrahman Abdallah, Antoine Doucet, Adam Jatowt
📄 中文摘要:
光学字符识别(OCR)在历史和多语言文档数字化中扮演着关键角色,但OCR错误(如字符插入、删除和替换)会对下游任务如问答(QA)产生显著影响。本研究全面分析了OCR引发的噪声如何影响多语言问答系统的性能。为此,我们构建了一个多语言问答数据集MultiOCR-QA,包含英语、法语和德语三种语言的50,000个问答对,数据来源于包含不同级别和类型OCR噪声的历史文档。我们评估了多种最先进的大型语言模型(LLMs)在不同错误条件下的表现,重点关注三种主要的OCR错误类型。研究发现,问答系统对OCR引发的错误高度敏感,在噪声OCR文本上的表现较差。通过比较模型在干净文本和噪声文本上的性能差异,我们揭示了当前方法的局限性,并强调在历史数字化背景下开发更具噪声鲁棒性的问答系统的必要性。本研究不仅为理解OCR噪声对问答任务的影响提供了重要见解,还为未来改进多语言问答系统的鲁棒性奠定了基础,尤其是在处理历史文档数字化时面临的挑战。研究结果表明,当前的问答系统在面对噪声数据时存在显著不足,亟需开发更适应噪声环境的模型和方法,以提升在实际应用中的可靠性和准确性。
大型语言模型多语言问答OCR噪声历史文档数字化鲁棒性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究具有重要创新性,对多语言问答系统鲁棒性有较大影响。

使用六轴加速度计结合Conformer和CTC算法实现无声语音句子识别

ArXiv ID: 2502.17829
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yudong Xie, Zhifeng Han, Qinfan Xiao, Liwei Liang, Lu-Qi Tao, Tian-Ling Ren
📄 中文摘要:
无声语音接口(SSI)的开发旨在帮助有沟通障碍的个体改善日常生活质量,解决其长期面临的交流困难。然而,由于省略和连读现象,无声句子的分割和识别一直是一个挑战。本研究提出了一种新颖的无声语音句子识别方法,通过六轴加速度计采集面部运动信号,并将其转化为转录的单词和句子。该方法采用基于Conformer的神经网络结合连接主义时间分类(CTC)算法,以获得上下文理解能力,将非声学信号转化为单词序列,仅需数据库中的构成单词即可完成识别。实验结果表明,该方法在句子识别上的准确率达到了97.17%,显著优于现有无声语音识别方法85%-95%的典型准确率。这一结果充分展示了加速度计作为一种高精度无声语音识别SSI模态的潜力。研究不仅在技术上实现了突破,还为沟通障碍者提供了更有效的交流工具,具有重要的应用价值。未来的研究可以进一步优化算法模型,扩展适用场景,并探索更多传感器组合以提升识别鲁棒性。本研究为无声语音技术的发展奠定了坚实基础,可能对相关领域产生深远影响。
无声语音接口六轴加速度计Conformer神经网络CTC算法句子识别
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在无声语音识别领域有重要创新,准确率显著提升,具有较大应用潜力。

评估代理型大语言模型在多语言国家偏见中的表现

ArXiv ID: 2502.17945
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Qianying Liu, Katrina Qiyao Wang, Fei Cheng, Sadao Kurohashi
📄 中文摘要:
大语言模型(LLMs)因其在多语言自然语言处理中的强大能力而备受关注,然而关于跨语言偏见风险的研究多局限于即时上下文偏好,而对基于推理的推荐中的跨语言差异性研究仍未深入,甚至缺乏描述性分析。本研究首次填补了这一空白,测试了LLMs在提供个性化建议方面的适用性和能力,涵盖了三个关键场景:大学申请、旅行和搬迁。我们通过分析最先进的大语言模型在多语言决策任务中的响应,研究了多语言偏见问题。我们量化了模型生成评分中的偏见,并评估了人口统计因素和推理策略(如链式思维提示)对偏见模式的影响。研究发现,不同任务中普遍存在本地语言偏见,GPT-4和Sonnet相较于GPT-3.5在英语国家中的偏见有所减少,但仍未能实现稳健的多语言对齐。这揭示了多语言AI代理及教育等领域应用的更广泛影响。本研究强调了在开发多语言AI系统时,需要更加关注语言间的公平性和一致性,以避免潜在的文化和国家偏见对用户决策产生不当影响。研究结果为未来的多语言模型设计和优化提供了重要参考,同时也为如何减少AI系统中的偏见提供了新的视角和方法论支持。
大语言模型多语言偏见自然语言处理AI公平性决策任务
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究创新性强,揭示多语言AI偏见问题,具有较大潜在影响。

透过放大镜:无幻觉视觉语言模型解码的自适应感知放大

ArXiv ID: 2503.10183
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Shunqi Mao, Chaoyi Zhang, Weidong Cai
📄 中文摘要:
现有的视觉语言模型(VLMs)常常受到视觉幻觉问题的困扰,即生成的响应包含与视觉输入不符的不准确内容。在不进行模型微调的情况下,解决这一问题的主要方法包括通过对比减少语言偏差或在解码过程中放大视觉嵌入的权重。然而,这些方法在捕捉细粒度视觉细节方面的能力仍然有限。本研究提出了一种新的视觉解码方法——感知放大器(Perception Magnifier, PM)。该方法通过迭代地基于注意力机制隔离相关视觉标记,并放大相应区域,促使模型在解码过程中专注于细粒度的视觉细节。PM在每个解码步骤中放大关键区域,同时保留结构和上下文信息,使VLM能够增强对视觉输入的审查,从而生成更准确和忠实的响应。广泛的实验结果表明,PM不仅在缓解幻觉方面表现出色,还能提升语言生成能力,同时保持强大的推理能力。通过这种自适应感知放大的方式,PM为视觉语言模型提供了一种有效的解码策略,有助于解决视觉幻觉问题,并在实际应用中展现出更高的可靠性和准确性。本研究为视觉语言模型的改进提供了新的思路,可能对未来的模型设计和应用产生积极影响。
视觉语言模型视觉幻觉感知放大细粒度细节解码方法
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新解码方法,对视觉语言模型领域有较大潜在影响。

CRAB:评估生物医学领域检索增强型大语言模型策展能力的基准

ArXiv ID: 2504.12342
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Hanmeng Zhong, Linqing Chen, Wentao Wu, Weilei Wang
📄 中文摘要:
近年来,检索增强型大语言模型(LLMs)在生物医学领域的应用显示出巨大潜力。然而,在可靠评估其策展能力——即模型选择和整合相关参考文献并过滤噪声的过程——方面仍存在关键差距。为解决这一问题,本研究提出了生物医学领域检索增强型大语言模型策展能力评估基准(CRAB),这是首个针对生物医学策展的多语言基准,支持英语、法语、德语和中文。通过引入一种新颖的基于引文的评估指标,CRAB量化了检索增强型大语言模型在生物医学领域的策展性能。实验结果显示,主流大语言模型在策展性能上存在显著差异,凸显了在生物医学领域改进这一能力的迫切需求。本研究的数据集已公开,可通过https://huggingface.co/datasets/zhm0/CRAB获取。本文的研究背景聚焦于大语言模型在生物医学领域的应用挑战,特别是在信息筛选和整合方面的不足。研究方法包括构建多语言数据集并设计创新性评估指标,以客观衡量模型性能。关键发现表明当前主流模型在策展能力上的局限性,尤其是在处理生物医学文献时的准确性和可靠性问题。结论强调了提升模型策展能力的重要性,并为未来研究提供了数据支持和评估框架。这一基准的提出不仅填补了评估工具的空白,也为推动生物医学领域的智能信息处理技术发展奠定了基础。
检索增强型大语言模型生物医学策展能力多语言基准评估指标
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性基准,对生物医学领域LLM应用有重要影响。

元评估器:一种用于预训练语言模型的多维数据选择方法

ArXiv ID: 2504.14194
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Xinlin Zhuang, Jiahui Peng, Ren Ma, Yinfan Wang, Tianyi Bai, Xingjian Wei, Jiantao Qiu, Chi Zhang, Y
📄 中文摘要:
大型语言模型(LLMs)的预训练数据集构成往往未被公开,这限制了透明度以及优化数据质量的努力,而数据质量是模型性能的关键驱动因素。当前的数据选择方法,如自然语言质量评估、基于多样性的过滤和基于分类器的方法,通常局限于单一维度的评估或专注于冗余性策略,存在局限性。为解决这些问题,本研究提出了四个数据质量评估维度:专业性、可读性、推理能力和清洁度。在此基础上,提出了一种多维数据选择方法——Meta-rater,通过学习最优权重将这些维度与现有质量指标相结合。Meta-rater 使用代理模型训练回归模型以预测验证损失,从而识别质量分数的优化组合。实验结果表明,Meta-rater 使 13 亿参数模型的收敛速度翻倍,并将下游任务性能提升了 3.23%,其优势在高达 72 亿参数的模型中依然显著。研究表明,整体性、多维质量整合方法明显优于传统的单维度方法,为提升预训练效率和模型能力提供了一种可扩展的范式。为了推动未来研究,作者公开了相关脚本、数据和模型。本研究不仅揭示了多维数据质量评估的重要性,还为构建更高效的预训练数据集提供了新的思路和工具,具有重要的理论和实践意义。
预训练语言模型数据选择多维评估数据质量模型性能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新的多维数据选择方法,对预训练效率有显著提升,具有较大影响力。

通过依赖语言模型的蕴含能力提升事实核查性能

ArXiv ID: 2505.15050
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Gaurav Kumar, Debajyoti Mazumder, Ayush Garg, Jasabanta Patro
📄 中文摘要:
在数字化时代,自动化事实核查是一项至关重要的任务。自然语言处理(NLP)领域的研究者尝试了多种策略来构建稳健的事实核查系统,但目前尚未取得显著成功。事实核查的复杂性是主要原因之一,语言模型需要解析多条证据,这些证据往往相互矛盾,以预测声明的真实性。本文提出了一种简单而有效的策略,通过依赖语言模型的蕴含能力来提升事实核查性能。此外,鉴于文献中缺乏对不同提示和微调策略的比较,本研究对此进行了深入探讨。研究的主要发现包括:(1)使用原始证据句子(TBE-1)和整体声明-证据理解(TBE-2)训练语言模型,在RAW-FC数据集上的宏F1分数分别提升了8.20%和16.39%;(2)使用蕴含性 justification(TBE-3)训练语言模型,在LIAR-RAW和RAW-FC数据集上的表现分别大幅超越基线,宏F1分数提升高达28.57%和44.26%。这些结果表明,基于蕴含能力的训练策略显著提高了事实核查的准确性。本文还公开了代码库,以便重现研究结果。通过对不同训练方法的系统性比较,本研究为事实核查系统的优化提供了新的思路和实践指导。作者强调,未来的研究可以进一步探索蕴含能力在其他NLP任务中的应用潜力,以应对复杂信息环境中的挑战。
事实核查语言模型蕴含能力自然语言处理微调策略
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新方法提升事实核查性能,具有较大领域影响力。

模型内部探秘:在现代语言模型中发现词汇身份和屈折形态学

ArXiv ID: 2506.02132
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Michael Li, Nishant Subramani
📄 中文摘要:
本文研究了大型基于Transformer的语言模型如何编码语言信息,特别是在词汇身份和屈折形态学方面的表现。作者对25种模型进行了深入分析,涵盖了从经典架构(如BERT、DeBERTa、GPT-2)到现代大型语言模型(如Pythia、OLMo-2、Gemma-2、Qwen2.5、Llama-3.1)的广泛范围,研究对象涉及六种类型学上多样的语言。通过对隐藏层激活值进行训练的线性和非线性分类器,作者逐层预测词汇的词干和屈折特征。研究发现,模型在早期层中线性地集中词汇信息,而在后期层中逐渐呈现非线性特征;同时,屈折信息在整个模型中保持均匀可访问且线性可分离。进一步的实验探讨了这些编码的本质:注意力机制和残差分析揭示了信息在层内的恢复位置,引导向量实验测试了可功能性操作的信息,而内在维度分析则探讨了表征结构如何随层演变。令人注目的是,尽管模型在架构、规模和训练方式(预训练和指令微调变体)上存在差异,这些编码模式在所有测试模型中均一致出现。这表明,即使大型语言模型技术取得了显著进步,Transformer模型仍以相似的方式组织语言信息,暗示这些特性对于下一词预测至关重要,并且在预训练早期即被学习。本研究为理解现代语言模型的内部机制提供了重要见解,并为未来的模型设计和优化奠定了基础。
语言模型词汇身份屈折形态学Transformer自然语言处理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究揭示了语言模型编码语言信息的普遍模式,具有重要创新和潜在影响力。

声音能否通过令牌替换在LLaVA中替代视觉?

ArXiv ID: 2506.10416
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Ali Vosoughi, Jing Bi, Pinxin Liu, Yunlong Tang, Chenliang Xu
📄 中文摘要:
本文系统性地探讨了音视频对齐的极限可能性,研究了在极端对齐条件下感知模型在检索和生成任务中的行为变化。由于现有数据集仅将音视频对齐视为二元状态(同步或不同步),缺乏细粒度的对齐质量标注,作者开发了一个包含详细对齐评分的新数据集,揭示了音视频感知对应关系的隐藏光谱。基于这些精确评分,作者通过仅使用最完美匹配的音视频对进行训练,创建了“超对齐”表示,并对编码器性能进行了深入分析。研究对象分为两类:以图像为中心的编码器(通过视觉模态作为连接中介进行预训练)和以文本为中心的编码器(通过直接音频-语言对齐进行预训练)。作者首先在跨模态检索和视觉-语言模型的文本描述生成任务上评估了这些编码器的基准性能,随后使用高度一致的音视频数据将所有编码器与CLIP空间重新对齐,并观察性能变化。研究发现,编码器的初始架构类型决定了其对对齐过程的响应方式。以图像为中心的编码器在跨模态检索中表现出色,但这种密集对齐压缩了独特的语言信息,降低了文本描述生成的质量。而以文本为中心的编码器由于具有更强的语言真实性,能够在这两个目标之间保持更好的平衡。本研究为多模态学习中音视频对齐的影响提供了重要见解,并揭示了不同编码器架构在极端对齐条件下的表现差异。
音视频对齐多模态学习跨模态检索视觉-语言模型编码器架构
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在多模态对齐领域提出创新方法,具有较大潜在影响。

大型语言模型能从经验中提升多少?通过与人类的比较测量大型语言模型的测试时学习能力

ArXiv ID: 2506.14448
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Jiayin Wang, Zhiquang Guo, Weizhi Ma, Min Zhang
📄 中文摘要:
本文探讨了大型语言模型(LLMs)在测试时学习能力(Test-time Learning)的评估问题,强调了在迈向通用人工智能的道路上,全面且前瞻性的评估设计至关重要。现有基准测试主要关注静态知识的评估,而智能还包括从经验中快速学习的能力。作者提出测试时学习能力作为评估模型在基于经验、需要推理的任务中改进表现的关键指标。为此,研究引入了语义游戏作为测试时学习的有效测试平台,因其难以饱和且对策略性推理有内在需求。研究设计了一个客观评估框架,比较模型在有限经验和累积经验设置下的表现,并包含四种经验表示形式。同时,研究招募了八名人类参与者完成相同任务作为对比基准。结果表明,大型语言模型展现出可测量的测试时学习能力;然而,与人类相比,模型在累积经验下的改进不够稳定,进步速度也明显慢于人类。这一发现突显了大型语言模型作为通用学习机器的潜力,但同时也揭示了模型与人类在智力上的显著差距,无论模型在静态基准测试中的表现如何优异。研究结论强调了测试时学习能力评估的重要性,并为未来改进大型语言模型的学习机制提供了方向。
大型语言模型测试时学习语义游戏人工智能评估人类对比
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新的测试时学习评估框架,具有较大影响力。

多人体测试平台:多人体图像生成的基准测试

ArXiv ID: 2506.20879
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Shubhankar Borse, Seokeon Choi, Sunghyun Park, Jeongho Kim, Shreya Kadambi, Risheek Garrepalli, Sung
📄 中文摘要:
生成包含多个人的图像,同时保留其面部身份并展现复杂动作,是图像生成领域的一大挑战。当前研究的一个主要限制是缺乏专门的基准测试数据集。为解决这一问题,本文提出了MultiHuman-Testbench,一个用于严格评估多人体图像生成模型的新型基准测试平台。该基准包含1800个样本,涵盖从简单到复杂的人类动作描述的精心设计的文本提示。这些提示与总计5550张独特的人脸图像相匹配,图像在年龄、种族背景和性别上均匀采样以确保多样性。此外,数据集还提供了人工选择的姿势条件图像,与提示内容精确对应。本文提出了一套多方面的评估体系,采用四项关键指标来量化面部数量、身份相似性、提示一致性和动作检测效果。对多种模型进行了全面评估,包括零样本方法和基于训练的方法,以及是否使用区域先验的情况。同时,本文还提出了利用人体分割和匈牙利匹配进行图像及区域隔离的新技术,显著提升了身份相似性。研究结果表明,MultiHuman-Testbench为多人体图像生成研究提供了宝贵的见解和标准化的工具。数据集和评估代码将在https://github.com/Qualcomm-AI-research/MultiHuman-Testbench上公开。本文的基准测试平台和关键发现为推动多人体图像生成领域的研究提供了重要支持,有助于解决当前技术瓶颈并促进生成模型的进一步发展。
多人体图像生成基准测试面部身份姿势条件评估指标
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新基准测试平台,对多人体图像生成领域有重要影响。

使用大型语言模型进行手语识别歧义消除

ArXiv ID: 2507.03703
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden
📄 中文摘要:
手语识别(Sign Spotting)是识别和定位连续手语视频中单个手语动作的任务,对于扩展数据集标注和解决手语翻译中的严重数据稀缺问题具有关键作用。尽管自动手语识别在实现大规模帧级监督方面具有巨大潜力,但其面临词汇灵活性和连续手语流中固有的歧义等挑战。为此,本研究提出了一种新颖的无需训练的框架,通过集成大型语言模型(LLMs)显著提升手语识别质量。该方法首先提取全局时空特征和手形特征,然后利用动态时间规整(Dynamic Time Warping)和余弦相似性将这些特征与大规模手语词典进行匹配。这种基于词典的匹配方式天生具有较高的词汇灵活性,无需重新训练模型。为了缓解匹配过程中的噪声和歧义问题,大型语言模型通过束搜索(Beam Search)执行上下文感知的词义消歧,且无需微调。研究在合成和真实世界手语数据集上进行了广泛实验,结果表明,与传统方法相比,该方法在准确性和句子流畅性方面表现出色,凸显了大型语言模型在推动手语识别领域的潜力。这一框架不仅为手语翻译提供了有效的解决方案,也为利用大型语言模型解决复杂多模态任务提供了新的思路。研究结果表明,该方法在处理连续手语流的复杂性和歧义方面具有显著优势,为未来的手语技术发展奠定了基础。
手语识别大型语言模型歧义消除动态时间规整上下文感知
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究创新性地结合大型语言模型解决手语识别问题,具有较大潜力影响领域发展。

自动合成高质量三元组数据用于组合图像检索

ArXiv ID: 2507.05970
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Haiwen Li, Delong Liu, Zhaohui Hou, Zhicheng Zhao, Fei Su
📄 中文摘要:
组合图像检索(CIR)作为一项具有挑战性的视觉-语言(VL)任务,旨在使用多模态(图像+文本)查询检索目标图像。尽管现有的CIR方法取得了令人瞩目的性能,但它们依赖于昂贵的手工标注三元组数据,限制了可扩展性和零样本能力。为解决这一问题,本文提出了一种可扩展的自动三元组生成流程,并构建了一个完全合成的数据集,名为‘高质量合成三元组上的组合图像检索’(CIRHS)。该流程利用大型语言模型(LLM)生成多样化的提示,控制文本到图像生成模型生成具有相同元素的图像对,随后通过过滤和重组形成CIRHS数据集。此外,本文提出了一种新的CIR框架——混合上下文对齐(CoAlign),该框架能够在更广泛的上下文中实现全局对齐和局部推理,使模型能够学习更鲁棒和信息丰富的表示。利用合成的CIRHS数据集,CoAlign在三个常用基准测试中实现了出色的零样本性能,首次证明了在完全合成数据集上训练CIR模型的可行性。在有监督训练下,该方法优于所有最先进的监督CIR方法,验证了所提出的检索框架的有效性。相关代码和CIRHS数据集即将发布。本研究为CIR领域提供了一种创新的数据生成和模型训练方法,显著降低了人工标注成本,并为未来的零样本学习和可扩展性研究奠定了基础。
组合图像检索自动三元组生成合成数据集零样本学习混合上下文对齐
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在CIR领域具有重要创新,合成数据集和框架设计可能带来较大影响。

AV-SSAN:通过显式多频段语义-空间对齐的视听选择性到达方向估计

ArXiv ID: 2507.07384
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yu Chen, Hongxu Zhu, Jiadong Wang, Kainan Chen, Xinyuan Qian
📄 中文摘要:
视听声源定位(AV-SSL)通过融合听觉和视觉线索来估计声源位置。然而,当前的AV-SSL方法通常需要空间配对的视听数据,并且无法选择性地定位特定目标声源。为了解决这些局限性,本研究提出了一种新的任务——跨实例视听定位(CI-AVL)。该任务利用来自同一语义类别的不同实例的视觉提示来定位目标声源,从而在无需空间配对数据的情况下实现选择性定位。为解决这一任务,本文提出了AV-SSAN,一种以多频段语义-空间对齐网络(MB-SSA Net)为核心的语义-空间对齐框架。MB-SSA Net将音频频谱图分解为多个频段,将每个频段与语义视觉提示对齐,并优化空间线索以估计到达方向(DoA)。为了支持这一研究,作者构建了VGGSound-SSL数据集,这是一个包含13,981个空间音频片段的大型数据集,涵盖296个类别,每个音频片段均与视觉提示配对。实验结果表明,AV-SSAN在到达方向估计上的平均绝对误差为16.59,准确率为71.29%,显著优于现有的AV-SSL方法。研究代码和数据将公开发布,为后续研究提供了重要资源。本文的研究不仅在技术上实现了突破,还为多模态信号处理领域提供了新的研究方向和应用潜力,尤其是在无需严格配对数据的情况下实现精准声源定位具有重要意义。
视听声源定位语义-空间对齐到达方向估计多模态信号处理数据集
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新性任务和框架,数据集建设具有重要价值,可能对领域产生较大影响。

合成近边界OOD样本用于分布外检测

ArXiv ID: 2507.10225
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Jinglun Li, Kaixun Jiang, Zhaoyu Chen, Bo Lin, Yao Tang, Weifeng Ge, Wenqiang Zhang
📄 中文摘要:
本文提出了一种名为SynOOD的新方法,旨在解决预训练视觉-语言模型在检测分布外(OOD)样本时面临的挑战,特别是那些在图像特征空间中接近分布内(InD)数据的困难样本。传统的检测方法容易将这些近边界OOD样本误分类,而基础模型(如扩散模型和多模态大语言模型,MLLMs)的出现为解决这一问题提供了可能性。SynOOD利用这些基础模型生成合成的、具有挑战性的OOD数据,用于微调CLIP模型,从而增强对InD和OOD样本在边界处的区分能力。具体而言,该方法通过MLLMs提供的上下文提示指导迭代的图像修复过程,生成细致的、与边界对齐的OOD样本。这些样本通过基于能量分数等OOD评分的梯度进行噪声调整,进一步优化以接近InD/OOD边界。利用这些精心合成的图像,作者对CLIP图像编码器和从文本编码器派生的负标签特征进行微调,强化了近边界OOD样本与一组负标签之间的关联。最终,SynOOD在大规模ImageNet基准测试上取得了最先进的性能,同时参数和运行时间的增加极小,显著超越了现有方法。本研究的代码已公开,展示了其在分布外检测领域中的应用潜力。
分布外检测近边界样本CLIP模型合成数据基础模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在OOD检测领域具有重要创新,可能显著提升模型性能。

IsaMini:为机器学习重新设计的Isabelle证明语言

ArXiv ID: 2507.18885
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Qiyuan Xu, Renxi Wang, Haonan Li, David Sanan, Conrad Watt
📄 中文摘要:
本文研究了神经定理证明(Neural Theorem Proving, NTP)在证明助手中的应用,特别是在利用大型语言模型(LLMs)自动化形式化证明方面的潜力。NTP被认为是降低证明工程中巨大的人力成本或计算成本的关键方法,而证明工程是形式化验证和其他软件工程方法的基础。作者提出,LLMs的能力高度依赖于表示形式,因此通过重新设计证明语言可能显著提升NTP的性能。为此,论文引入了一种新的证明语言MiniLang,这是对Isabelle/HOL证明语言的改进设计,并集成了增强版的Sledgehammer工具。实验结果表明,MiniLang显著提升了两个微调后的大型语言模型在PISA基准测试上的表现,与生成Isar证明脚本相比,成功率提高了高达29%。具体而言,在单次尝试下的成功率(pass@1)达到了69.1%,超过了之前Baldur的pass@64(65.7%);而在8次尝试下的成功率(pass@8)达到了79.2%,超越了PISA基准上Magnushammer所取得的最先进结果(71.0%)。这些结果表明,MiniLang通过优化证明语言的表示形式,为神经定理证明提供了更高效的工具支持。作者还讨论了这种方法在形式化验证领域的潜在应用价值,指出重新设计证明语言可能是提升自动化证明技术的重要方向。总之,本研究为利用机器学习技术改进形式化证明提供了一个创新的视角,并展示了通过语言设计优化可以显著提升模型性能的可能性。
神经定理证明大型语言模型Isabelle/HOL证明语言形式化验证
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的证明语言设计,显著提升NTP性能,具有较大领域影响力。

HiPrune:基于层次注意力机制的视觉语言模型无训练视觉令牌剪枝方法

ArXiv ID: 2508.00553
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Jizhihui Liu, Feiyi Du, Guangdao Zhu, Niu Lian, Jun Li, Bin Chen
📄 中文摘要:
视觉语言模型(VLMs)将图像编码为冗长的视觉令牌序列,导致计算开销巨大且推理效率低下。现有方法通过剪枝或合并令牌来解决这一问题,但通常依赖于特殊令牌(如CLS)或需要针对特定任务进行训练,限制了其在不同架构中的可扩展性。本文提出了一种无需训练且与模型无关的令牌剪枝框架HiPrune,该框架利用了视觉编码器中的层次注意力结构。研究发现,中间层注意力集中在以对象为中心的区域,而深层则捕获全局上下文特征。基于此观察,HiPrune选择了三种信息丰富的令牌:(1)在以对象为中心的层中具有高注意力的锚点令牌;(2)与锚点相邻的缓冲令牌,以保持空间连续性;(3)在深层中具有强注意力的寄存令牌,用于全局总结。该方法无需重新训练,可无缝集成到任何基于ViT的VLM中。在LLaVA-1.5、LLaVA-NeXT和Qwen2.5-VL上的广泛实验表明,HiPrune实现了最先进的剪枝性能,仅保留33.3%的令牌即可保持高达99.3%的任务精度,仅使用11.1%的令牌即可维持99.5%的精度。同时,它将推理FLOPs和延迟降低了高达9倍,展现了在不同模型和任务上的强大泛化能力。代码已公开于GitHub。
视觉语言模型令牌剪枝层次注意力推理效率无训练方法
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性剪枝方法,显著提升VLM效率,具有较大应用潜力。

LinkQA:通过知识点强关联的多种子合成多样化问答数据

ArXiv ID: 2508.01317
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Xuemiao Zhang, Can Ren, Chengying Tu, Rongxiang Weng, Hongfei Yan, Jingang Wang, Xunliang Cai
📄 中文摘要:
随着大型语言模型(LLMs)的快速发展,高质量、多样化训练数据的稀缺成为一大挑战。为解决这一问题,本文提出了一种基于知识点(KP)图的合成框架LinkSyn,该框架能够灵活控制学科和难度分布,同时平衡知识点的覆盖率和流行度。LinkSyn从问答(QA)种子数据中提取知识点,并构建知识点图,通过图游走采样从多个强关联种子中合成多样化的QA数据。具体而言,LinkSyn包括以下创新:(1)引入知识分布价值函数,指导路径采样概率的调整,以在图游走过程中平衡知识点覆盖率和流行度;(2)基于DeepSeek-R1的扩散式合成方法,利用路径上多个种子之间的紧密逻辑关联生成数据;(3)通过灵活的难度调整,在特定学科内增强高难度QA数据的生成。基于LinkSyn框架,本文合成了一个包含500亿token的多学科多样化QA数据集LinkQA。在Llama-3 8B模型上的广泛实验表明,使用LinkQA进行持续预训练在MMLU和CMMLU基准测试上的平均性能提升了11.51%,并创造了新的最优结果(SOTA)。此外,LinkQA在不同模型规模和初始计算量(FLOPs)下均表现出一致的性能提升,验证了其广泛适用性和有效性。本研究为解决LLM训练数据不足问题提供了创新解决方案,并展示了知识点关联在数据合成中的重要作用。
大型语言模型知识点图数据合成问答数据集自然语言处理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新数据合成框架,对LLM训练有重要影响。

通过细粒度图像-文本对齐增强零样本脑肿瘤亚型分类

ArXiv ID: 2508.01602
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Lubin Gan, Jing Zhang, Linhao Qu, Yijun Wang, Siying Wu, Xiaoyan Sun
📄 中文摘要:
本文针对从组织病理学全切片图像中进行脑肿瘤亚型的细粒度分类问题,提出了一种新颖的零样本框架——细粒度图像对齐网络(FG-PAN)。脑肿瘤亚型分类因其形态差异微妙且标注数据稀缺而极具挑战性。尽管视觉-语言模型在零样本分类中展现出潜力,但其捕捉细粒度病理特征的能力有限,导致亚型区分效果不佳。为解决这一问题,FG-PAN 包含两个核心模块:(1)局部特征优化模块,通过建模代表性图像块之间的空间关系,增强图像块级别的视觉特征;(2)细粒度文本描述生成模块,利用大型语言模型生成病理学相关的、类别特定的语义原型。通过将优化后的视觉特征与大型语言模型生成的细粒度描述对齐,FG-PAN 在视觉和语义空间中有效提升了类别可分性。作者在多个公开病理数据集(如 EBRAINS 和 TCGA)上进行了广泛实验,结果表明 FG-PAN 在零样本脑肿瘤亚型分类中实现了最先进的性能,并展现出强大的泛化能力。本研究为数字病理学中的细粒度分类提供了创新解决方案,可能对临床诊断和个性化治疗具有重要意义。
脑肿瘤分类零样本学习细粒度对齐数字病理学视觉-语言模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在数字病理学领域具有重要创新,可能显著提升临床诊断精度。

Marco-Voice 技术报告

ArXiv ID: 2508.02038
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue
📄 中文摘要:
本文提出了一种多功能语音合成系统Marco-Voice,该系统在一个统一的框架内集成了语音克隆和情感控制语音合成技术。研究旨在解决长期存在的挑战,即实现高度表达性、可控性和自然的语音生成,同时在不同的语言和情感背景下忠实保留说话者身份。作者引入了一种有效的说话者-情感解耦机制,结合批内对比学习技术,使得说话者身份和情感风格可以独立操控,并采用旋转情感嵌入集成方法实现平滑的情感控制。为了支持全面的训练和评估,研究团队构建了CSEMOTIONS数据集,这是一个高质量的情感语音数据集,包含6名专业说话者跨越7种情感类别的10小时普通话语音。大量实验表明,Marco-Voice系统在客观和主观指标上均取得了显著改进。全面的评估和分析结果显示,Marco-Voice在语音清晰度和情感丰富度方面表现出色,代表了表达性神经语音合成领域的重大进展。此外,作者公开了代码和数据集,分别位于https://github.com/AIDC-AI/Marco-Voice和https://huggingface.co/datasets/AIDC-AI/CSEMOTIONS。本研究不仅在技术上实现了创新,还为语音合成领域提供了宝贵的资源和参考。
语音合成情感控制语音克隆说话者解耦神经网络
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在语音合成领域具有重要创新,可能对情感表达技术产生较大影响。

CharBench:评估分词在字符级任务中的作用

ArXiv ID: 2508.02591
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Omri Uzan, Yuval Pinter
📄 中文摘要:
本文研究了字符级任务(如在单词中计数或定位字符)对当代语言模型的挑战。一种常见的假设是,语言模型依赖于子词单元而非字符,导致其在字符级任务上的表现不佳,但近期研究对分词作用的结论存在矛盾,影响尚不明确。为解决这一问题,作者提出了CharBench,一个全面的字符级任务基准数据集,其规模比现有替代方案大两个数量级。研究评估了多种领先的开源和专有模型在CharBench上的表现,发现这些任务对现代大型语言模型(LLM)构成显著挑战,平均准确率仅为43.6%,某些任务甚至低至32.3%。通过深入分析单词的内在属性及其分词方式与模型性能的关系,研究发现,在计数任务中,分词属性与正确性的相关性较弱,而查询单词的长度和实际字符数量对结果影响更大。相比之下,在需要理解单词内部位置的任务中,模型性能与包含查询字符的token长度呈负相关,表明较长的token会模糊字符位置信息,影响模型表现。作者呼吁未来研究基于CharBench基准和评估方法,进一步改进模型在字符级任务上的性能。本研究为理解分词对语言模型的影响提供了重要视角,并为模型设计和优化提供了宝贵工具。
字符级任务分词语言模型CharBench模型性能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出重要基准CharBench,对语言模型研究有较大潜在影响。

HyCodePolicy:用于具身智能体多模态监控与决策的混合语言控制器

ArXiv ID: 2508.02629
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaomin
📄 中文摘要:
近年来,多模态大型语言模型(MLLMs)的进步为具身智能体的代码策略生成提供了更丰富的感知基础。然而,现有系统大多缺乏有效的机制来适应性地监控策略执行并在任务完成过程中修复代码。本研究提出了HyCodePolicy,一种混合语言控制框架,系统性地将代码合成、几何 grounding、感知监控和迭代修复整合到一个闭环编程周期中,适用于具身智能体。具体而言,给定自然语言指令,HyCodePolicy首先将其分解为子目标,并生成一个初始的可执行程序,该程序基于以对象为中心的几何基元进行 grounding。随后,程序在仿真环境中执行,同时视觉-语言模型(VLM)观察选定的检查点以检测和定位执行失败,并推断失败原因。通过融合捕捉程序级事件的结构化执行轨迹与基于VLM的感知反馈,HyCodePolicy能够推断失败原因并修复程序。这种混合双重反馈机制实现了最少人工监督下的自我纠正程序合成。研究结果表明,HyCodePolicy显著提高了机器人操作策略的鲁棒性和样本效率,为将多模态推理整合到自主决策流程中提供了一种可扩展的策略。本框架通过结合语言理解、视觉感知和程序修复,展示了在复杂任务中实现自主性和适应性的潜力,为未来具身智能体在动态环境中的应用奠定了基础。
具身智能体多模态语言模型代码合成感知监控程序修复
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在具身智能体领域具有重要创新,可能显著提升机器人任务执行的鲁棒性。

ContextASR-Bench:一个大规模上下文语音识别基准

ArXiv ID: 2507.05727
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: He Wang, Linhan Ma, Dake Guo, Xiong Wang, Lei Xie, Jin Xu, Junyang Lin
📄 中文摘要:
自动语音识别(ASR)领域已得到广泛研究,但以往的基准测试主要集中于评估ASR模型的声学鲁棒性,而对其语言能力的评估相对较少。这主要源于传统ASR模型参数规模和训练语料的限制,导致其缺乏足够的世界知识,无法准确识别跨领域的命名实体,例如医学中的药物和治疗名称或工程中的专业技术术语。近期,大型语言模型(LLMs)及相应的大型音频语言模型(LALMs)的突破显著提升了高级上下文建模和通用人工智能能力的可见性。基于LLMs,研究者设想了一个统一的系统,能够在多样化的现实世界领域中实现鲁棒的语音识别,但现有基准测试不足以评估这一目标。为填补这一空白,本文提出了ContextASR-Bench:一个全面的大规模基准,旨在评估ASR系统的语言能力,使用包含多个领域中大量命名实体的语料库。该基准涵盖了多达40,000个数据条目,包含超过300,000个命名实体,覆盖10个以上领域。除了音频及其转录外,每个样本还提供了所属领域和包含的命名实体列表(即上下文)。基于此,本文引入了三种评估模式,以测试模型如何有效利用上下文提升ASR准确性。对ContextASR-Bench的广泛评估表明,LALMs凭借LLMs强大的世界知识和上下文建模能力,显著优于传统ASR模型,但仍有很大的改进空间。数据集和评估代码已公开发布。
语音识别上下文建模大型语言模型命名实体基准测试
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新基准,推动ASR领域上下文建模发展,具有较大潜力。

LCS-CTC:利用软对齐增强语音转录鲁棒性

ArXiv ID: 2508.03937
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Zongli Ye, Jiachen Lian, Akshaj Gupta, Xuanru Zhou, Krish Patel, Haodong Li, Hwi Joo Park, Chenxu Gu
📄 中文摘要:
语音转录在细粒度语言分析和下游语音应用中至关重要。连接主义时间分类(CTC)是一种广泛使用的语音转录方法,因其高效性而受到青睐,但其在识别性能上常常不足,尤其是在语音不清晰或不流畅的情况下表现不佳。本研究提出了一种名为LCS-CTC的两阶段框架,用于音素级别的语音识别。该框架结合了相似性感知的局部对齐算法和受限的CTC训练目标,通过预测细粒度的帧-音素成本矩阵,并应用改进的最长公共子序列(LCS)算法,识别出高置信度的对齐区域。这些区域被用来约束CTC解码路径空间,从而减少过拟合并提升泛化能力,使系统在鲁棒性识别和无文本强制对齐方面均表现出色。在LibriSpeech和PPA数据集上的实验表明,LCS-CTC在性能上持续优于传统的CTC基线模型。这表明LCS-CTC在统一流畅和非流畅语音的音素建模方面具有显著潜力,为语音识别领域提供了一种新的解决方案。研究结果不仅验证了该方法在处理复杂语音场景时的有效性,也为未来的语音转录技术发展奠定了基础,尤其是在非标准语音环境下的应用前景值得期待。
语音转录音素识别CTC软对齐鲁棒性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,提升语音识别鲁棒性,具有较大领域影响力。

2026年多语言环境下的面部-声音关联(FAME)挑战评估计划

ArXiv ID: 2508.04592
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Marta Moscati, Ahmed Abdullah, Muhammad Saad Saeed, Shah Nawaz, Rohan Kumar Das, Muhammad Zaigham Za
📄 中文摘要:
随着技术的进步,多模态系统在各种现实世界应用中得到了广泛使用。其中,视听系统是最常用的多模态系统之一。近年来,由于面部和声音之间存在独特的关联性,研究如何将一个人的面部与声音关联起来引起了广泛关注。2026年多语言环境下的面部-声音关联(FAME)挑战赛专注于探索多语言场景下的面部-声音关联,这一条件源于世界上半数人口为双语者,且人们在多语言场景下交流的情况最为常见。该挑战赛使用名为多语言视听(MAV-Celeb)的数据集,专门用于研究多语言环境下的面部-声音关联问题。本报告详细介绍了FAME挑战赛的相关内容,包括挑战目标、数据集的构建、基线模型的设计以及具体的任务细节。通过这一挑战赛,研究人员旨在推动多模态学习领域在多语言环境下的技术进步,探索面部和声音关联的深层机制,为未来的多模态系统设计提供理论支持和实践指导。挑战赛的结果有望揭示多语言环境对面部-声音关联的影响,并为相关应用(如身份识别、语音交互系统等)提供新的研究视角和解决方案。此外,本报告还为参与者提供了清晰的任务框架和评估标准,以确保研究的科学性和可比性。
面部-声音关联多语言环境多模态学习视听系统身份识别
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在多模态学习领域具有重要创新性,可能对多语言应用产生较大影响。

基于说话人-文本因子化嵌入的文本适应用于说话人验证

ArXiv ID: 2508.04425
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Yexin Yang, Shuai Wang, Xun Gong, Yanmin Qian, Kai Yu
📄 中文摘要:
本文针对文本依赖型说话人验证(SV)系统中由于预收集数据(训练数据或注册数据)与实际测试数据之间的文本不匹配导致性能下降的问题,提出了一种新颖的文本适应框架。研究背景在于,文本不匹配会显著影响系统的准确性,而通过精心收集目标语音内容的数据来解决问题成本高且缺乏灵活性。本文提出了一种说话人-文本因子化网络,将输入语音分解为说话人嵌入和文本嵌入,并在后续阶段将两者整合为单一表示。通过少量的说话人无关的适应语音数据,可以提取目标语音内容的文本嵌入,并将其用于将文本无关的说话人嵌入适应为文本定制的说话人嵌入,从而解决文本不匹配问题。在RSR2015数据集上的实验结果表明,文本适应方法在文本不匹配条件下显著提升了系统性能。研究的关键发现是,文本适应框架能够有效提高说话人验证系统的鲁棒性,尤其是在测试数据与训练数据内容不一致的情况下。结论指出,该方法为解决文本依赖型说话人验证中的文本不匹配问题提供了一种成本效益高且灵活的解决方案,具有重要的应用价值。
说话人验证文本适应说话人嵌入文本嵌入语音处理
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究提出创新性文本适应框架,对说话人验证领域有较大潜在影响。

音频深度伪造检测模型是否具备多语言能力?

ArXiv ID: 2412.17924
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Bart{\l}omiej Marek, Piotr Kawa, Piotr Syga
📄 中文摘要:
本研究探讨了音频深度伪造(DeepFake, DF)检测模型在多语言环境下的适用性问题。由于大多数音频深度伪造检测方法主要基于以英语为中心的数据集进行训练,其在非英语语言中的表现尚未得到充分研究。本文通过评估多种适应策略,提出了一个多语言音频深度伪造检测挑战的基准测试。实验主要分析了在英语基准数据集上训练的模型的表现,同时探讨了语言内适应(同语言)和跨语言适应(不同语言)的方法。研究结果显示,检测效果在不同语言间存在显著差异,凸显了多语言环境下的挑战。研究表明,仅依赖英语数据集会显著降低检测效果,强调了目标语言数据的重要性。此外,本文还揭示了模型在跨语言场景下的局限性,指出当前模型在处理非英语音频深度伪造内容时面临较大困难。通过对不同适应策略的比较,研究为改进多语言音频深度伪造检测技术提供了重要见解,并呼吁未来研究应更加关注多语言数据集的构建和模型的泛化能力,以应对日益增长的深度伪造威胁。结论表明,开发适用于多语言环境的检测模型是当前亟需解决的问题,这不仅有助于提升技术鲁棒性,也对保障全球范围内的信息安全具有重要意义。
音频深度伪造多语言检测模型适应语音处理人工智能
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究揭示了多语言环境下音频深度伪造检测的挑战,具有重要创新性和潜在影响力。

骰子已掷:一种用于手动执行随机实验的声明式领域特定语言

ArXiv ID: 2506.11794
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Baltasar Tranc\'on y Widemann (Brandenburg University of Applied Sciences), Markus Lepper (sema
📄 中文摘要:
随机实验在基础概率论教学以及游戏中扮演着重要角色,因其简单明了,适合人类执行。本文提出了一种名为Alea的领域特定语言(DSL),专门用于随机实验的规范描述。Alea代码既可以通过静态分析来获取和检查结果的概率分布,也可以通过伪随机源执行,用于模拟实验或作为游戏辅助工具。该语言设计注重易用性,特别针对非专业程序员,例如基础概率论的学生以及机会游戏的玩家和设计师,语言概念结合了函数式编程和基础数学的核心思想。Alea的目标是降低随机实验描述和分析的门槛,使用户能够直观地定义实验流程并理解概率分布。此外,Alea支持两种运行模式:静态分析模式帮助用户在不执行实验的情况下预测结果分布,而动态执行模式则通过伪随机数生成器模拟实验过程,适用于教学演示或游戏场景。目前,Alea语言的设计和运行环境的实现仍在进行中,未来可能进一步优化其功能和用户体验,以更好地服务于教育和娱乐领域。本研究为概率论教学和游戏设计提供了一种新颖的工具,具有一定的创新性和应用潜力。
领域特定语言随机实验概率分布教学工具游戏设计
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究提出了一种创新工具,对概率教学和游戏设计有潜在影响。

专业化大语言模型作为密集检索器的比较研究

ArXiv ID: 2507.03958
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Hengran Zhang, Keping Bi, Jiafeng Guo
📄 中文摘要:
本研究系统探讨了大型语言模型(LLMs)在作为密集检索器时,领域特定专业化对其检索效果的影响,这对于开发能够处理文本、代码、图像及多模态内容的统一检索器至关重要。研究背景聚焦于LLMs在检索任务中的应用日益广泛,但其任务特定适配对检索能力的具体影响尚未被充分研究。本文通过对八个Qwen2.5 7B模型(包括基础模型、指令调整模型、代码/数学专业化模型、长推理模型及视觉-语言模型)的广泛实验,评估了它们在零样本检索和监督设置下的表现。零样本检索实验涵盖了BEIR基准测试中的文本检索和CoIR基准测试中的代码检索;监督性能评估则通过在MS MARCO数据集上对所有模型进行微调完成。研究发现,数学专业化和长推理能力在三种设置中一致导致性能下降,表明数学推理与语义匹配之间存在冲突。相比之下,视觉-语言模型和代码专业化模型在零样本设置中表现出色,甚至在代码检索任务中超越了BM25基准,并且在监督设置中与基础模型保持了相当的性能。这些关键发现为利用跨领域和跨模态融合实现统一检索任务提供了有前景的方向。结论指出,专业化模型的设计需要在特定任务能力和通用检索能力之间找到平衡,未来的研究可进一步探索多模态融合对检索效果的提升潜力。
大语言模型密集检索领域专业化零样本检索多模态融合
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究具有重要创新性,为统一检索任务提供了新方向,可能对领域发展产生较大影响。

医学嵌入模型的领域规范研究

ArXiv ID: 2507.19407
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Mohammad Khodadad, Ali Shiraee Kasmaee, Mahdi Astaraki, Hamidreza Mahyar
📄 中文摘要:
本论文探讨了医学文本嵌入模型在医疗健康领域的应用及其存在的关键问题。医学嵌入模型在临床决策支持、生物医学信息检索以及医学问答等多个领域具有重要作用,但目前面临两大主要挑战。首先,大多数现有模型仅基于有限的医学和生物学数据进行训练,且训练方法不够先进,导致模型难以适应实际应用中遇到的多样化术语和语义。其次,现有的评估方法往往不足以全面反映模型性能,即使是广泛使用的基准测试也无法很好地泛化到现实世界的医学任务中。论文通过分析这些问题,提出了对医学嵌入模型进行领域规范的必要性,旨在改进模型的训练数据覆盖范围和评估体系的全面性。研究强调了构建更具代表性和适应性的嵌入模型的重要性,并探讨了如何通过整合更广泛的数据集和更新颖的训练方法来提升模型性能。关键发现表明,当前的模型局限性可能导致在实际医疗场景中的应用效果不佳,而改进后的领域规范方法有望显著提升模型的实用性和准确性。结论指出,未来的研究应聚焦于开发更具包容性的数据集和更贴近实际需求的评估标准,以推动医学嵌入模型在医疗领域的广泛应用。
医学嵌入模型自然语言处理领域规范医疗应用模型评估
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 论文提出重要问题并具创新性,对医学NLP领域有潜在影响。

自动痴呆评估中的陷阱与局限性

ArXiv ID: 2508.04512
发布日期: 2025-08-07
聚类ID: 聚类 3
📝 作者: Franziska Braun, Christopher Witzl, Andreas Erzigkeit, Hartmut Lehfeld, Thomas Hillemacher, Tobias B
📄 中文摘要:
本研究深入探讨了基于语音的痴呆评估方法,重点分析了自动化的标准痴呆评估工具——Syndrom-Kurz-Test(综合征简短测试)的应用与局限性。研究背景在于当前痴呆评估研究主要集中于特征提取以预测评估量表,或现有测试程序的自动化,但大多未对公共数据进行质疑,也缺乏详细的错误分析,仅关注数值性能。本文通过对Syndrom-Kurz-Test的自动化应用进行细致分析,发现尽管与人工标注者的整体相关性较高,但由于某些人为因素的影响,严重受损个体的评估相关性较高,而健康或轻度受损个体的相关性较低。研究指出,随着认知能力下降,语音产出减少,当测试评分依赖于单词命名时,会导致过于乐观的相关性。此外,根据测试设计不同,备用处理机制引入了进一步的偏见,倾向于某些特定群体。这些陷阱与数据集中群体分布无关,需要对目标群体进行差异化分析。研究结论强调,自动痴呆评估系统在设计和应用中必须充分考虑这些局限性与偏见,以避免误判和不公平性,确保评估的准确性和可靠性。本文为未来改进自动化评估工具提供了重要参考,呼吁在技术开发中注重错误分析和群体差异。
痴呆评估自动化测试语音分析认知下降偏见分析
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究揭示了自动痴呆评估中的关键问题,具有重要创新性和潜在影响力。