← 返回总览

计算机科学-推理与语言

2025-08-07 K-means智能聚类结果

聚类 16 • 机器学习算法识别
38 论文总数
38 高分论文
8.0 平均评分
7 关键词数

🔍 聚类关键词特征

推理语言模态任务大型评估奖励

加速大语言模型推理的推测束分层验证方法

ArXiv ID: 2508.03726
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Jaydip Sen, Harshitha Puvvala, Subhasis Dasgupta
📄 中文摘要:
本文提出了一种名为分层验证树(Hierarchical Verification Tree, HVT)的创新框架,旨在解决大语言模型(LLMs)推理效率低下的问题。LLMs由于其自回归特性,在推理过程中面临显著的延迟和计算开销。传统的推测解码和束采样方法虽有改进,但仍存在验证过程无优先级导致的计算冗余问题。HVT通过重构推测束解码过程,优先验证高可能性草稿序列,并实现对次优候选的早期剪枝,从而显著提高效率。研究开发了理论基础和形式化的验证-剪枝算法,确保方法的正确性和高效性,且无需重新训练或修改模型架构即可与标准LLM推理流程集成。实验在多个数据集和模型上进行,包括WikiText-103、CNN/DailyMail和XSum等,评估结果表明HVT在推理速度、能耗和输出质量上均优于现有推测解码方案。具体而言,HVT在WikiText-103数据集上实现了较贪婪解码2.3倍的加速,同时在摘要任务中通过ROUGE指标显示出更高的输出质量。此外,HVT的能耗降低至1.3 J/令牌,验证减少率高达62.7%,表明其在减少冗余计算方面的显著优势。研究还讨论了HVT的局限性及未来改进方向,如动态模型切换、自适应束宽度控制及与量化模型的集成等。结论指出,HVT为加速大语言模型推理提供了一种新的分层验证策略,具有重要的应用潜力。
大语言模型推测解码束采样推理加速分层验证
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: HVT提出了一种重要的推理加速方法,对LLM应用有较大潜在影响。

CX-Mind:通过课程引导的强化学习实现胸部X射线交错推理的开创性多模态大语言模型

ArXiv ID: 2508.03733
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Wenjie Li, Yujie Zhang, Haoran Sun, Yueqi Li, Fanrui Zhang, Mengzhe Xu, Victoria Borja Clausich, Sad
📄 中文摘要:
本研究提出了一种名为CX-Mind的创新性多模态大语言模型(MLLM),专门用于胸部X射线(CXR)诊断中的交错推理,旨在提升临床诊断的效率和可解释性。研究背景聚焦于现有MLLM在医学影像诊断中普遍采用的“一次性”诊断方法,缺乏对推理过程的可验证监督,导致多任务CXR诊断中推理冗长、奖励稀疏及幻觉问题频发。为解决这些问题,作者提出了基于课程引导的强化学习和可验证过程奖励(CuRL-VPR)的训练框架,并构建了一个包含708,473张图像和2,619,148个样本的指令调整数据集CX-Set,以及42,828个高质量交错推理数据点。训练分为两个阶段:首先通过封闭域任务稳定基本推理能力,随后转移到开放域诊断,引入基于规则的条件过程奖励,避免对预训练奖励模型的依赖。实验结果表明,CX-Mind在视觉理解、文本生成和时空对齐方面显著优于现有的医学及通用领域MLLM,平均性能提升25.1%。在真实临床数据集Rui-CXR上,CX-Mind在14种疾病的诊断中取得了显著优于次优结果的平均召回率@1,多中心专家评估进一步确认了其在多个维度的临床实用性。结论指出,CX-Mind为构建可解释且高性能的医学MLLM树立了新范式,尽管在真实临床部署中仍需考虑数据集异质性及计算需求等挑战。未来工作将探索自适应奖励机制及更广泛的临床应用。
医学推理多模态大语言模型胸部X射线强化学习课程学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: CX-Mind在医学影像推理领域展现重要创新,对临床诊断具有较大潜在影响。

大型语言模型能否在时间序列上充分执行符号推理?

ArXiv ID: 2508.03963
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Zewen Liu, Juntong Ni, Xianfeng Tang, Max S. Y. Lau, Wei Jin
📄 中文摘要:
本文探讨了大型语言模型(LLMs)在时间序列数据上进行符号推理的能力,旨在揭示隐藏的符号规律,这一目标可追溯至开普勒的行星运动发现。研究背景指出,尽管LLMs在结构化推理任务中表现出色,但其在时间序列数据中推导出可解释且上下文一致的符号结构的能力尚未被充分探索。为此,作者提出了SymbolBench,一个全面的基准测试框架,用于评估LLMs在真实世界时间序列上的符号推理能力,涵盖三个任务:多元符号回归、布尔网络推理和因果发现。SymbolBench不仅限于简单的代数方程,还包括多种复杂度的符号形式,数据来源于生物、物理和医疗等领域。研究方法上,作者设计了一个统一的框架,将LLMs与遗传编程相结合,形成闭环符号推理系统,其中LLMs同时作为预测器和评估者。实证结果显示,LLMs在多元符号回归和因果发现任务中优于传统基线,但在布尔网络推理中表现不佳。研究还发现,提供上下文信息能显著提升模型性能,而增加测试时计算资源仅带来适度改进。此外,将LLMs与遗传编程结合的混合方法进一步提升了性能。结论指出,结合领域知识、上下文对齐和推理结构对于改进LLMs在自动化科学发现中的应用至关重要,并提出了未来研究方向,包括任务特定的计算扩展、 richer 上下文引导以及更广泛的符号目标。
大型语言模型符号推理时间序列科学发现遗传编程
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新基准和框架,对LLMs在时间序列符号推理的应用有重要贡献,可能影响AI科学发现领域。

情感婴儿确实致命:您的多模态大型推理模型是否对人类表现出情感奉承?

ArXiv ID: 2508.03986
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Yuan Xun, Xiaojun Jia, Xinwei Liu, Hua Zhang
📄 中文摘要:
本文对多模态大型推理模型(MLRMs)的安全性进行了系统性评估,揭示了其在面对对抗性输入时存在的安全-推理悖论。研究背景指出,尽管MLRMs通过深度推理增强了跨模态风险识别能力,但其面向人类服务的特性使其在深度思考阶段容易受到用户情感线索的影响,从而可能绕过安全协议。作者提出了一种名为EmoAgent的自主对抗性情感代理框架,通过构建夸张的情感提示来劫持模型的推理路径。研究发现,即便模型正确识别了视觉风险,情感错位仍可能导致有害输出的生成。此外,作者在透明深度思考场景中识别出多种高风险失败模式,例如模型在表面安全响应背后隐藏有害推理,暴露出内部推理与表面行为之间的错位。为量化这些风险,研究引入了三个评估指标:风险-推理隐匿分数(RRSS)、风险-视觉忽视率(RVNR)和拒绝态度不一致性(RAIC),用于评估模型在有害推理、视觉风险忽视和拒绝稳定性方面的表现。通过对先进MLRMs的广泛实验,EmoAgent的有效性得到验证,揭示了模型安全行为中更深层次的情感认知错位。研究结论强调,情感错位是当前MLRMs的一个关键弱点,现有基于内容的防护措施不足以应对推理系统的深层安全漏洞。作者呼吁未来在安全对齐设计中解决透明推理阶段的情感易感性问题,同时指出研究的局限性在于对非指令调整模型和其他语言的泛化性仍需进一步探索。
多模态推理模型情感奉承安全评估EmoAgent对抗性输入
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文揭示了MLRMs的情感漏洞,具有重要创新性,可能对AI安全领域产生较大影响。

VisualTrans:真实世界视觉变换推理基准

ArXiv ID: 2508.04043
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Yuheng Ji, Yipu Wang, Yuyang Liu, Xiaoshuai Hao, Yue Liu, Yuting Zhao, Huaihai Lyu, Xiaolong Zheng
📄 中文摘要:
本文提出了VisualTrans,这是首个针对真实世界人类-物体交互场景中视觉变换推理(VTR)的全面基准测试。VTR是一种关键的认知能力,使智能体能够理解动态场景、建模因果关系并预测未来状态,从而指导行动并为高级智能系统奠定基础。然而,现有的VTR基准存在显著局限性,包括模拟到现实的差距、任务复杂性受限以及推理维度的覆盖不完整,降低了其在真实场景中的实用性。VisualTrans通过基于第一人称操作视频构建,涵盖了12种语义多样的操作任务,系统性地评估了空间变换、程序变换和数量变换三个核心推理维度,细分为6个子任务类型,并包含472个高质量的问答对,采用多选、开放式计数和目标枚举等多种格式。研究团队开发了一种可扩展的数据构建流程,结合多模态大模型进行自动化元数据标注和结构化问题生成,并通过人工验证确保基准质量。对多种最先进的视觉-语言模型(VLM)的评估显示,尽管这些模型在静态空间任务中表现较好,但在动态多步推理场景中存在显著不足,特别是在中间状态识别和变换序列规划方面。这揭示了当前模型在时间建模和因果推理方面的根本性弱点,为未来研究提供了明确方向。VisualTrans基准工具包及相关代码已公开发布,为构建更强大、更具泛化能力的VTR系统提供了重要资源。
视觉变换推理真实世界基准空间推理程序推理数量变换
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性基准,填补真实世界VTR评估空白,具有较大影响力。

GM-PRM:用于多模态数学推理的生成式多模态过程奖励模型

ArXiv ID: 2508.04088
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Jianghangfan Zhang, Yibo Yan, Kening Zheng, Xin Zou, Song Dai, Xuming Hu
📄 中文摘要:
本文提出了一种新型的生成式多模态过程奖励模型(GM-PRM),旨在解决多模态大型语言模型(MLLMs)在复杂多步骤数学推理中的不足。研究背景表明,尽管MLLMs在视觉和文本信息整合方面表现出色,但在多模态数学问题中,由于视觉感知或逻辑推导中的微小错误,常导致整体推理失败。传统的过程奖励模型(PRMs)虽能提供逐步骤监督,但仅限于二元判断,无法解释错误原因或提供修正。本文通过GM-PRM将PRM从被动评判者转变为主动推理协作者,模型不仅为每个推理步骤提供细粒度的可解释分析(包括步骤意图、视觉对齐和逻辑合理性),还训练生成首个错误步骤的修正版本。这一修正能力促成了新的测试时推理策略——精炼最佳N(Refined-BoN),通过生成修正步骤引导策略模型走向更优推理路径,从而提升解题池的多样性和正确性。实验结果表明,GM-PRM在多个多模态数学基准测试中取得了最先进的成果,显著提升了策略模型性能,且数据效率极高,仅需20K样本的训练数据集即可实现。研究还展示了GM-PRM在不同模型和问题类型上的鲁棒性和泛化能力,尤其在平面几何任务中表现突出。结论指出,从被动错误检测到生成式协作修正的转变,标志着多模态推理领域的重要进步。
多模态数学推理生成式过程奖励模型精炼最佳N大型语言模型数据效率
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出GM-PRM和Refined-BoN框架,具有重要创新性,可能对多模态推理领域产生较大影响。

AD-FM:通过多阶段推理和精细化奖励优化实现多模态大语言模型的异常检测

ArXiv ID: 2508.04175
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Jingyi Liao, Yongyi Su, Rong-Cheng Tu, Zhao Jin, Wenhao Sun, Yiting Li, Dacheng Tao, Xun Xu, Xulei Y
📄 中文摘要:
本文提出了一种名为AD-FM的框架,旨在通过多阶段推理和精细化奖励优化,将多模态大语言模型(MLLMs)适应于专业化的异常检测(AD)任务。研究背景源于通用MLLMs在工业异常检测等特定任务中的局限性,主要表现为对细粒度视觉线索的推理能力不足以及领域适应挑战。针对现有基于组相对策略优化(GRPO)方法的两个关键问题——训练数据利用率低和推理过程缺乏监督,作者提出了两项创新性解决方案。首先,引入了多阶段审慎推理框架,将模型推理过程分为区域识别、重点检查和最终决策三个阶段,模拟人类专家的视觉检查策略,增强了推理的系统性和响应多样性,为GRPO优化提供了丰富的监督信号。其次,开发了一种精细化奖励机制,通过结合分类准确性和定位监督,将二元反馈转化为连续信号,有效区分真实分析洞察与虚假正确性,从而提升训练效率和模型的可解释性。实验结果表明,AD-FM在多个工业数据集上的表现显著优于现有方法,包括开源和专有MLLMs以及其他微调方法,平均准确率提升了22.11%。此外,该方法在跨数据集泛化测试中也展现出强大的实用性,无需阈值调整即可实现直接二元预测,弥补了通用MLLMs与专业化视觉检测需求之间的差距。作者通过消融研究进一步验证了多阶段推理和精细化奖励机制的贡献,证明其在数据利用率和推理质量上的显著改进。总之,AD-FM为异常检测任务提供了一种高效的领域适应方案,具有重要的理论和应用价值。
异常检测多模态大语言模型多阶段推理精细化奖励领域适应
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在异常检测领域提出重要创新,显著提升了MLLMs的适应性,具有较大应用潜力。

深度研究的特征化:基准与正式定义

ArXiv ID: 2508.04183
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Abhinav Java, Ashmit Khandelwal, Sukruta Midigeshi, Aaron Halfaker, Amit Deshpande, Navin Goyal, Ank
📄 中文摘要:
本文提出了一种对深度研究(Deep Research, DR)任务的正式特征化,并引入了一个基准来评估DR系统的性能。研究背景指出,深度研究作为一种涉及复杂搜索和推理的信息任务,近年来受到关注,但其任务范围和与其他推理密集型问题的区别尚未明确定义。作者认为,深度研究的核心特征不是生成冗长的报告式输出,而是搜索过程中对概念的高分支性,即广泛且推理密集的探索。为实现客观评估,作者通过中间输出表示形式定义DR,编码搜索过程中发现的关键主张,将推理挑战与表面层次的报告生成分开。基于此,提出了一个多样化且具有挑战性的基准LIVEDRBENCH,包含100个科学主题(如数据集、材料发现、现有技术搜索)和公共事件(如飞行事故、电影奖项)相关的任务。对最先进的DR系统进行评估,F1分数在任何子类别中介于0.02至0.72之间,其中OpenAI的模型表现最佳,总体F1分数为0.55。推理轨迹分析揭示了当前DR系统在引用来源数量、分支和回溯事件上的分布,提示了改进搜索机制和 grounding 能力的未来方向。作者还讨论了DR系统的改进方向,包括在搜索繁琐但算法简单任务上的训练、交错程序化与模型控制、以及处理大型语料库时错误处理的工具开发。结论强调了通过主张和支持证据的发现来定义深度研究的重要性,并展示了LIVEDRBENCH作为评估工具的价值,为DR系统的进一步发展提供了指导。
深度研究人工智能搜索与推理基准评估LIVEDRBENCH
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出深度研究的新定义和基准,具有重要创新性,可能对AI研究领域产生较大影响。

推理卫士:通过推理时安全顿悟保护大型推理模型

ArXiv ID: 2508.04204
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Yuquan Wang, Mi Zhang, Yining Wang, Geng Hong, Xiaoyu You, Min Yang
📄 中文摘要:
本文提出了一种名为ReasoningGuard的推理时安全保护机制,旨在保护大型推理模型(LRMs)免受有害内容生成的影响,尤其是在推理过程的中后期阶段。LRMs在数学、编程和科学问题等推理密集型任务中表现出色,但其推理链的安全性问题尚未得到充分探索,尤其是在中间推理步骤中可能生成不安全内容并影响最终答案。传统的防御机制依赖于高成本的微调和额外的专家知识,限制了其可扩展性。ReasoningGuard通过在推理过程中注入及时的安全顿悟(aha moments),利用模型内部的注意力行为精确识别推理路径中的关键干预点,并触发自发的安全导向反思。此外,作者在解码阶段引入了缩放采样策略,通过基于注意力的评分机制动态选择最优推理路径,确保后续推理步骤和最终答案的安全性。该方法在不显著增加推理成本的情况下,有效缓解了包括最新针对LRM推理过程的越狱攻击在内的三种攻击类型。实验结果表明,ReasoningGuard在五个开源LRM模型上的表现优于七种现有防御机制,实现了最先进的安全防御能力,同时避免了常见的安全过度问题,保持了模型在安全查询上的实用性。主要贡献包括提出了一种轻量级的推理时防御机制、通过注意力干预和动态采样实现安全与实用性的平衡,以及在多个LRM模型和安全基准上的广泛验证。
大型推理模型推理时安全越狱攻击注意力机制安全顿悟
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性防御机制,对LRM安全领域有较大潜在影响。

超越标签的推理:测量低资源、文化细微语境下大型语言模型的情感分析能力

ArXiv ID: 2508.04199
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Millicent Ochieng, Anja Thieme, Ignatius Ezeani, Risa Ueno, Samuel Maina, Keshet Ronen, Javier Gonza
📄 中文摘要:
本研究探讨了在低资源且文化细微的语境下,情感分析对传统自然语言处理(NLP)方法的挑战,提出了一种诊断框架,将情感视为一种依赖于上下文、文化嵌入的构建。研究以肯尼亚内罗毕青年健康群组的非正式、代码混合WhatsApp消息为数据集,评估大型语言模型(LLMs)在情感推理中的表现。通过结合人工标注数据、情感反转的反事实案例以及基于评分标准的解释评估,研究探查了LLMs的可解释性、鲁棒性和与人类推理的一致性。研究采用社会科学测量视角,将LLMs的输出视为测量抽象情感概念的工具。结果显示,模型推理质量存在显著差异,顶级LLMs(如GPT-4-Turbo和GPT-4-32k)表现出较强的解释稳定性,而开源模型在处理模糊性或情感变化时常常表现不佳。具体而言,顶级模型在情感分类和解释质量上均表现优异,而中型及开源模型在反事实情感翻转后性能下降明显,暴露出对语气、表情符号或措辞细微变化的脆弱性。此外,研究还揭示了模型间在情感解读上的分歧,即使在人类标注者达成一致的案例中,模型的预测一致性也仅为中等水平,反映了它们对情感、文化细微差别和对话风格的不同编码方式。本研究强调了在复杂现实世界通信中,需开发文化敏感且推理感知的AI评估方法,呼吁从固定标签准确性转向上下文感知、文化基础的评估方式。未来情感系统应不仅基于标签分配结果,还需关注推理过程和原因。
情感分析大型语言模型文化细微低资源语境推理质量
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本研究创新性地将情感分析与文化语境结合,具有较大领域影响力。

ViFP:一种用于视觉假正检测的框架以提升视觉语言模型推理可靠性

ArXiv ID: 2508.04201
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Ben Zhang, LuLu Yu, Lei Gao, Jing Liu, QuanJiang Guo, Hui Gao
📄 中文摘要:
本文提出了一种名为ViFP(Visual False Positive Detection)的通用框架,旨在提升视觉语言模型(VLM)在视觉推理中的可靠性和准确性。研究背景聚焦于视觉语言模型在视觉问答(VQA)任务中常见的假正(FP)推理问题,即模型可能生成正确答案但推理路径错误的现象。现有的方法多依赖特定的多步推理数据集和强化学习策略,导致训练成本高且泛化能力有限。ViFP通过构建基于视觉推理核心维度的子问题模板(如对象定位、特征描述和对象发现),克服了数据集依赖和泛化性差的局限性。框架采用多轮问答机制构建有效的推理路径,并动态分析推理路径的一致性以识别潜在的假正推理,同时引入针对性的思维链(CoT)机制,自适应地指导假正和非假正样本,减少推理路径中的逻辑错误,同时保持答案准确性。此外,ViFP提出了一种新的可靠性评估指标VoC(Value of Correction),综合考虑答案准确性和假正率,为评估VLM是否不仅回答正确且推理可靠提供了量化工具。实验在三个数据集(A-OKVQA、OKVQA和FVQA)上对闭源VLM进行了测试,结果表明ViFP在A-OKVQA上的准确率提升高达5.4%,超越先前最先进方法4.3%,并显著减少了假正推理数量,验证了其在提升推理可靠性方面的有效性。结论指出,ViFP无需额外训练即可直接应用于VLM,能够揭示更广泛的潜在假正问题,并通过假正引导的推理优化机制调整问题分类策略和思维链,显著提高推理路径的可靠性。
视觉语言模型假正推理视觉问答思维链推理可靠性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: ViFP在视觉推理可靠性方面具有重要创新,可能对VLM领域产生较大影响。

因果奖励调整:通过后门校正缓解外部推理中的奖励黑客问题

ArXiv ID: 2508.04216
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Ruike Song, Zeen Song, Huijie Guo, Wenwen Qiang
📄 中文摘要:
本文针对外部推理系统中存在的奖励黑客(reward hacking)问题提出了一种新的解决方案。外部推理系统结合语言模型与过程奖励模型(PRMs)来选择高质量的推理路径,以解决复杂的数学问题。然而,奖励黑客现象会导致逻辑错误的推理路径获得高分,从而降低最终答案的准确性。作者从因果推断的视角分析了这一现象,认为其主要源于混杂语义特征的影响。为此,作者提出了因果奖励调整(CRA)方法,通过估计推理路径的真实奖励来缓解奖励黑客问题。CRA方法包括三个步骤:首先,利用稀疏自编码器(SAE)从PRM的内部激活中提取可解释特征;其次,识别与奖励黑客相关的混杂特征;最后,通过后门调整消除这些特征的虚假影响。实验在GSM8K和MATH两个数学推理数据集上进行,结果表明CRA显著减少了奖励黑客现象,并提升了推理的准确性。此外,消融研究进一步验证了CRA方法识别特征的有效性,随机干预则几乎无效。作者的贡献包括:提供了奖励黑客的因果解释,揭示了语义混杂特征导致的虚假相关性;提出了基于因果的CRA方法,通过特征提取和后门调整消除奖励黑客影响;实验结果证实了该方法在数学推理任务中的有效性。本研究无需修改策略模型或重新训练PRM即可实现改进,具有较高的实用价值。
因果推理奖励黑客外部推理过程奖励模型数学推理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的因果方法解决奖励黑客问题,具有较大潜在影响。

大型语言模型在生物医学领域的多能力对齐

ArXiv ID: 2508.04278
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Wentao Wu, Linqing Chen, Hanmeng Zhong, Weilei Wang
📄 中文摘要:
本文提出了一种名为BalancedBio的理论框架,用于参数高效的生物医学推理,旨在解决领域特定人工智能对齐中的多能力整合问题。该框架建立了生物医学多能力收敛定理,证明正交梯度空间对于防止能力干扰和确保安全部署至关重要。其主要创新包括:(1) 医学知识基础的合成生成(MKGSG),通过扩展Source2Synth并引入临床工作流程约束和医学本体验证,确保事实准确性和安全性;(2) 能力感知组相对策略优化,通过推导最优混合奖励加权以在强化学习中保持正交性,采用基于规则和模型的评分机制,适应生物医学任务。数学分析证明了帕累托最优收敛性,保持了跨能力的性能表现。实验结果显示,该框架在其参数类别中取得了最先进的成果:在领域专业知识(BIOMED-MMLU得分80.95%,较基线提升15.32%)、推理能力(61.94%,提升7.75%)、指令遵循(67.95%,提升6.44%)和整合能力(86.7%,提升18.5%)等方面均有显著改进。理论安全保障包括能力保持和临床准确性的界限。实际部署中,该框架实现了78%的成本降低、23%的诊断准确性提升以及89%的临床医生接受度。本研究为生物医学人工智能对齐提供了一种原则性方法,实现了高效推理并确保必要的安全性和可靠性,计划发布0.5B模型版本以供进一步应用和验证。
生物医学人工智能多能力对齐参数高效推理强化学习临床安全
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在生物医学AI对齐领域具有重要创新,可能显著提升临床应用效果。

深思熟虑推理网络:基于预训练语言模型的信念追踪推理的不确定性驱动范式

ArXiv ID: 2508.04339
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Anran Xu, Jincheng Wang, Baigen Cai, Tao Wen
📄 中文摘要:
本文针对大型语言模型在逻辑推理中常因语义启发与决定性证据冲突而失败的问题,提出了一种新的推理范式——深思熟虑推理网络(DRN)。作者将这种现象称为认知陷阱,并通过将逻辑推理从概率最大化重构为不确定性最小化来解决这一根本性局限。DRN不再询问‘哪个答案最有可能’,而是询问‘哪个假设拥有最内部一致的证据’。该方法通过迭代证据合成过程,显式追踪信念状态并量化竞争假设的认知不确定性,从而实现内在的可解释性。研究通过两种互补架构验证了该方法:一种是体现核心不确定性最小化原则的定制判别模型,另一种是增强现有生成式大型语言模型的轻量级验证模块。在新设计的对抗性推理基准LCR-1000上,定制DRN相较于标准基线取得了高达15.2%的性能提升。当作为参数高效的验证器与Mistral-7B集成时,混合系统在最具挑战性的问题上将准确率从20%提升至80%。此外,DRN展现出强大的零样本泛化能力,在TruthfulQA任务上无需额外训练即可提升23.6%的性能,表明不确定性驱动的深思熟虑推理学习了可迁移的推理原则。作者将DRN定位为构建更可信AI系统的基础性、可验证的系统2推理组件。本研究为解决语言模型在逻辑推理中的局限性提供了创新视角,并展示了不确定性驱动方法在提升推理能力和可解释性方面的潜力。
深思熟虑推理网络不确定性驱动信念追踪逻辑推理预训练语言模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新推理范式,具有较大潜力影响AI可信性研究。

GTPO与GRPO-S:基于策略熵的令牌和序列级奖励塑造

ArXiv ID: 2508.04349
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Hongze Tan, Jianfei Pan
📄 中文摘要:
本文研究了强化学习(RL)在提升大型语言模型(LLM)推理能力方面的应用,重点解决现有算法如群体相对策略优化(GRPO)在长链推理任务中的粗粒度信用分配问题,即对序列中所有令牌统一分配奖励的局限性。作者提出了动态熵加权(Dynamic Entropy Weighting)的核心思想,认为正确响应中高熵令牌能够引导策略达到更高的性能上限,从而实现更精细的奖励信号以进行精确的策略更新。具体方法包括两种:1)群体令牌策略优化(GTPO),通过对每个令牌分配熵加权奖励,实现细粒度的信用分配;2)序列级群体相对策略优化(GRPO-S),基于序列平均令牌熵对每个序列分配熵加权奖励。实验结果表明,这两种方法显著优于强大的DAPO基线,验证了熵加权机制是性能提升的关键驱动因素。研究结论指出,熵加权机制为增强模型深度推理能力提供了更好的路径,对大型语言模型在复杂推理任务中的应用具有重要意义。本文通过细化奖励分配机制,为强化学习在语言模型优化中的应用开辟了新的研究方向,同时也为解决长链推理问题提供了有效的技术支持。
强化学习大型语言模型动态熵加权策略优化深度推理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新的熵加权机制,对LLM推理优化有重要影响。

StepFun-Formalizer:通过知识-推理融合释放大型语言模型的自动形式化潜力

ArXiv ID: 2508.04440
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Yutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, J
📄 中文摘要:
自动形式化旨在将自然语言数学陈述翻译成形式化语言。尽管大型语言模型(LLMs)在这一领域加速了进展,但现有方法仍面临准确率较低的问题。本研究识别出有效自动形式化的两个关键能力:对形式化语言领域知识的全面掌握,以及对自然语言问题理解和非形式到形式对齐的推理能力。缺乏前者,模型无法识别正确的形式对象;缺乏后者,模型难以解读现实世界语境并将其精确映射到形式表达式中。为解决这些问题,本文提出了ThinkingF,一个数据合成与训练流程,旨在提升上述两种能力。首先,构建了两个数据集:一个通过提炼和筛选富含形式知识的大规模示例构建,另一个通过专家设计的模板指导生成非形式到形式的推理轨迹。随后,采用监督微调(SFT)和强化学习价值重塑(RLVR)方法,利用这些数据集进一步融合和优化两种能力。最终,开发的7B和32B参数模型展现出全面的形式知识和强大的非形式到形式推理能力。值得注意的是,StepFun-Formalizer-32B在FormalMATH-Lite和ProverBench数据集上分别取得了40.5%和26.7%的SOTA BEq@1分数,超越了之前所有通用和专用模型。这一成果表明,通过知识与推理的深度融合,大型语言模型在自动形式化任务中的潜力得以显著释放,为数学形式化和相关领域的研究提供了重要工具和方法论支持。
自动形式化大型语言模型知识推理融合自然语言处理形式化数学
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在自动形式化领域具有重要创新,可能显著提升相关技术应用。

从‘顿悟时刻’到可控思维:通过解耦推理与控制实现大型推理模型的元认知推理

ArXiv ID: 2508.04460
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Rui Ha, Chaozhuo Li, Rui Pu, Sen Su
📄 中文摘要:
大型推理模型(LRMs)通过自发展现复杂的认知行为,如逐步推理、反思和回溯,显示出潜在的复杂推理能力,这些行为通常被称为‘顿悟时刻’。然而,这些新兴行为缺乏规范和控制,常导致模型在得出可靠结论后仍继续生成冗余推理内容,造成过度思考的问题。这不仅增加了计算成本和延迟,也限制了LRMs的实际应用。其根本原因在于缺乏内在的调控机制,当前模型无法监控和自适应地管理推理过程,以决定何时继续、回溯或终止推理。为解决这一问题,本文提出了元认知推理框架(MERA),该框架明确将思维过程解耦为独立的推理和控制组件,从而实现控制策略的独立优化。具体而言,MERA引入了一种基于接管的数据构建机制,通过识别推理过程中的关键决策点,并将控制信号的创建委托给辅助大型语言模型(LLMs),从而构建高质量的推理-控制数据。此外,通过监督微调实现了结构化的推理-控制分离,使模型能够生成明确的推理轨迹并获得初步的元认知控制能力。最后,MERA采用控制段策略优化(CSPO),结合分段组相对策略优化(GRPO)和控制掩码机制,优化控制行为学习,同时最大限度减少无关内容的干扰。实验结果表明,在多个推理基准测试中,基于MERA训练的模型在推理效率和准确性上均有显著提升。这一框架为构建更高效、更可控的大型推理模型提供了新的思路和方法。
大型推理模型元认知推理解耦推理与控制控制策略优化推理效率
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架MERA,提升推理模型效率与准确性,具有较大潜力影响领域发展。

CARD:基于缓存的并行推测解码用于高效大语言模型推理

ArXiv ID: 2508.04462
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Enyu Zhou, Kai Sheng, Hao Chen, Xin He
📄 中文摘要:
本文提出了一种基于缓存的并行推测解码框架(CARD),旨在解决大语言模型(LLM)推理过程中的效率问题。传统的推测解码(SD)方法依赖于‘先草稿后验证’的范式,导致草稿生成和验证过程必须按顺序执行,限制了推理性能和草稿模型的规模。此外,在草稿过程中一旦某个候选词被拒绝,后续所有候选词都将被丢弃,造成草稿效率低下。为解决这些问题,CARD框架引入了‘查询与校正’范式,将草稿生成和验证过程解耦:草稿模型生成候选词并填充共享缓存,而目标模型同时校正草稿模型的生成方向。这种方法使得目标模型的推理速度接近草稿模型的速度。实验结果表明,CARD框架在无需对草稿模型或目标模型进行微调的情况下,相比传统解码方法实现了高达4.83倍的加速。研究不仅提升了大语言模型推理的效率,还为未来的并行解码技术提供了新的思路。作者公开了相关代码,便于进一步研究和应用。
大语言模型推测解码并行推理缓存机制模型加速
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,显著提升LLM推理效率,具有较大应用潜力。

语言模型中的因果反思

ArXiv ID: 2508.04495
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Abi Aryan, Zac Liu
📄 中文摘要:
本文提出了一种名为‘因果反思’(Causal Reflection)的框架,旨在解决大型语言模型(LLMs)和传统强化学习(RL)代理在因果推理方面的不足。研究背景指出,尽管LLMs在语言流畅性和事实记忆方面表现出色,但它们在稳健的因果推理上存在困难,常常依赖于虚假相关性和脆弱模式;同样,RL代理也缺乏因果理解,仅通过优化奖励而未建模动作与结果之间的因果关系。本文的方法是将因果性明确建模为状态、动作、时间和扰动的动态函数,使代理能够推理延迟和非线性效应。此外,作者定义了一种正式的‘反思’机制,用于识别预测结果与实际观察结果之间的不匹配,并生成因果假设以修正代理的内部模型。在该架构中,LLMs不再作为黑箱推理器,而是作为结构化推理引擎,将形式化的因果输出转化为自然语言解释和反事实推理。研究的关键发现是,该框架为因果反思代理奠定了理论基础,这些代理能够在不断变化的环境中适应、自我修正并交流因果理解。结论表明,因果反思框架为构建更具解释性和适应性的智能系统提供了重要方向,可能显著提升人工智能在复杂决策任务中的表现。
因果推理语言模型强化学习反思机制人工智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,可能对AI因果推理领域产生较大影响。

揭示临床抑郁症评估的全貌:从行为特征到精神病学推理

ArXiv ID: 2508.04531
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Zhuang Chen, Guanqun Bi, Wen Zhang, Jiawei Hu, Aoyun Wang, Xiyao Xiao, Kun Feng, Minlie Huang
📄 中文摘要:
抑郁症是一种影响全球数百万人的广泛精神障碍。尽管自动化抑郁症评估显示出潜力,但大多数研究依赖于有限或未经临床验证的数据,并且往往优先考虑复杂的模型设计而非现实世界的有效性。本文旨在揭示临床抑郁症评估的全貌,提出了一种新的临床神经精神病学多模态诊断数据集C-MIND。该数据集历时两年从真实医院就诊中收集,每位参与者完成三项结构化的精神病学任务,并由专家临床医生进行最终诊断,同时记录了信息丰富的音频、视频、转录文本以及功能性近红外光谱(fNIRS)信号。基于C-MIND数据集,本研究首先分析了与诊断相关的行为特征,训练了一系列经典模型以量化不同任务和模态对诊断性能的贡献,并剖析了它们组合的有效性。随后,研究探讨了大型语言模型(LLM)是否能像临床医生一样进行精神病学推理,并明确指出了其在现实临床环境中的明显局限性。为此,研究提出通过临床专业知识引导推理过程,显著提升了LLM的诊断性能,Macro-F1分数提高了高达10%。本文从数据和算法两个角度构建了临床抑郁症评估的基础设施,旨在通过C-MIND数据集促进精神卫生领域的可靠研究。本研究不仅为抑郁症的自动化评估提供了新的数据资源,还在算法层面提出了结合临床知识改进模型性能的方法,为未来的精神健康研究奠定了坚实基础。
抑郁症评估多模态诊断行为特征精神病学推理大型语言模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新数据集和方法,对抑郁症评估领域有重要影响。

ConfProBench:基于MLLM的过程评判模型置信度评估基准

ArXiv ID: 2508.04576
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Yue Zhou, Yi Chang, Yuan Wu
📄 中文摘要:
多模态大语言模型(MLLMs)的推理能力是解决复杂多模态任务的关键,而判断推理步骤的正确性对于提升这一能力至关重要。近年来,基于MLLM的过程评判模型(MPJs)被广泛用于评估多模态任务中推理步骤的正确性。因此,评估MPJs的性能对于发现其局限性并指导未来改进具有重要意义。然而,现有的MPJ基准测试主要关注步骤正确性分类和推理过程搜索等任务,忽视了一个关键问题:MPJs在步骤层面生成的置信度分数是否可靠。为填补这一空白,本研究提出了ConfProBench,这是首个系统性评估MPJs步骤级置信度分数可靠性的综合基准。ConfProBench构建了三种对抗性扰动的推理步骤:同义词替换、句法转换和图像扰动,以测试MPJ置信度在扰动下的鲁棒性。此外,本研究引入了三种新的评估指标:置信度鲁棒性分数(CRS)、置信度敏感性分数(CSS)和置信度校准分数(CCS),分别用于评估鲁棒性、敏感性和校准性。研究对14种最先进的MLLMs(包括专有模型和开源模型)进行了评估,实验结果揭示了当前MPJs在置信度性能方面的局限性,并提供了具有竞争力的基线以支持未来研究。本基准的提出为改进MPJs的置信度评估提供了重要工具,有助于推动多模态推理领域的进一步发展。
多模态大语言模型过程评判模型置信度评估对抗性扰动基准测试
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性基准,填补置信度评估空白,可能显著影响MLLM领域。

FinMMR:使金融数值推理更加多模态、全面和具有挑战性

ArXiv ID: 2508.04625
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Zichen Tang, Haihong E, Jiacheng Liu, Zhongjun Yang, Rongjin Li, Zihua Rong, Haoyang He, Zhuodi Hao,
📄 中文摘要:
本文提出了FinMMR,一个全新的双语多模态基准数据集,专门用于评估多模态大型语言模型(MLLMs)在金融数值推理任务中的推理能力。与现有基准相比,FinMMR在三个方面实现了显著进步。首先,在多模态性方面,作者精心改造了现有的金融推理基准,并从最新的中国金融研究报告中构建了新颖的问题。FinMMR包含4.3千个问题和8.7千张图像,涵盖表格、柱状图和股权结构图等14个类别。其次,在全面性方面,FinMMR覆盖了包括企业金融、银行和行业分析在内的14个金融子领域,在金融领域知识广度上远超现有基准。最后,在挑战性方面,模型需要通过整合金融知识与对复杂金融图像和文本的理解,执行多步骤的精确数值推理。即使是表现最好的MLLM在高难度问题上的准确率也仅为53.0%。作者认为,FinMMR将推动MLLMs在现实场景中推理能力的提升,为金融领域的多模态人工智能研究提供了重要的测试平台和研究资源。通过这一基准数据集,研究人员可以更好地理解和改进模型在处理复杂金融数据和推理任务时的表现,为未来的技术发展和应用奠定基础。
金融数值推理多模态学习大型语言模型基准数据集人工智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: FinMMR在多模态金融推理领域具有重要创新,可能显著提升相关技术应用。

跳跃、忽略与过度思考:诊断推理模型在多跳分析中的失误原因

ArXiv ID: 2508.04699
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Anushka Yadav, Isha Nalawade, Srujana Pillarichety, Yashwanth Babu, Reshmi Ghosh, Samyadeep Basu, We
📄 中文摘要:
随着推理模型的出现及其在实用人工智能聊天机器人中的集成,解决高级数学、深度搜索和提取式问答等需要复杂多步思维过程的问题取得了突破。然而,对于这些模型为何比通用语言模型更容易产生幻觉(hallucination)的完整理解仍然缺失。本研究系统性地探索了当代语言模型在多跳问答任务中的推理失败原因。研究引入了一个新颖且细致的错误分类框架,从三个关键维度分析失败原因:涉及源文档的多样性和独特性(即‘跳跃’)、捕捉相关信息的完整性(即‘覆盖度’)以及认知效率低下(即‘过度思考’)。通过严格的人工标注,并辅以自动化评估指标,本研究揭示了通常被以准确率为中心的评估所掩盖的复杂错误模式。这种探索方法深入洞察了当前模型的认知局限性,并为未来语言建模工作提供了可行的指导,以提升推理的准确性、透明度和鲁棒性。研究发现,多跳分析中的错误往往源于模型在处理多源信息时的不完整性、过度复杂化推理过程以及对上下文的误解。这些发现不仅揭示了模型在多步推理中的薄弱环节,也为改进模型设计、优化训练数据和增强推理能力提供了重要启示。总体而言,本研究为理解和改进推理模型的性能奠定了基础,有助于推动人工智能在复杂问题解决中的应用。
推理模型多跳问答错误分类认知局限语言建模
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出新颖错误分类框架,对推理模型改进有重要影响。

p-MoD:通过渐进比例衰减构建混合深度多模态大语言模型

ArXiv ID: 2412.04449
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Jun Zhang, Desen Meng, Zhengming Zhang, Zhenpeng Huang, Tao Wu, Limin Wang
📄 中文摘要:
尽管多模态大语言模型(MLLMs)在多种任务中表现出色,但其高昂的训练和推理成本限制了进一步发展。本文提出了一种高效的MLLM架构p-MoD,旨在显著降低训练和推理成本,同时保持模型性能。MLLMs的主要计算开销来源于基于Transformer的语言模型处理的大量视觉token。为此,我们引入了混合深度(Mixture-of-Depths, MoD)机制,使每个LLM层能够选择处理关键视觉token并跳过冗余token。然而,将MoD集成到MLLMs中并非易事。为解决训练和推理稳定性以及训练数据有限的挑战,我们对MoD模块进行了两项创新设计:tanh门控权重归一化(TanhNorm)和对称token重加权(STRing)。此外,我们观察到视觉token在较深层中表现出更高的冗余性,因此设计了一种渐进比例衰减(Progressive Ratio Decay, PRD)策略,通过移位余弦调度逐步减少各层的token保留比例。这一关键设计充分释放了MoD的潜力,显著提升了模型的效率和性能。在两个基准模型上的15个基准测试中进行的广泛实验表明,p-MoD模型在性能上与基准模型相当甚至更优,同时推理时的TFLOPs仅为55.6%,KV缓存存储为53.7%,训练时的GPU小时数为77.7%。研究结果表明,p-MoD在降低计算成本的同时保持了高性能,为多模态大语言模型的实际应用提供了重要参考。
多模态大语言模型混合深度渐进比例衰减计算效率视觉token
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在MLLM效率提升方面具有重要创新,可能对领域发展产生较大影响。

Search-R1:通过强化学习训练大型语言模型进行推理并利用搜索引擎

ArXiv ID: 2503.09516
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Bowen Jin, Hansi Zeng, Zhenrui Yue, Jinsung Yoon, Sercan Arik, Dong Wang, Hamed Zamani, Jiawei Han
📄 中文摘要:
本研究聚焦于大型语言模型(LLMs)在推理和文本生成过程中高效获取外部知识和最新信息的重要性。传统的提示方法,即通过推理能力引导高级LLMs在推理过程中使用搜索引擎,往往效果不佳,因为模型可能无法完全掌握与搜索引擎的最佳交互方式。本文提出了Search-R1,一种基于强化学习(RL)的推理框架扩展方法,使LLM能够在逐步推理过程中自主生成(多个)搜索查询,并实现实时信息检索。Search-R1通过多轮搜索交互优化LLM的推理轨迹,结合检索到的token掩码技术确保RL训练的稳定性,并采用简单的基于结果的奖励函数。实验在七个问答数据集上进行,结果表明,Search-R1在相同设置下,相较于多种检索增强生成(RAG)基线,性能分别提升了41%(Qwen2.5-7B)和20%(Qwen2.5-3B)。此外,本文还深入探讨了RL优化方法、LLM选择以及检索增强推理中的响应长度动态等关键问题,为相关领域提供了重要的实证见解。代码和模型检查点已公开,详见https://github.com/PeterGriffinJin/Search-R1。
大型语言模型强化学习搜索引擎检索增强推理问答系统
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在检索增强推理领域具有重要创新,可能显著提升LLM性能。

学习丰富度在神经网络中等价推理中的调节作用

ArXiv ID: 2503.09781
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: William L. Tong, Cengiz Pehlevan
📄 中文摘要:
等价推理是一种普遍且纯粹抽象的认知能力,无论对象的具体性质如何,都可以评估其相同性或差异性。因此,相同-不同(SD)任务作为理解人类及动物抽象推理的起点,受到了广泛研究。随着神经网络在抽象能力上展现出惊人的表现,等价推理在这些模型中的研究也引起了关注。然而,尽管研究众多,关于等价推理的结论却差异显著,缺乏共识。为了阐明学习SD任务的基本原理,本研究在多层感知器(MLP)中提出了一种等价推理理论。基于比较心理学的观察,本文提出了一种行为谱系,从概念性到感知性结果不等。概念性行为表现为任务特定的表征、高效学习以及对无关感知细节的低敏感性;而感知性行为则表现为对无关感知细节的高度敏感性,并需要大量训练才能完成任务。本研究通过数学理论证明,MLP的行为受到学习丰富度的驱动。处于丰富学习状态的MLP表现出概念性行为,而处于惰性学习状态的MLP则表现出感知性行为。通过视觉SD实验验证了理论发现,结果表明丰富的特征学习通过促进概念性行为的特征而提升任务成功率。总体而言,本研究将特征学习的丰富度确定为调节等价推理的关键参数,并提出人类和动物的等价推理可能同样依赖于神经回路中的学习丰富度。这一发现为理解抽象推理的神经机制提供了新的视角,并为神经网络设计提供了理论指导。
等价推理神经网络学习丰富度概念性行为感知性行为
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出学习丰富度对等价推理的调节作用,具有重要创新和潜在影响力。

多模态大语言模型的自适应推理学习

ArXiv ID: 2503.10905
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Zhuoyan Xu, Khoi Duc Nguyen, Preeti Mukherjee, Saurabh Bagchi, Somali Chaterji, Yingyu Liang, Yin Li
📄 中文摘要:
多模态大语言模型(MLLMs)在视觉推理方面展现出了令人印象深刻的能力,但其高昂的计算成本限制了它们在资源受限环境中的部署。尽管近期在提高MLLMs效率方面取得了一些进展,但现有解决方案在应对运行时条件变化(特别是资源可用性的变化,例如设备上其他程序执行导致的竞争)方面仍显不足。为了弥补这一差距,本研究提出了AdaLLaVA,一个自适应推理框架,旨在学习在推理过程中根据输入数据和延迟预算动态重新配置MLLM的操作。我们在涉及问答、推理和幻觉的多个基准测试上进行了广泛的实验。结果表明,AdaLLaVA能够有效遵守输入延迟预算,在运行时实现不同的准确性和延迟权衡。此外,我们证明了AdaLLaVA能够适应输入延迟和内容的变化,可以与令牌选择集成以进一步提高效率,并且在不同的MLLMs上具有泛化能力。本研究的项目网页及代码发布地址为https://zhuoyan-xu.github.io/ada-llava/。通过这一框架,我们为资源受限环境下的多模态大语言模型部署提供了一种灵活且高效的解决方案,为未来的研究和应用奠定了基础。
多模态大语言模型自适应推理延迟预算视觉推理资源受限
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在MLLM效率优化方面具有重要创新,可能对资源受限环境下的应用产生较大影响。

我已全面覆盖:通过稀疏自编码器解释大型语言模型中的推理特征

ArXiv ID: 2503.18878
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalin
📄 中文摘要:
近年来,像DeepSeek-R1这样的大型语言模型(LLMs)通过在生成过程中整合深度思考和复杂推理,展现了最先进的性能。然而,这些推理过程背后的内部机制尚未被充分探索。本研究观察到,具备推理能力的LLMs持续使用与人类推理过程相关的词汇。我们假设这些词汇对应于模型内部机制中的特定推理时刻。为验证这一假设,本文采用了稀疏自编码器(SAEs),一种将神经网络激活稀疏分解为人类可解释特征的技术。我们引入了ReasonScore,一种自动指标,用于识别推理时刻中活跃的SAE特征。通过对手动和自动解释的特征进行分析,我们发现了与不确定性、探索性思维和反思相匹配的激活模式。通过引导实验,我们证明放大这些特征可以提升推理密集型基准测试的性能(+2.2%),同时生成更长的推理轨迹(+20.5%)。此外,利用模型差异技术,我们提供了证据,表明这些特征仅存在于具备推理能力的模型中。本研究为机械化理解LLMs中的推理过程迈出了第一步,为后续研究提供了重要的理论和实践基础。代码已公开于GitHub,供学术界进一步探索和验证。
大型语言模型推理特征稀疏自编码器自然语言处理深度学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在LLM推理机制研究中具有重要创新,可能推动领域内新方法的发展。

评估大型语言模型的多跳推理能力:以化学为中心的案例研究

ArXiv ID: 2504.16414
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Mohammad Khodadad, Ali Shiraee Kasmaee, Mahdi Astaraki, Nicholas Sherck, Hamidreza Mahyar, Soheila S
📄 中文摘要:
本研究提出了一种新的基准测试方法,包括一个精心策划的数据集和定义明确的评估流程,用于评估大型语言模型(LLM)在化学领域的组合推理能力。研究团队设计并验证了一套完全自动化的流程,并得到领域专家的确认,以支持这一任务。具体方法是将OpenAI推理模型与命名实体识别(NER)系统相结合,从近期文献中提取化学实体,并通过外部知识库进行增强,形成一个全面的知识图谱。通过在这些知识图谱上生成多跳问题,研究评估了LLM在上下文增强和非上下文增强环境下的表现。实验结果显示,即使是最先进的模型在多跳组合推理任务中也面临显著挑战。研究表明,为LLM提供文档检索功能可以显著提升其性能,但即使检索精度达到完美并提供完整上下文,推理错误仍然无法完全消除,这凸显了组合推理的复杂性。本研究不仅对当前LLM的局限性进行了基准测试和分析,还提出了一种新颖的数据生成流程,可用于在多个领域生成具有挑战性的推理数据集。总体而言,这项研究增进了我们对计算语言学中推理能力的理解,为未来的模型改进和跨领域应用提供了重要参考。
大型语言模型多跳推理化学领域知识图谱上下文增强
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究创新性强,对LLM推理能力评估有重要贡献,可能影响相关领域发展。

对抗性合作推理:即使在干净数据集中也存在伪相关风险

ArXiv ID: 2505.02118
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Wei Liu, Zhongyu Niu, Lang Gao, Zhiying Deng, Jun Wang, Haozhao Wang, Ruixuan Li
📄 中文摘要:
本研究探讨了一种基于合作博弈构建的自我推理框架,其中生成器首先从原始输入中提取最具信息量的片段,随后预测器利用所选子集作为输入进行预测。生成器和预测器通过协作训练以最大化预测准确性。本文首次揭示了该合作博弈框架的一个潜在问题:推理提取过程中可能无意中引入采样偏差。具体而言,即使在原始数据集中所选推理候选与标签在语义上无关,生成器也可能无意中在两者之间建立错误的关联。接着,通过详细的理论分析和实证证据,本文阐明了该偏差的来源。研究结果为通过攻击手段检查这些相关性提供了方向,并进一步提出了一种指导方法,以防止预测器学习到这些伪相关性。通过在六个文本分类数据集和两个图分类数据集上使用三种网络架构(GRUs、BERT和GCN)进行的实验,研究表明该方法不仅显著优于近期的推理方法,而且在性能上与代表性的大型语言模型(llama3.1-8b-instruct)相当甚至更优。本研究揭示了合作推理框架中伪相关的潜在风险,并为构建更鲁棒的推理系统提供了重要见解,同时强调了在机器学习模型设计中关注数据偏差和模型解释性的必要性。
合作推理伪相关采样偏差机器学习文本分类
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文揭示了合作推理中的重要问题,具有较大影响力。

Emotion-o1:大型语言模型情感理解的自适应长推理框架

ArXiv ID: 2505.22548
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Changhao Song, Yazhou Zhang, Hui Gao, Kaiyun Huang, Peng Zhang
📄 中文摘要:
本文提出了一种名为Emotion-o1的自适应思维链(CoT)推理框架,旨在提升大型语言模型(LLMs)在情感理解任务中的表现。传统的固定长度CoT方法在处理情感任务时存在局限:对于简单任务(如情感分类),推理过程过于冗长;对于复杂任务(如讽刺理解),推理深度不足。为解决这一问题,Emotion-o1通过根据情感任务的复杂性动态调整推理长度,实现了推理深度与效率的平衡。该框架的训练过程包括从面向推理的LLM中提炼自适应CoT模式,随后进行监督微调和强化学习,强化学习采用四部分奖励机制,分别针对准确性、简洁性、结构性和冗余性进行优化。实验在四个情感任务(情感分类、情绪识别、幽默检测和讽刺理解)上进行,结果表明:(1)Emotion-o1相较于其基础模型表现出显著改进,F1分数分别提升了10%(情感分类)、5%(情绪识别)、18%(幽默检测)和27%(讽刺理解);(2)在情感分类和讽刺理解任务中,Emotion-o1的8B模型性能优于Grok-3(提升1.1%)和Claude-3.7(提升2%)等先进LLM;(3)与OpenAI-o1相比,Emotion-o1在保持准确性的同时将推理长度减少了83%,展现了出色的精度-效率优化能力。总之,Emotion-o1为大型语言模型的情感理解提供了一种高效且灵活的推理框架,成功平衡了推理深度与计算效率,对自然语言处理领域的情感分析研究具有重要意义。
情感理解大型语言模型自适应推理思维链自然语言处理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在情感理解领域提出创新框架,具有较大应用潜力与影响力。

金融推理:更可信、全面和具有挑战性的金融数值推理基准测试

ArXiv ID: 2506.05828
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Zichen Tang, Haihong E, Ziyan Ma, Haoyang He, Jiacheng Liu, Zhongjun Yang, Zihua Rong, Rongjin Li, K
📄 中文摘要:
本文介绍了FinanceReasoning,一个旨在评估大型推理模型(LRMs)在金融数值推理问题中推理能力的新型基准测试。与现有基准相比,本研究在三个关键方面取得了进展。首先,在可信度方面,作者更新了来自四个公共数据集的15.6%的问题,标注了908个新问题并提供了详细的Python解决方案,同时严格优化了评估标准,从而能够准确评估LRMs的推理能力提升。其次,在全面性方面,FinanceReasoning覆盖了67.8%的金融概念和公式,显著超越现有数据集;此外,作者构建了3,133个Python格式的函数,通过精细化的知识增强了LRMs的金融推理能力(例如,GPT-4o的准确率从83.2%提升至91.6%)。最后,在挑战性方面,模型需要在238个高难度问题上应用多种金融公式进行精确的数值推理。表现最佳的模型(OpenAI o1结合PoT)达到了89.1%的准确率,但LRMs在数值精度方面仍面临挑战。研究还表明,结合推理者和程序员模型可以有效提升LRMs的表现(例如,DeepSeek-R1的准确率从83.2%提升至87.8%)。本研究为未来在特定领域复杂推理任务中评估和改进LRMs奠定了基础,特别是在金融领域的应用具有重要意义。作者通过提供更可信、全面且具挑战性的基准测试,推动了大型推理模型在金融数值推理领域的进一步发展,为相关研究提供了宝贵的资源和方向。
金融推理大型推理模型数值推理基准测试金融科技
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在金融推理领域具有重要创新,可能对模型评估和应用产生较大影响。

SLR:可扩展逻辑推理的自动化合成框架

ArXiv ID: 2506.15787
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Lukas Helff, Ahmad Omar, Felix Friedrich, Antonia W\"ust, Hikaru Shindo, Rupert Mitchell, Tim W
📄 中文摘要:
本文提出了一种名为SLR(Scalable Logical Reasoning)的端到端框架,用于系统性地评估和训练大型语言模型(LLMs)的逻辑推理能力。SLR能够根据用户的任务规范自动合成:(1)归纳推理任务的指令提示;(2)可执行的验证程序,用于对模型输出进行验证并提供可验证的奖励;(3)潜在的真实规则。这一过程完全自动化且具有可扩展性,无需人工标注,同时对任务难度具有精确控制。基于SLR框架,作者创建了SLR-Bench基准数据集,包含19,000个提示,分为20个课程级别,逐步增加关系、算术和递归复杂性。大规模评估显示,当代大型语言模型能够生成语法上有效的规则,但常常在逻辑推理的正确性上表现不佳。近期针对推理优化的LLMs展现出改进的性能,但测试时计算成本极高,仅1,000个提示的成本就超过300美元。通过SLR的课程学习方法,Llama-3-8B在SLR-Bench上的准确率翻倍,以极低的计算成本达到了与Gemini-Flash-Thinking相当的性能。此外,这些推理能力能够泛化到多个已建立的基准测试中,凸显了SLR在下游推理任务中的有效性。研究表明,SLR框架不仅为逻辑推理提供了创新的训练和评估方法,还显著降低了计算成本,为大型语言模型的推理能力提升开辟了新路径。
逻辑推理大型语言模型自动化合成课程学习计算成本
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: SLR框架创新性强,显著提升推理能力,具较大领域影响力。

思维锚点:大型语言模型推理步骤的重要性分析

ArXiv ID: 2506.19143
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Paul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy
📄 中文摘要:
近年来,推理型大型语言模型(LLM)在多个领域取得了最先进的性能。然而,其长篇链式思维推理过程带来了可解释性挑战,因为每个生成的词元都依赖于之前的所有词元,使得计算难以分解。本研究提出了一种在句子层面分析推理轨迹的方法,以深入理解推理过程。研究团队开发了三种互补的归因方法:(1)黑箱方法,通过比较模型在生成特定句子或不同含义句子时的最终答案,测量每个句子的反事实重要性,基于100次条件化滚动实验;(2)白箱方法,通过聚合句子对之间的注意力模式,识别出“广播”句子,这些句子通过“接收者”注意力头从所有后续句子中获得不成比例的关注;(3)因果归因方法,通过抑制对某一句子的注意力,测量对后续句子词元的影响,从而评估句子间的逻辑联系。这三种方法均提供了证据,证明了“思维锚点”的存在,即某些推理步骤具有超乎寻常的重要性,并对后续推理过程产生不成比例的影响。这些思维锚点通常是规划或回溯性质的句子。研究还提供了一个开源工具(www.thought-anchors.com),用于可视化方法输出,并通过案例研究展示了不同方法在映射模型多步推理过程中的一致性模式。方法间的一致性表明,句子层面的分析在深入理解推理模型方面具有巨大潜力。本研究为大型语言模型的可解释性研究开辟了新路径,可能对未来的模型设计和优化产生重要影响。
大型语言模型推理步骤思维锚点可解释性句子分析
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在LLM可解释性领域具有重要创新,可能显著影响推理模型分析。

思考如何思考:通过自主难度认知缓解大型推理模型中的过度思考

ArXiv ID: 2507.02663
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Yongjiang Liu, Haoxi Li, Xiaosong Ma, Jie Zhang, Song Guo
📄 中文摘要:
近年来,大型推理模型(LRMs)在复杂推理任务中表现出色,但常常陷入过度思考的问题,生成冗长且多余的推理轨迹。本研究通过实证分析发现,LRMs的主要局限在于其在解决问题前无法像人类一样识别任务属性(即难度级别),从而导致采用一刀切的推理过程。基于此,本文提出一个关键问题:是否可以通过显式方法增强LRMs的难度认知能力以缓解过度思考?为此,本文提出了‘思考如何思考’(Think-How-to-Think, TH2T)策略,这是一种新颖的两阶段微调方法,逐步激发LRMs的难度认知和冗余认知能力。具体而言,第一阶段通过将难度引导注入输出前缀,指导模型适应推理深度,并在混合数据集(包含短路径和长路径推理)上进行训练;第二阶段引入冗余引导,监督中间推理步骤以识别并消除不必要的推理模式。在7B、14B和32B模型上的实验表明,TH2T在简单任务上将推理成本降低了超过70%,在困难任务上降低了40%,同时保持了性能的稳定性。最终输出显示出明显的难度感知能力和减少的冗余现象(如反思和循环)。研究结果表明,TH2T策略为提升大型推理模型的效率和适应性提供了重要思路,对未来模型优化具有指导意义。
大型推理模型过度思考难度认知冗余认知模型微调
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新策略缓解过度思考问题,具有较大应用潜力。

VOTE:基于轨迹集成投票的视觉-语言-动作优化

ArXiv ID: 2507.05116
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Juyi Lin, Amir Taherin, Arash Akbari, Arman Akbari, Lei Lu, Guangyu Chen, Taskin Padir, Xiaomeng Yan
📄 中文摘要:
近年来,大规模视觉-语言-动作(VLA)模型在自然语言指导的机器人操作任务中展现出卓越性能。然而,当前的VLA模型存在两大缺陷:一是生成大量令牌导致推理延迟高和训练成本增加;二是对生成动作的利用不足,可能导致性能损失。为解决这些问题,本研究开发了一种训练框架,用于微调VLA模型以生成更少的动作令牌,同时具备高并行性,从而有效降低推理延迟和训练成本。此外,本文提出了一种推理优化技术,采用新颖的基于投票的集成策略,将当前和之前的动作预测相结合,提升了生成动作的利用率和整体性能。实验结果表明,与最先进的VLA模型相比,本方法取得了显著的性能提升,成功率更高,且推理速度比OpenVLA快39倍,在边缘平台上实现了46 Hz的吞吐量,展现了实际部署的可行性。本研究的代码已公开,供进一步研究和应用参考。这一研究为机器人操作任务中的高效VLA模型设计提供了重要思路,对推动相关领域的实用化具有重要意义。
视觉-语言-动作模型机器人操作推理优化轨迹集成投票高效部署
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在VLA模型优化方面有重要创新,对机器人领域有较大潜在影响。

从充分性到反思:检索增强推理中强化引导的思维质量研究

ArXiv ID: 2507.22716
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Jie He, Victor Guti\'errez-Basulto, Jeff Z. Pan
📄 中文摘要:
本文研究了基于强化学习的检索增强生成(RAG)方法如何提升大型语言模型(LLMs)的推理能力。现有RAG推理模型多依赖最终答案的奖励机制,而忽视了中间推理过程的质量。作者分析了现有模型的不足,识别出三种主要失败模式:(1)信息不足,即模型未能检索到足够的支持信息;(2)推理错误,即尽管信息充足,但推理链中存在逻辑或内容层面的缺陷;(3)答案与推理不一致,即有效的推理链却导致最终答案不匹配。为解决这些问题,作者提出了TIRESRAG-R1框架,通过“思考-检索-反思”流程和多维度奖励系统提升推理质量与稳定性。该框架引入了三种奖励机制:充分性奖励以鼓励全面检索,推理质量奖励以评估推理链的合理性和准确性,以及反思奖励以检测并修正错误。此外,TIRESRAG-R1还采用了难度感知的奖励加权策略和训练样本过滤方法,以提升在复杂任务上的表现。在四个多跳问答数据集上的实验表明,TIRESRAG-R1优于现有的RAG方法,并且在单跳任务上也表现出良好的泛化能力。本研究为提升大型语言模型的推理能力提供了新的视角和方法,代码和数据已公开。
检索增强生成强化学习大型语言模型推理质量多跳问答
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,显著提升推理质量,具有较大领域影响力。

SE-Agent:基于大语言模型的多步推理中自进化轨迹优化

ArXiv ID: 2508.02085
发布日期: 2025-08-07
聚类ID: 聚类 16
📝 作者: Jiaye Lin, Yifu Guo, Yuzhen Han, Sen Hu, Ziyi Ni, Licheng Wang, Mingguang Chen, Daxin Jiang, Binxing
📄 中文摘要:
本文提出了一种基于大语言模型(LLM)的智能体框架SE-Agent,旨在通过自进化机制优化多步推理过程中的问题解决轨迹。研究背景聚焦于LLM智能体在复杂推理和工具使用中的潜力,尽管这些智能体能够处理复杂任务,但其问题解决轨迹(即智能体与环境交互直至任务完成的过程)尚未被充分利用。这些轨迹蕴含丰富的反馈信息,可指导智能体朝正确方向解决问题。现有的方法如蒙特卡洛树搜索(MCTS)虽能在探索与利用之间取得平衡,但忽略了不同轨迹之间的相互依赖性,且搜索空间缺乏多样性,导致推理冗余和结果次优。为解决这些问题,SE-Agent通过三种关键操作——修订、重组和精炼——重新审视并增强先前的试点轨迹。这种进化机制带来了两大优势:一是通过先前轨迹的指导,智能地探索多样化的解决方案路径,扩展搜索空间以超越局部最优;二是利用跨轨迹的启发,高效提升性能,同时减轻次优推理路径的影响。通过这些机制,SE-Agent实现了持续的自进化,逐步提升推理质量。在SWE-bench Verified数据集上对真实GitHub问题进行评估,实验结果表明,结合SE-Agent后,五个强大的LLM模型性能相对提升高达55%,在所有开源智能体中取得了最先进的表现。研究代码和演示材料已公开,展示了其在实际应用中的潜力。结论指出,SE-Agent为基于LLM的智能体在复杂推理任务中的应用提供了新的思路和方法。
大语言模型自进化多步推理轨迹优化智能体
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: SE-Agent在LLM推理优化中展现重要创新,可能对智能体研究产生较大影响。