← 返回总览
39
论文总数
39
高分论文
7.9
平均评分
8
关键词数
🔍 聚类关键词特征
学习强化推理奖励语言训练rl优化
AttriLens-Mol:属性引导的强化学习用于大语言模型的分子性质预测
📝 作者: Xuan Lin, Long Chen, Yile Wang
📄 中文摘要:
大语言模型(LLMs)在分子性质预测任务中显示出潜力,但通常依赖人工设计的提示和思维链模板。尽管近期如DeepSeek-R1等高级推理模型通过强化学习扩展了‘思考’过程,其推理过程往往冗长且缺乏相关性。本研究提出了AttriLens-Mol,一种属性引导的强化学习框架,用于大语言模型的分子性质预测。AttriLens-Mol通过以下方式引导模型推理:(1) 格式奖励,鼓励基于属性的结构化输出;(2) 计数奖励,避免枚举无关属性;(3) 理性奖励,利用高级LLMs和RDKit验证生成属性的相关性。这种方法在推理过程中隐式地激发模型对相关分子属性的内在知识,从而更有效地进行分子性质预测。在分布内和分布外数据集上的实验表明,使用AttriLens-Mol方法在4000个样本上训练7B规模的R1-Distilled-Qwen2.5和R1-Distilled-LLaMA3.1模型,显著提升了性能,取得了与监督微调模型(如Mol-Instructions、ChemDFM等)以及高级模型(如GPT-3.5、GPT-4o、DeepSeek-V3、DeepSeek-R1等)相当或更好的结果。此外,将提取的目标属性作为可解释决策树模型的特征时,相比通过提示LLMs生成的属性,表现出更优的性能。这表明AttriLens-Mol有效提取了更相关且具有预测性的分子属性,提升了性质预测的可解释性和性能。代码已发布于https://github.com/szu-tera/AttriLens-Mol。
大语言模型分子性质预测强化学习属性引导可解释性
大型语言模型是否能作为动态治疗规划者?从先验知识注入角度的计算机模拟研究
📝 作者: Zhiyao Luo, Tingting Zhu
📄 中文摘要:
本研究探讨了大型语言模型(LLMs)在动态治疗规划(DTRs)中的潜力,特别是在临床决策自动化中的应用。传统的基于强化学习(RL)的动态治疗方案需要大量工程工作来注入临床知识并确保患者安全,而LLMs通过语言提示自然嵌入隐式先验知识和临床启发式方法,无需特定环境训练。本研究在计算机模拟的1型糖尿病环境中,评估了开源LLMs作为动态胰岛素剂量决策代理的表现,并将其零样本推理能力与专门训练的小型神经网络强化学习代理(SRAs)进行比较。结果表明,通过精心设计的零样本提示,较小的LLMs(如Qwen2.5-7B)在稳定患者群体中能够达到与经过广泛训练的SRAs相当甚至更优的临床表现。然而,LLMs也表现出显著局限性,例如在使用思维链(CoT)推理提示时可能出现过于激进的胰岛素剂量决策,暴露出包括算术幻觉、时间误解和临床逻辑不一致等关键失败模式。此外,通过文本推理对潜在临床状态(如饮食)的显式推理对性能提升有限,凸显了当前模型在仅通过文本捕捉复杂隐藏生理动态方面的不足。研究结果表明,LLMs在临床工作流程中的整合需谨慎但可持乐观态度,强调了目标性提示工程、仔细验证以及结合语言推理与结构化生理建模的混合方法的必要性,以实现安全、稳健且临床有效的决策支持系统。
大型语言模型动态治疗规划强化学习胰岛素剂量临床决策支持
HCRide:协调乘客公平性与司机偏好的人本化网约车系统
📝 作者: Lin Jiang, Yu Yang, Guang Wang
📄 中文摘要:
网约车服务中的订单分配系统对运营商收入、司机利润以及乘客体验具有重要影响。现有研究多集中于提升系统效率以增加运营商收入,但这往往导致乘客和司机的体验不佳。因此,本研究旨在设计一个以人为本的网约车系统(HCRide),在不牺牲整体系统效率的前提下,同时考虑乘客公平性和司机偏好。然而,由于乘客公平性和司机偏好之间可能存在冲突,优化其中一方可能会损害另一方的利益,实现这一目标具有挑战性。为解决这一问题,本研究提出了一种基于多智能体强化学习的新算法——和谐导向的演员-双评论家算法(Habic)。该算法包含三个主要组件:多智能体竞争机制、动态演员网络和双评论家网络,旨在优化系统效率、乘客公平性,并兼顾司机偏好。研究使用来自深圳和纽约市的两个真实网约车数据集对HCRide进行了广泛评估。实验结果表明,与最先进的基线方法相比,HCRide在系统效率上提升了2.02%,在公平性上提升了5.39%,在司机偏好上提升了10.21%。这一成果表明,HCRide能够在维持系统效率的同时,显著改善乘客和司机的体验,为网约车服务的人本化设计提供了新的思路和方法。研究结论强调了多智能体强化学习在解决复杂交通系统优化问题中的潜力,并为未来智能交通系统的设计提供了重要参考。
网约车系统乘客公平性司机偏好多智能体强化学习人本化设计
大型语言模型在非理想条件下的推理能力:RL微调后的表现
📝 作者: Chang Tian, Matthew B. Blaschko, Mingzhe Xing, Xiuxing Li, Yinliang Yue, Marie-Francine Moens
📄 中文摘要:
本研究探讨了通过强化学习(RL)增强大型语言模型(LLMs)推理能力的效果,特别是在非理想条件下的表现。RL中的策略梯度算法因其高效性和有效性在后训练阶段占据主导地位。然而,现有基准测试多在理想化设置下评估LLMs的推理能力,忽略了在现实非理想场景中的表现。研究识别出三种具有实际意义的非理想场景:摘要推理、细粒度噪声抑制和上下文过滤,并引入了受脑科学启发的新研究方向,即人类推理在不完美输入下仍保持可靠性。研究正式定义并评估了这些挑战性场景,通过RL策略梯度算法对三个LLMs和一个最先进的大型视觉-语言模型(LVLM)进行微调,并在八个公开数据集上测试其性能。结果表明,尽管RL微调在理想化设置下提升了基准推理能力,但在所有三种非理想场景中,模型性能显著下降,暴露了高级推理能力的关键局限性。尽管研究提出了一种特定场景的补救方法,但结果显示当前方法仍未能有效解决这些推理缺陷。这项工作强调大型模型的推理能力常被高估,并凸显了在非理想场景下评估模型的重要性。相关代码和数据将在未来发布。
大型语言模型强化学习推理能力非理想条件策略梯度算法
不可知论者:通过强化学习在通用学习环境中学习任意编程语言的编码
📝 作者: Aleksander Boruch-Gruszecki, Yangtian Zi, Zixuan Wu, Tejas Oberoi, Carolyn Jane Anderson, Joydeep Bi
📄 中文摘要:
本文研究了如何通过强化学习(RL)在通用学习环境中使大型语言模型(LLMs)能够学习并编写任意编程语言的代码。研究背景源于当前LLMs在高资源语言(如Python和JavaScript)上表现出色,但在低资源语言上的表现不佳,而这些低资源语言在科学和工程领域仍然至关重要。作者指出,LLMs在低资源语言上的不足不仅源于预训练数据的缺乏,更因为后训练过程的瓶颈:每种新语言都需要新的数据集、测试工具和强化学习基础设施。本文提出了一种创新的通用学习环境,旨在克服这些限制,使模型能够通过统一的框架学习多种编程语言,而无需为每种语言单独设计训练流程。主要方法包括构建一个通用的强化学习框架,利用跨语言的共性特征进行知识迁移,并通过动态调整学习策略来适应不同语言的语法和语义规则。关键发现表明,该方法显著提高了LLMs在低资源语言上的代码生成能力,尤其是在科学计算和工程应用相关的语言中表现出色。此外,该通用环境还展示了良好的可扩展性,能够快速适应新的编程语言。研究结论强调,这种方法不仅提升了模型的多语言适应性,也为未来的跨领域编程任务提供了重要的技术基础,具有广泛的应用前景。
强化学习大型语言模型编程语言通用学习环境低资源语言
序列感知SAC控制在电动动力系统发动机燃油消耗优化中的应用
📝 作者: Wafeeq Jaleel, Md Ragib Rownak, Athar Hanif, Sidra Ghayour Bhatti, Qadeer Ahmed
📄 中文摘要:
随着混合动力电动汽车(HEVs)在重型卡车领域的普及,适应性强且高效的能量管理对于降低燃油消耗和维持电池电量以支持长时间运行至关重要。本研究提出了一种基于软演员-评论家(Soft Actor-Critic, SAC)算法的强化学习(RL)框架,用于优化串联式混合动力汽车的发动机控制。通过将控制任务重新定义为序列决策问题,并将门控循环单元(Gated Recurrent Units, GRUs)和决策转换器(Decision Transformers, DTs)集成到演员和评论家网络中,增强了SAC算法对时间依赖性的捕捉能力以及随时间推移的规划能力。为了评估模型的鲁棒性和泛化能力,本研究在不同的初始电池状态、驾驶循环持续时间、功率需求和输入序列长度下对模型进行了训练。实验结果表明,在高速公路燃油经济性测试(HFET)循环中,基于DT的演员和基于GRU的评论家的SAC代理在燃油节省方面与动态规划(Dynamic Programming, DP)方法的差距仅为1.8%;而演员和评论家网络均采用GRU的SAC代理以及前馈网络(FFN)演员-评论家代理的差距分别为3.16%和3.43%。在未见过的驾驶循环(US06和重型重型柴油卡车(HHDDT)巡航段)中,序列感知的泛化代理持续优于基于FFN的代理,凸显了其在现实环境中的适应性和鲁棒性。本研究为混合动力汽车的能量管理提供了新的视角和方法,具有重要的应用价值。
混合动力汽车强化学习软演员-评论家算法燃油优化序列决策
移动机器人自主迷宫导航的分层深度确定性策略梯度方法
📝 作者: Wenjie Hu, Ye Zhou, Hann Woei Ho
📄 中文摘要:
迷宫导航是机器人学中的一项基本挑战,要求智能体在复杂环境中高效穿越。深度确定性策略梯度(DDPG)算法在控制任务中表现出色,但在迷宫导航中因稀疏奖励、低效探索和长程规划困难等问题,常常导致成功率低和平均奖励不足,甚至无法实现有效导航。为解决这些问题,本文提出了一种高效的分层深度确定性策略梯度(HDDPG)算法,该算法包含高层和低层策略。高层策略采用改进的DDPG框架,从长期视角和更高的时间尺度生成中间子目标;低层策略同样基于改进的DDPG算法,通过观察当前状态并遵循高层策略分配的子目标生成基本动作。为提高稳定性,本方法通过离策校正优化子目标分配,利用历史经验重标记;同时,采用自适应参数空间噪声改进探索效率,并通过重塑内在-外在奖励函数提升学习效率。此外,梯度裁剪和Xavier初始化等优化手段进一步增强了算法的鲁棒性。研究通过机器人操作系统(ROS)和Gazebo进行数值仿真实验,对自主迷宫导航任务中的三个不同最终目标进行了严格评估。结果表明,HDDPG显著克服了标准DDPG及其变体的局限性,成功率至少提高了56.59%,平均奖励相比基线算法至少提升了519.03,展现出优越的性能。
迷宫导航深度确定性策略梯度分层学习移动机器人强化学习
R-Zero:从零数据开始自进化推理大语言模型
📝 作者: Chengsong Huang, Wenhao Yu, Xiaoyang Wang, Hongming Zhang, Zongxia Li, Ruosen Li, Jiaxin Huang, Hait
📄 中文摘要:
本文提出了一种全新的自进化大语言模型(LLM)框架R-Zero,旨在通过自主生成、优化和学习自身经验,实现超智能的扩展路径。传统方法在训练此类模型时高度依赖人类 curation 的大量任务和标签,通常通过微调或强化学习进行,这构成了AI系统超越人类智能能力发展的根本瓶颈。为解决这一问题,R-Zero框架从零开始生成自己的训练数据,仅以单个基础LLM为起点,初始化两个具有不同角色的独立模型:挑战者(Challenger)和解决者(Solver)。这两个模型通过交互进行分别优化和共同进化:挑战者因提出接近解决者能力边缘的任务而获得奖励,而解决者因解决日益复杂的挑战者任务而获得奖励。这一过程形成了一个针对性的自改进课程,无需任何预先存在的任务和标签。实验结果表明,R-Zero显著提升了不同基础LLM的推理能力,例如,在数学推理基准测试中将Qwen3-4B-Base的性能提升了+6.49,在通用领域推理基准测试中提升了+7.54。研究表明,R-Zero为大语言模型的自主学习和能力提升提供了一种创新且高效的解决方案,可能为未来AI系统迈向超智能奠定基础。
自进化模型大语言模型自主学习推理能力人工智能
迈向无幻觉音乐:基于强化学习的偏好优化框架用于可靠的歌曲生成
📝 作者: Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong
📄 中文摘要:
近年来,基于音频的生成式语言模型在AI驱动的歌词到歌曲生成领域取得了显著进展。然而,这些模型常常面临内容幻觉问题,生成的输出与输入歌词不一致,破坏了音乐的连贯性。传统的监督微调(SFT)方法受限于被动的标签拟合,自我改进能力有限,且在缓解幻觉问题上表现不佳。为解决这一核心挑战,本研究提出了一种基于强化学习(RL)的偏好优化框架,用于控制幻觉问题。主要贡献包括:(1)构建了一个强大的幻觉偏好数据集,通过音素错误率(PER)计算和基于规则的过滤,捕捉与人类期望的对齐;(2)在RL框架内实现并评估了三种不同的偏好优化策略:直接偏好优化(DPO)、近端策略优化(PPO)和群体相对策略优化(GRPO)。DPO采用离线策略,通过提升正向token的概率,显著降低了7.4%的PER;PPO和GRPO采用在线策略,训练基于PER的奖励模型,通过奖励最大化和KL正则化迭代优化序列,分别实现了4.9%和4.7%的PER降低。全面的客观和主观评估证实,我们的方法在保持音乐质量的同时有效抑制了幻觉问题。更重要的是,本研究提出了一种系统性的、基于RL的解决方案,用于歌词到歌曲生成中的幻觉控制。该框架的可迁移性还为音乐风格一致性和音乐性增强提供了潜力,为未来的生成式歌曲研究开辟了新的方向。
强化学习音乐生成幻觉控制偏好优化歌词到歌曲
SPaRFT:大型语言模型的自适应强化微调
📝 作者: Dai Do, Manh Nguyen, Svetha Venkatesh, Hung Le
📄 中文摘要:
大型语言模型(LLMs)在通过强化学习(RL)进行微调后展现出强大的推理能力。然而,此类方法需要大量数据和计算资源,对于较小的模型而言并不实用。当前的课程学习或数据选择方法多依赖启发式策略或需要大量计算资源,限制了其可扩展性和普适性。本研究提出了一种自适应学习框架SPaRFT,通过优化训练数据的选择和使用时机,根据模型当前能力实现高效学习。首先,采用基于聚类的数据缩减方法,按语义和难度对训练数据进行分区,提取一个紧凑且多样化的子集以减少冗余。然后,利用多臂老虎机算法将数据簇视为臂,根据模型当前性能优化训练样本的分配。在多个推理基准测试上的实验表明,SPaRFT在使用的样本数量减少高达100倍的情况下,取得了与最先进的基线方法相当或更好的准确性。消融研究和分析进一步强调了数据聚类和自适应选择的重要性。研究结果表明,通过精心设计、基于性能驱动的训练课程,可以以最小的资源解锁大型语言模型的强大推理能力。这一方法为资源受限环境下的模型训练提供了新的思路,并展示了数据选择和训练策略优化的潜力。
大型语言模型强化学习自适应学习数据选择推理能力
通过强化学习探索卓越的函数调用能力
📝 作者: Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, Cunyin Peng, Jinjie GU, Chenyi Zhuang
📄 中文摘要:
函数调用能力对于在现实世界应用中部署大型语言模型(LLM)至关重要,但当前的训练方法未能开发出稳健的推理策略。监督微调生成的模型往往依赖于表面的模式匹配,而标准的强化学习方法在处理结构化函数调用的复杂动作空间时面临困难。本研究提出了一种新颖的强化学习框架,通过基于策略熵的探索策略优化,专门针对函数调用任务增强群体相对策略优化(GRPO)。该方法解决了函数调用中的三个关键挑战:策略学习中的探索不足、思维链生成中缺乏结构化推理以及参数提取验证不充分。研究团队设计了一个两阶段数据准备流程,通过迭代式LLM评估和抽象语法树验证,确保高质量的训练样本。在伯克利函数调用排行榜上的广泛实验表明,该框架在开源模型中实现了最先进的性能,总体准确率达到86.02%,在复杂多函数场景中比标准GRPO高出高达6%。特别值得注意的是,该方法在代码预训练模型上表现出显著改进,表明结构化语言生成能力为函数调用任务中的强化学习提供了有利的起点。作者承诺将公开所有代码、模型和数据集,以造福学术界和工业界。本研究不仅在技术上取得了突破,还为大型语言模型在实际应用中的函数调用能力提升提供了新的思路和方法,具有重要的理论和实践意义。
强化学习函数调用大型语言模型策略优化结构化推理
后验-GRPO:在代码生成中奖励推理过程
📝 作者: Lishui Fan, Yu Zhang, Mouxiang Chen, Zhongxin Liu
📄 中文摘要:
本文研究了如何通过强化学习(RL)提升大型语言模型(LLMs)在代码生成中的表现。传统的强化学习方法主要依赖于测试用例的结果奖励,忽略了中间推理过程的质量。尽管直接监督推理过程是一个有前景的方向,但这种方法容易导致奖励操控,即策略模型学会利用推理奖励信号而未改善最终结果。为解决这一问题,本文提出了一种统一框架,有效地将推理过程质量纳入强化学习中。首先,为评估推理质量,作者开发了LCB-RB基准数据集,包含优劣推理过程的偏好对。其次,为准确评分推理质量,提出了一种基于优化-退化(OD-based)的方法用于奖励模型训练,通过系统优化和退化初始推理路径,生成高质量偏好对,涵盖事实准确性、逻辑严谨性和连贯性等维度。基于此方法训练的7B参数奖励模型在LCB-RB上达到了最先进的性能,并在其他基准测试中表现出良好的泛化能力。最后,作者提出了后验-GRPO(P-GRPO),一种新型强化学习方法,仅对成功结果的推理过程应用奖励,从而有效缓解奖励操控问题,并使模型的内部推理与最终代码正确性保持一致。采用P-GRPO的7B参数模型在多种代码生成任务中表现出色,超越仅基于结果的基线4.5%,性能接近GPT-4-Turbo。此外,该方法还被扩展到数学任务中,展现了良好的通用性。作者公开了模型、数据集和代码,为后续研究提供了资源支持。本研究为强化学习在代码生成中的应用提供了重要创新,特别是在推理过程质量评估和奖励机制设计方面具有显著贡献。
强化学习代码生成推理过程奖励模型大型语言模型
CodeBoost:通过从代码片段中提取知识并结合强化学习提升代码大语言模型
📝 作者: Sijie Wang, Quanjiang Guo, Kai Zhao, Yawei Zhang, Xin Li, Xiang Li, Siqi Li, Rui She, Shangshu Yu, W
📄 中文摘要:
代码大语言模型(LLMs)已成为构建高效自动化编码流程的重要工具。现有模型通常通过从通用大语言模型中利用强化学习(RL)进行后训练,训练数据多为“人类指令-最终答案”对,其中指令通常来自人工标注。然而,收集高质量的编码指令既耗时又难以扩展,而代码片段则在各种来源中大量存在,这种不平衡构成了基于指令的后训练的主要瓶颈。本文提出了一种后训练框架CodeBoost,旨在纯粹从代码片段中提升代码LLMs的性能,而无需依赖人工标注的指令。CodeBoost引入了以下关键组件:(1)最大团筛选,从代码中选择具有代表性和多样性的训练语料;(2)双向预测,使模型能够从前向和后向预测目标中学习;(3)错误感知预测,结合正确和错误输出的学习信号;(4)异构增强,通过多样化训练分布来丰富代码语义;(5)异构奖励,通过多种奖励类型(包括格式正确性和执行反馈)指导模型学习,奖励既来自成功也来自失败。作者在多个代码LLMs和基准测试上进行了广泛实验,结果表明CodeBoost持续提升了模型性能,证明了其作为一种可扩展且有效的训练流程的潜力。该框架不仅克服了人工标注的限制,还充分利用了丰富的代码片段资源,为代码生成模型的训练提供了新的思路。研究结果显示,CodeBoost在提升模型生成代码的质量和准确性方面具有显著优势,为未来的代码模型优化奠定了基础。
代码大语言模型强化学习代码片段后训练模型优化
Echo:在大规模RL对齐异构集群中解耦推理与训练
📝 作者: Jie Xiao, Shaoduo Gan, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, L
📄 中文摘要:
本文提出了一种名为Echo的强化学习(RL)系统,针对大型语言模型(LLMs)的现代RL后训练中推理和训练工作负载的串行上下文切换问题,实现了推理和训练阶段在异构'推理'和'训练'集群上的干净解耦,同时保持统计效率。传统的RL后训练系统通常将轨迹采样和策略优化共同部署在同一GPU集群上,这种方式违反了当前分布式训练系统所依赖的单程序多数据(SPMD)假设。Echo引入了两种轻量级同步协议:一种是顺序拉取模式,通过每次API调用刷新采样器权重以最小化偏差;另一种是异步推拉模式,通过回放缓冲区流式传输版本标记的轨迹数据以最大化硬件利用率。作者在地理分布的集群上对三种代表性RL工作负载(Qwen3-4B、Qwen2.5-7B和Qwen3-32B)进行了训练实验,结果表明,Echo在收敛速度和最终奖励方面与完全共置的Verl基线相当,同时将轨迹生成任务卸载到商用边缘硬件上。这些结果表明,利用去中心化的异构资源,大规模RL在LLMs上的应用可以达到数据中心级别的性能。研究展示了在异构环境中优化RL训练的可行性,为未来的分布式RL系统设计提供了重要参考,同时也为边缘计算与中心化训练的结合开辟了新的可能性。
强化学习大型语言模型异构集群推理训练解耦分布式系统
DistillDrive:基于同构异源规划模型的端到端多模式自动驾驶知识蒸馏
📝 作者: Rui Yu, Xianghang Zhang, Runkai Zhao, Huaicheng Yan, Meng Wang
📄 中文摘要:
端到端自动驾驶技术近年来取得了快速发展,对工业界和学术界产生了深远影响。然而,现有研究过于关注自我车辆状态作为唯一的学习目标,缺乏面向规划的理解,导致整体决策过程的鲁棒性受限。本研究提出了DistillDrive,一种基于端到端知识蒸馏的自动驾驶模型,通过多样化的实例模仿增强多模式运动特征学习。具体而言,我们采用基于结构化场景表示的规划模型作为教师模型,利用其多样化的规划实例作为端到端模型的多目标学习对象。此外,我们引入强化学习来优化状态到决策的映射,同时利用生成式建模构建面向规划的实例,促进潜在空间内的复杂交互。在nuScenes和NAVSIM数据集上的实验验证表明,与基线模型相比,DistillDrive将碰撞率降低了50%,并在闭环性能上提升了3个百分点。研究代码和模型已公开发布于https://github.com/YuruiAI/DistillDrive。本研究通过结合知识蒸馏、强化学习和生成式建模,为端到端自动驾驶系统提供了更鲁棒的决策能力,对自动驾驶领域的进一步发展具有重要意义。
自动驾驶知识蒸馏端到端学习强化学习多模式特征
高性能低开销数据传输的模块化架构
📝 作者: Rasman Mubtasim Swargo, Engin Arslan, Md Arifuzzaman
📄 中文摘要:
高性能应用需要在地理上分散的位置之间快速、可靠地传输海量数据集。然而,传统的文件传输工具由于固定配置或单一优化方法,常常面临资源利用不足和不稳定的问题。本研究提出了一种新颖的模块化数据传输架构AutoMDT,该架构利用基于深度强化学习的智能体同时优化读取、网络和写入操作的并发级别。AutoMDT引入了一个轻量级的网络系统模拟器,使得基于近端策略优化(PPO)的智能体能够在平均约45分钟内完成离线训练,从而避免了在生产网络中进行耗时的在线训练的不切实际性。其模块化设计将I/O和网络任务解耦,使智能体能够精确捕捉复杂的缓冲区动态,并快速适应不断变化的系统和网络条件。在生产级测试平台上的评估结果表明,与现有最先进的解决方案相比,AutoMDT实现了高达8倍的收敛速度提升,并将传输完成时间缩短了68%。研究表明,AutoMDT在高性能数据传输领域具有显著的优势,能够有效应对大规模数据传输中的资源利用和稳定性挑战,为分布式系统中的数据传输优化提供了新的思路和方法。作者还讨论了该架构在不同网络环境下的适应性和潜在的应用场景,强调了其在未来高性能计算和大数据处理中的重要价值。
数据传输模块化架构深度强化学习网络优化高性能计算
MathSmith:通过强化策略生成合成问题以实现极难数学推理
📝 作者: Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tang
📄 中文摘要:
大型语言模型(LLM)在数学推理领域取得了显著进展,但其发展受到高质量、高难度训练数据稀缺的限制。现有的合成方法主要依赖于对人类编写的模板进行改造,限制了数据的多样性和可扩展性。本研究提出了MathSmith,一个用于合成具有挑战性的数学问题以增强LLM推理能力的新框架。与修改现有问题不同,MathSmith通过从PlanetMath随机抽取概念-解释对,从头构建新问题,确保数据的独立性并避免污染。为增加难度,研究设计了九种预定义策略作为推理过程中的软约束。同时,采用强化学习联合优化结构有效性、推理复杂性和答案一致性。通过自回归提示生成的推理轨迹长度反映认知复杂性,鼓励创建与长链思维推理相一致的更具挑战性的问题。在五个基准测试(分为简单和中等难度:GSM8K、MATH-500;以及高难度:AIME2024、AIME2025、OlympiadBench)上的实验表明,MathSmith在短链和长链思维设置下均持续优于现有基线。此外,针对弱点的变体生成模块能够针对特定概念进行有针对性的改进。总体而言,MathSmith展现出强大的可扩展性、泛化能力和迁移能力,凸显了高难度合成数据在推动LLM推理能力发展方面的潜力。本研究为数学推理领域的训练数据生成提供了一种创新方法,可能对未来的模型训练和应用产生深远影响。
数学推理大型语言模型合成数据强化学习高难度问题
Shuffle-R1:通过数据驱动的动态洗牌实现多模态大语言模型的高效强化学习框架
📝 作者: Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu,
📄 中文摘要:
强化学习(RL)已成为增强多模态大语言模型(MLLM)推理能力的有效后训练范式。然而,当前的RL训练流程常常因两个未被充分探索的问题而导致训练效率低下:优势坍缩(Advantage Collapsing),即批次中的大多数优势值趋近于零;以及滚动静默(Rollout Silencing),即随时间推移贡献非零梯度的滚动比例逐渐减少。这些问题导致梯度更新不佳,阻碍了长期学习效率。为解决这些问题,本文提出了Shuffle-R1,一个简单而有原则性的框架,通过动态重构轨迹采样和批次组成来提升RL微调效率。该框架引入了两种关键方法:(1)成对轨迹采样(Pairwise Trajectory Sampling),选择具有较大优势的高对比度轨迹以提高梯度信号质量;(2)基于优势的轨迹洗牌(Advantage-based Trajectory Shuffle),通过有针对性的批次重组增加有价值滚动的曝光度。在多个推理基准测试中的实验表明,Shuffle-R1框架在最小开销下持续优于强大的RL基线。这些结果突显了数据驱动适应在MLLM的RL训练中对于提升效率的重要性。研究表明,通过优化数据采样和批次管理,可以显著改善模型的训练过程和最终性能,为未来的RL框架设计提供了新的思路和方法。此外,本文的发现也强调了在多模态大语言模型的训练中,数据质量和结构对学习效果的关键影响,为相关领域的研究提供了有价值的参考。
强化学习多模态大语言模型动态洗牌轨迹采样训练效率
Cooper:在强化学习中协同优化大型语言模型的策略模型与奖励模型
📝 作者: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
📄 中文摘要:
大型语言模型(LLMs)在推理任务中展现出卓越性能,而强化学习(RL)是提升其推理能力的关键算法。目前,奖励机制主要分为基于模型的奖励和基于规则的奖励两种范式。然而,这两种方法均存在局限性:基于规则的奖励缺乏鲁棒性,而基于模型的奖励容易受到奖励操控(reward hacking)的影响。为解决这些问题,本文提出了一种名为Cooper(协同优化策略模型与奖励模型)的强化学习框架,该框架通过联合优化策略模型和奖励模型来提升性能。Cooper利用基于规则的奖励在识别正确响应时的高精度,动态构建并选择正负样本对以持续训练奖励模型,从而增强鲁棒性并降低奖励操控的风险。为支持Cooper框架,本文还提出了一种混合标注策略,用于高效且准确地生成奖励模型的训练数据。此外,作者设计了一种基于参考的奖励建模范式,即奖励模型以参考答案作为输入。基于此设计,训练了一个名为VerifyRM的奖励模型,该模型在VerifyBench基准测试中相较于同规模模型取得了更高的准确性。通过结合VerifyRM和Cooper进行强化学习,实验结果表明,Cooper不仅有效缓解了奖励操控问题,还提升了端到端的强化学习性能,例如在Qwen2.5-1.5B-Instruct模型上平均准确率提升了0.54%。研究发现,动态更新奖励模型是应对奖励操控的有效方法,为将奖励模型更好地融入强化学习提供了重要参考。本文的研究为大型语言模型的强化学习优化提供了新的思路和实践指导。
强化学习大型语言模型奖励模型奖励操控策略优化
测试时强化学习用于GUI定位的区域一致性方法
📝 作者: Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen
📄 中文摘要:
图形用户界面(GUI)定位是将自然语言指令映射到精确屏幕坐标的任务,是自主GUI代理的基础。尽管现有方法通过大规模监督训练或带有标注奖励的强化学习取得了较好的性能,但它们仍然受到像素级标注成本和可用性的限制。本研究观察到,当模型对同一GUI元素生成多个预测时,空间重叠模式揭示了隐含的置信信号,可用于指导更精确的定位。基于此观察,本文提出了GUI-RC(区域一致性),一种测试时扩展方法,通过从多个采样预测中构建空间投票网格,识别模型一致性最高的共识区域。在不进行任何训练的情况下,GUI-RC在ScreenSpot基准测试中将各种架构的准确率提高了2-3%。进一步地,本文提出了GUI-RCPO(区域一致性策略优化),将这些一致性模式转化为测试时强化学习的奖励。通过计算每个预测与集体共识的对齐程度,GUI-RCPO使模型能够在推理过程中对未标注数据进行迭代优化。广泛的实验证明了该方法的通用性:GUI-RC将Qwen2.5-VL-3B-Instruct在ScreenSpot-v2上的准确率从80.11%提升至83.57%,而GUI-RCPO通过自监督优化进一步提升至85.14%。本研究揭示了测试时扩展和测试时强化学习在GUI定位中的潜力,为构建更鲁棒、数据高效的GUI代理提供了有前景的路径。
GUI定位测试时强化学习区域一致性自监督优化人机交互
学习推理以提高事实性
📝 作者: Xilun Chen, Ilia Kulikov, Vincent-Pierre Berges, Barlas O\u{g}uz, Rulin Shao, Gargi Ghosh, Jason Wes
📄 中文摘要:
本研究聚焦于推理型大型语言模型(R-LLMs)在复杂推理任务中的表现,尤其是在事实性方面的挑战。尽管R-LLMs在复杂推理任务中取得了显著进展,但在长篇事实性基准测试中,相较于非推理模型,其生成的幻觉(hallucinations)内容明显更多。由于缺乏可靠的验证方法,将在线强化学习(RL)——近期R-LLM进展中的关键组成部分——扩展到长篇事实性场景面临诸多挑战。已有研究利用自动事实性评估框架(如FActScore)在离线RL环境中筛选偏好数据,但直接将此类方法作为在线RL的奖励函数会导致多种形式的奖励操控(reward hacking),例如生成不够详细或不相关的回答。为解决这一问题,本文提出了一种新的奖励函数,同时考虑事实精确度、回答详细程度和回答相关性,并通过在线RL学习高质量的事实性推理能力。在六个长篇事实性基准测试上的评估结果表明,该事实性推理模型平均将幻觉率降低了23.1个百分点,回答详细程度提高了23%,且整体回答的有用性未受影响。这一研究为提升大型语言模型在长篇内容生成中的事实性提供了重要方法,并展示了在线RL在优化复杂语言任务中的潜力。研究结果表明,通过精心设计的奖励机制,可以有效平衡事实性与回答质量,为未来的语言模型优化提供了新的思路。
大型语言模型事实性推理在线强化学习幻觉率奖励函数
关于SFT泛化性的研究:从强化学习视角出发的奖励校正方法
📝 作者: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-H
📄 中文摘要:
本文提出了一种简单但具有理论依据的改进方法,针对大型语言模型(LLM)的监督微调(SFT)在泛化能力上相较于强化学习(RL)的局限性进行了优化。通过数学分析,作者揭示了标准SFT梯度隐含了一种有问题的奖励结构,这种结构可能会严重限制模型的泛化能力。为解决这一问题,作者提出了动态微调(DFT)方法,通过动态调整目标函数中每个token的概率来稳定梯度更新。令人瞩目的是,这一单行代码的改动在多个具有挑战性的基准测试和基础模型上显著优于标准SFT,展现出大幅提升的泛化能力。此外,该方法在离线强化学习环境中也表现出具有竞争力的结果,提供了一种有效且更简洁的替代方案。本研究通过理论洞察与实践解决方案的结合,显著提升了SFT的性能,为大型语言模型的训练提供了新的思路。作者还公开了相关代码以供进一步研究和应用。
监督微调强化学习泛化能力大型语言模型动态微调
多保真强化学习用于四旋翼无人机时间最优重新规划
📝 作者: Gilhyun Ryou, Geoffrey Wang, Sertac Karaman
📄 中文摘要:
高速在线轨迹规划对于无人机(UAV)而言是一个重大挑战,因为需要精确建模复杂的动态特性,同时受到计算资源的限制。本文提出了一种多保真强化学习方法(MFRL),旨在有效构建真实的动态模型,并同时训练一个可在实时应用中部署的规划策略。该方法包括共同训练一个规划策略和一个奖励估计器;后者用于预测策略输出的性能,并通过多保真贝叶斯优化高效训练。这种优化方法建模了不同保真度级别之间的相关性,从而在低保真基础上构建高保真模型,使得奖励模型能够在有限的高保真实验下准确开发。此外,该框架还扩展到在强化学习训练中包含真实世界的飞行实验,使得奖励模型能够精确反映现实世界的约束条件,并拓宽了策略在现实场景中的适用性。作者通过在模拟和真实世界环境中训练和测试规划策略,进行了严格的评估。结果表明,训练得到的策略不仅生成了比基线snap最小化方法更快、更可靠的轨迹,而且平均轨迹更新时间仅为2毫秒,而基线方法需要几分钟。这一方法在时间效率和轨迹质量上均表现出显著优势,为无人机实时轨迹规划提供了重要的技术支持,具有较高的实际应用价值。
多保真强化学习四旋翼无人机轨迹规划实时应用贝叶斯优化
推进多器官疾病护理:一种分层多智能体强化学习框架
📝 作者: Daniel J. Tan, Qianyi Xu, Kay Choong See, Dilruk Perera, Mengling Feng
📄 中文摘要:
在医疗领域,多器官系统疾病因同时影响多个生理系统而带来独特且重大的挑战,需要复杂且协调的治疗策略。尽管基于人工智能的临床决策支持系统近年来取得了进展,但现有解决方案仅关注单个器官系统,未能考虑器官之间的复杂相互依赖性。这种狭窄的视角极大地限制了其在现实环境中推荐全面且临床可行的治疗方案的有效性。为解决这一关键差距,本研究提出了一种新颖的分层多智能体强化学习(HMARL)框架。该框架为每个器官系统部署专门的智能体,并通过智能体间的通信促进跨器官系统的协同决策。此外,研究引入了一种双层状态表示技术,从全局和器官特定层面情境化患者状况,从而提高治疗决策的准确性和相关性。本研究在脓毒症管理这一常见且关键的多器官疾病任务上评估了HMARL框架,采用定性和定量指标进行验证。结果表明,该方法学习到了有效的、与临床一致的治疗策略,显著提高了患者的存活率。研究认为,该框架在临床决策支持系统领域代表了重大进步,首次提出了明确针对多器官治疗推荐的强化学习解决方案,超越了现有过于简化的单器官模型,无法应对多器官疾病复杂性的局限。
多器官疾病强化学习临床决策支持智能体通信脓毒症管理
RLTHF:针对大语言模型对齐的目标性人类反馈
📝 作者: Yifei Xu, Tusher Chakraborty, Emre K{\i}c{\i}man, Bibek Aryal, Eduardo Rodrigues, Srinagesh Sharma,
📄 中文摘要:
大语言模型(LLM)的微调以适应用户偏好是一项挑战,主要由于强化学习中人类反馈(RLHF)所需的高质量人类标注成本高昂,以及AI反馈的泛化能力受限。为解决这些问题,本文提出了一种名为RLTHF的人机混合框架,该框架结合了基于LLM的初步对齐与选择性人类标注,以最小的努力实现与全人类标注相当的对齐效果。RLTHF通过利用奖励模型的奖励分布识别LLM错误标注的难以标注样本,并通过整合策略性的人类校正和利用LLM正确标注的样本,迭代增强对齐效果。在HH-RLHF和TL;DR数据集上的评估表明,RLTHF仅需6-7%的人类标注工作量即可达到全人类标注水平的对齐效果。此外,使用RLTHF精心 curation 的数据集训练的下游任务模型表现优于使用全人类标注数据集训练的模型,这凸显了RLTHF的有效性。研究结果表明,RLTHF在减少人类标注成本的同时,显著提升了大语言模型的对齐质量,为高效对齐方法提供了新的思路。其方法论不仅在理论上具有创新性,而且在实际应用中展现了显著的潜力,尤其是在资源受限的情况下优化模型性能。
大语言模型人类反馈强化学习模型对齐人机混合
R2Vul:通过强化学习和结构化推理蒸馏学习推理软件漏洞
📝 作者: Martin Weyssow, Chengran Yang, Junkai Chen, Ratnadira Widyasari, Ting Zhang, Huihui Huang, Huu Hung
📄 中文摘要:
本文提出了一种名为R2Vul的新方法,旨在通过结合人工智能反馈的强化学习(RLAIF)和结构化推理蒸馏,训练小型代码大语言模型(LLMs)检测软件漏洞并生成安全意识的解释。研究背景源于当前大型语言模型在软件漏洞检测中表现出色,但其推理能力仍不稳定。R2Vul通过RLAIF奖励基于充分依据的漏洞解释,而非表面上合理的解释,从而提升检测精度和推理质量。为支持RLAIF,作者构建了首个多语言漏洞检测偏好数据集,包含18,000个高质量样本,覆盖C#、JavaScript、Java、Python和C五种编程语言。研究方法包括在五种编程语言上评估R2Vul,并与四种静态分析工具、八种基于LLM的最新基线以及多种微调方法进行对比。关键发现表明,1.5B参数的R2Vul模型在性能上超越了其32B参数的教师模型以及Claude-4-Opus等领先的商业LLM。此外,作者引入了一种轻量级校准步骤,有效降低了不同不平衡数据分布下的误报率。最后,通过定性分析,R2Vul模型的推理质量在LLM和人类评估者中均获得较高评价,优于其他基于推理的基线。结论指出,R2Vul在软件漏洞检测和推理生成方面展现出显著优势,为小型模型在安全领域的应用提供了新思路。
软件漏洞检测强化学习大语言模型结构化推理安全解释
RLSR:基于自我奖励的强化学习
📝 作者: Toby Simonds, Kevin Lopez, Akira Yoshiyama, Dominique Garmier
📄 中文摘要:
本研究提出了一种基于自我奖励的强化学习方法(RLSR),旨在解决大型语言模型(LLM)在复杂问题求解中的训练难题。传统的强化学习方法通常依赖于可验证的奖励信号,但此类奖励的创建成本高昂,且在某些领域中难以实现。研究通过利用生成解决方案与验证解决方案之间的固有不对称性,展示了LLM能够在无参考答案的情况下通过自我评判实现有效的自我改进。实验结果表明,即使没有真实答案作为依据,模型仍能提供可靠的奖励信号,从而在奖励验证不切实际的领域中实现强化学习。本研究在Countdown谜题和积分问题上实施了自我评判机制,取得了与正式验证相当的性能,而无需依赖真实答案。尤为值得注意的是,经过自我奖励训练的Qwen 2.5 7B DeepSeek Distilled模型成功达到了MIT积分蜂竞赛的资格标准,展现了通过自监督改进实现的卓越性能。此外,通过结合合成问题生成技术,研究建立了一个完整的自我改进循环:模型能够生成练习问题、解决问题并自我评估性能,而无需任何外部验证。研究发现表明,LLM作为评判者可以提供有效的奖励信号,为训练过程提供支持,从而在因奖励工程难题而受限的众多领域中开启了强化学习的应用。这项工作标志着自主AI系统迈向通过自我指导学习持续改进的重要一步,而非依赖人类指导的训练,可能加速在训练数据稀缺或评估复杂的领域中的研究进展。
强化学习自我奖励大型语言模型自我评判自监督学习
MAGIK:通过想象启发的知识迁移实现类比目标映射
📝 作者: Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana
📄 中文摘要:
人类在类比推理方面表现出色,能够将一个任务的知识应用到相关任务上,且只需极少的重新学习。然而,强化学习(RL)代理通常需要在新任务上进行大量重新训练,即使新任务与之前学习过的任务具有结构相似性。本研究提出了一种名为MAGIK的新颖框架,使强化学习代理能够在不与目标环境交互的情况下,将知识迁移到类比任务中。MAGIK方法利用一种想象机制,将目标任务中的实体映射到源域中的对应类比实体,从而允许代理重用其原始策略。研究在自定义的MiniGrid和MuJoCo任务上进行了实验,结果表明,MAGIK仅使用少量人类标注的示例即可实现有效的零样本迁移。作者将MAGIK与相关基线方法进行了比较,强调了其通过基于想象的类比映射提供了一种新颖且有效的知识迁移机制。实验结果显示,MAGIK在不依赖目标环境交互的情况下,显著提高了知识迁移的效率,特别是在任务结构相似但具体实体不同的场景中表现出色。研究结论表明,MAGIK为强化学习中的类比推理和知识迁移提供了一种有前景的解决方案,可能对未来的多任务学习和泛化能力研究产生重要影响。
强化学习知识迁移类比推理想象机制零样本学习
面向语言增强的多智能体深度强化学习
📝 作者: Maxime Toquebiau, Jae-Yun Jun, Fa\"iz Benamar, Nicolas Bredeche
📄 中文摘要:
本文研究了如何通过将智能体与人类定义的语言相结合来提升多智能体深度强化学习中的学习效率与协调能力。传统多智能体强化学习中的通信研究多集中于涌现通信(emergent communication),但这种方式往往导致系统效率低下且缺乏可解释性。受自然智能中语言作用的启发,作者提出了一种新框架,使智能体不仅能够执行动作,还能生成并理解关于其观察的自然语言描述。这种语言增强的学习机制具有双重作用:一方面,它实现了智能体之间高效且可解释的通信;另一方面,它指导了智能体内部表征的学习过程。实验结果表明,语言增强的智能体在多种任务中显著优于基于涌现通信的基准方法。进一步分析显示,语言 grounding 使得智能体的内部表征更具信息量,对新伙伴的泛化能力更强,并且提升了与人类的交互能力。这些发现验证了将结构化语言融入多智能体学习系统的有效性,为构建更具可解释性和能力的多智能体系统开辟了新的研究方向。本研究不仅在理论上具有创新性,还为实际应用中智能体协作和人机交互提供了重要启示。
多智能体强化学习语言增强自然语言处理通信效率可解释性
面向多模态推理的感知优化策略
📝 作者: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yan
📄 中文摘要:
本文研究了如何通过强化学习提升大型语言模型(LLMs)在多模态推理任务中的表现。传统的强化学习与可验证奖励(RLVR)方法在纯文本领域表现出色,但在多模态推理中效果不佳,尤其是在视觉输入的感知环节存在显著误差。为解决这一问题,作者提出了PAPO(Perception-Aware Policy Optimization),一种新型策略梯度算法,通过在学习推理的同时鼓励模型学习感知能力,显著提升性能。具体而言,PAPO引入了隐式感知损失(Implicit Perception Loss),以KL散度形式融入主流RLVR算法(如GRPO和DAPO)中,无需额外数据收集、奖励模型或更强的教师模型支持。此外,为增强训练稳定性,作者设计了双重熵损失(Double Entropy Loss),有效正则化新的KL目标,同时保持性能。在多个多模态基准测试中,PAPO带来了4.4%-17.5%的整体性能提升,尤其在视觉依赖性较高的任务上,改进幅度达到8.0%-19.1%。同时,感知错误率降低了30.5%,表明PAPO显著提升了模型的感知能力。总体而言,本研究通过将感知监督深度融入核心学习目标,为视觉 grounding 的推理奠定了新的强化学习框架基础。作者还公开了代码和数据以支持进一步研究。
多模态推理强化学习感知优化大型语言模型视觉 grounding
Chart-R1:基于思维链监督和强化学习的先进图表推理模型
📝 作者: Lei Chen, Xuanle Zhao, Zhixiong Zeng, Jing Huang, Yufeng Zhong, Lin Ma
📄 中文摘要:
近年来,受OpenAI-o1/o3和Deepseek-R1的启发,基于强化学习微调的R1-Style方法在学术界引起了广泛关注。此前,R1-Style方法主要集中于数学推理和代码智能领域,而在更通用的多模态数据上的应用优势尚未得到充分验证。图表作为一种信息丰富的重要多模态数据类型,在复杂推理任务中带来了重要的研究挑战。本研究提出了Chart-R1,一种面向图表领域的视觉-语言模型,通过强化学习微调实现复杂的图表推理能力。为了支持Chart-R1的开发,研究团队首先提出了一种新颖的程序化数据合成技术,生成覆盖单一和多子图表的高质量逐步推理数据,弥补了图表领域推理数据的不足。接着,团队设计了两阶段训练策略:一是Chart-COT,通过逐步的思维链监督,将复杂的图表推理任务分解为细粒度、可理解的子任务,为提升强化学习推理水平奠定基础;二是Chart-RFT,采用数值敏感的强化微调策略,利用群体相对策略优化方法,并针对数值响应设计相对柔和的奖励机制,强调图表领域的数值敏感性。在开源基准数据集和自建图表推理数据集(ChartRQA)上进行的广泛实验表明,Chart-R1相较于现有图表领域方法具有显著优势,甚至可与开源和闭源的大型模型(如GPT-4o、Claude-3.5)相媲美。研究结果验证了R1-Style方法在多模态数据上的潜力,为图表推理领域提供了新的技术路径和研究视角。
图表推理强化学习思维链监督多模态学习数值敏感性
分层预算策略优化用于自适应推理
📝 作者: Shangke Lyu, Linjuan Wu, Yuchen Yan, Xingyu Wu, Hao Li, Yongliang Shen, Peisheng Jiang, Weiming Lu,
📄 中文摘要:
本文提出了一种名为分层预算策略优化(Hierarchical Budget Policy Optimization, HBPO)的强化学习框架,旨在解决大型推理模型在处理不同复杂性问题时普遍存在的效率低下问题。大型推理模型通过广泛的思维链生成取得了显著的性能,但其不加区分地对所有问题应用同等程度的推理深度,导致资源浪费。HBPO通过将探索空间划分为预算受限的层级(512-2560个token),并为每个层级设计差异化的奖励结构,使模型能够在不牺牲推理能力的前提下学习针对特定问题的推理深度。与现有的强制性约束或离散模式选择方法不同,HBPO避免了传统长度惩罚导致的探索空间崩溃问题,即模型系统性地偏离必要的长推理路径。HBPO通过分层采样和预算感知奖励机制,保持了探索多样性,同时教会模型识别何时需要扩展推理深度。大量实验表明,HBPO在四个推理基准测试中平均减少了高达60.6%的token使用量,同时将准确率提高了3.14%。更重要的是,HBPO展现出一种自适应行为,模型能够根据问题复杂性自动调整推理深度。研究结果表明,推理效率与能力并非固有冲突,通过适当结构化的分层训练可以在保持探索多样性的同时实现两者的优化。这一框架为高效推理训练提供了新的视角和方法,具有重要的理论和应用价值。
分层预算策略优化自适应推理强化学习推理效率思维链
SafeWork-R1:在AI-45°法则下安全与智能的协同进化
📝 作者: Shanghai AI Lab, :, Yicheng Bao, Guanxu Chen, Mingkang Chen, Yunhao Chen, Chiyu Chen, Lingjie Chen,
📄 中文摘要:
本文介绍了SafeWork-R1,一种前沿的多模态推理模型,展示了能力与安全的协同进化。该模型通过作者提出的SafeLadder框架开发,该框架结合了大规模、渐进式的、以安全为导向的强化学习后训练,并由一系列多原则验证器提供支持。与传统的对齐方法(如RLHF,仅学习人类偏好)不同,SafeLadder使SafeWork-R1能够发展出内在的安全推理和自我反思能力,催生了安全方面的‘顿悟’时刻。值得注意的是,SafeWork-R1在其基础模型Qwen2.5-VL-72B的基础上,在安全相关基准测试中平均提升了46.54%,且未损害通用能力,相较于领先的专有模型(如GPT-4.1和Claude Opus 4)展现了最先进的安全性能。为了进一步增强其可靠性,作者实现了两种不同的推理时干预方法和一种审慎搜索机制,强制执行步骤级别的验证。此外,作者还开发了SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-Qwen2.5VL-7B等模型。所有结果模型均表明,安全性和能力可以协同进化,凸显了该框架在构建健壮、可靠和可信的通用人工智能方面的普适性。本研究为人工智能安全领域提供了重要的理论和实践贡献,展示了通过创新框架实现安全与智能平衡的可能性,为未来AI系统的设计和部署奠定了基础。
人工智能安全协同进化多模态推理强化学习安全框架
通过可验证奖励实现卫星影像的少样本视觉-语言推理
📝 作者: Aybora Koksal, A. Aydin Alatan
📄 中文摘要:
近年来,大型语言模型和视觉-语言模型的进步显著提升了推理能力,但在遥感等专业领域,由于标注数据稀缺且成本高昂,这些模型的实际应用仍受限。本研究提出了首个针对卫星影像的少样本强化学习与可验证奖励(RLVR)框架,该框架无需字幕监督,仅依赖轻量级的基于规则的二元或IoU奖励机制。通过将语言模型中的'1-shot RLVR'范式适应到视觉-语言模型中,本研究采用策略梯度优化方法,仅用一个精心挑选的示例即可对卫星推理任务的模型输出进行对齐。在多个遥感基准测试(包括分类、视觉问答和定位)上的广泛实验表明,即使仅使用单个示例,模型性能也能显著优于基础模型。当示例数量扩展至128个时,模型性能可媲美甚至超越基于数千个标注样本训练的模型。尽管极端的一样本设置可能导致轻微的任务特定过拟合,但本方法在不同任务中始终展现出强大的泛化能力和高效性。此外,研究发现提示设计和损失加权对训练稳定性和最终精度有显著影响。本方法为数据稀缺领域提供了经济高效且数据高效的视觉-语言推理模型开发方案,提出了一种实用的策略:从紧凑的视觉-语言模型出发,精选少量可验证奖励的案例,并通过RLVR进行训练。这一框架为遥感等专业领域的模型开发提供了重要参考。
少样本学习视觉-语言推理卫星影像强化学习可验证奖励
流动控制中的注意力机制:基于Transformer的强化学习用于高扰动流动中的升力调节
📝 作者: Zhecheng Liu (University of California, Los Angeles), Jeff D. Eldredge (University of California, Lo
📄 中文摘要:
本研究提出了一种基于Transformer的强化学习(RL)框架,用于通过俯仰控制在任意长度的阵风序列中调节空气动力学升力。研究背景在于,针对弱扰动设计的线性流动控制策略在强扰动序列中由于非线性相互作用可能失效,因此需要开发更有效的控制策略。阵风产生的间歇性、高方差流动仅通过有限的表面压力传感器观测,相较于稳定流动,这一控制问题具有固有的挑战性。Transformer模型通过处理有限表面压力数据有效应对部分可观测性的挑战。研究中采用了两种技术加速训练:一是利用专家策略(即线性控制)进行预训练,二是任务级迁移学习(即将针对孤立阵风训练的策略扩展到多阵风场景)。结果表明,学习到的策略优于最佳比例控制,且随着阵风数量的增加,性能差距进一步扩大。在少量连续阵风环境中学习的控制策略被证明能够有效泛化到任意长度的阵风序列环境。此外,研究还探讨了枢轴配置,发现四分之一弦长俯仰控制相较于中弦俯仰控制能够以显著更少的控制努力实现更优的升力调节。通过升力分解分析,这一优势归因于四分之一弦长俯仰控制能够主导附加质量贡献。本研究为高扰动流动中的升力控制提供了创新性解决方案,并展示了Transformer结合强化学习在复杂流动控制问题中的潜力。
流动控制强化学习Transformer升力调节阵风序列
基于强化学习的自适应k空间径向采样用于心脏MRI
📝 作者: Ruru Xu, Ilkay Oksuz
📄 中文摘要:
加速磁共振成像(MRI)需要在采集速度和图像质量之间优化k空间采样模式。尽管深度学习在优化笛卡尔采样方面已取得显著进展,但强化学习(RL)在非笛卡尔轨迹优化中的潜力尚未被充分探索。本研究提出了一种新颖的强化学习框架,用于优化心脏MRI中的径向采样轨迹。该方法采用双分支架构,同时处理k空间和图像域信息,并通过交叉注意力融合机制促进两个域之间的有效信息交换。框架还结合了解剖学感知的奖励设计和黄金比例采样策略,以确保k空间覆盖的均匀性,同时保留心脏结构细节。实验结果表明,该方法能够在多种加速因子下有效学习最优径向采样策略,与传统方法相比,显著提高了重建质量。本研究为非笛卡尔轨迹优化提供了新的思路,可能推动加速MRI技术在临床应用中的进一步发展,尤其是在心脏成像领域具有重要意义。作者还公开了相关代码,便于后续研究和验证。
强化学习心脏MRIk空间采样径向轨迹图像重建
基于领域的强化学习度量:基于代理仿真的流行病控制案例研究
📝 作者: Rishabh Gaur, Gaurav Deshkar, Jayanta Kshirsagar, Harshal Hayatnagarkar, Janani Venugopalan
📄 中文摘要:
本文针对基于代理的模型(ABMs)和理性基于代理的模型(RABMs)的开发与优化,探讨了强化学习(RL)算法的应用及其性能评估问题。由于建模系统的复杂性和随机性,以及缺乏用于比较RL算法的标准化度量标准,评估RL驱动的ABM和RABM模型的性能具有挑战性。本研究提出了一种基于领域的强化学习度量方法(Domain-driven-RL-metrics),并在现有最先进的度量基础上进行扩展。通过一个理性ABM疾病建模案例研究,作者展示了该方法在流行病控制中的应用,具体包括口罩佩戴行为、疫苗接种和封锁政策的优化。研究通过不同仿真场景(如口罩供应的差异性)测试了基于领域驱动的奖励机制与传统及最先进度量的结合使用效果。结果表明,基于领域的度量能够有效捕捉特定领域内的关键性能指标,为强化学习算法在复杂系统中的应用提供了新的评估视角。此外,本文还讨论了该方法在政策优化中的潜在价值,特别是在公共卫生危机管理中的适用性,为未来的研究奠定了基础。作者强调,结合领域知识定制度量标准有助于提高模型的解释性和实用性,尤其是在需要平衡多目标优化的场景中。
强化学习基于代理的模型流行病控制领域驱动度量政策优化
通过强化学习增强代码大语言模型在代码生成中的应用:一项综述
📝 作者: Junqiao Wang, Zeng Zhang, Yangfan He, Zihao Zhang, Xinyuan Song, Yuyang Song, Tianyu Shi, Yuchen Li,
📄 中文摘要:
随着大型语言模型(LLM)的快速发展,强化学习(RL)已成为代码生成和优化领域的重要技术。本文系统性地综述了强化学习在代码优化和生成中的应用,重点探讨了其在编译器优化、资源分配以及框架和工具开发中的作用。论文首先深入分析了编译器优化的复杂过程,阐述了强化学习算法如何被用于提高效率和资源利用率。接着,讨论了强化学习在资源分配中的功能,特别强调了寄存器分配和系统优化的重要性。此外,本文还探索了框架和工具在代码生成中日益增长的作用,研究了如何通过集成强化学习来增强其能力。本综述详细梳理了强化学习在代码生成和优化技术中的应用现状,分析了其优势与挑战,并指出了未来的研究方向,包括如何进一步结合强化学习与大语言模型以应对复杂的代码生成任务,以及如何优化算法以适应不同的应用场景。本文旨在为对利用强化学习推动代码生成和优化技术发展的研究人员和从业者提供全面的资源参考。通过对现有文献的系统性回顾,本文总结了强化学习在提升代码生成质量和效率方面的关键发现,并强调了其在实际应用中的潜力与局限性,为后续研究提供了重要的理论基础和实践指导。
强化学习代码生成大语言模型编译器优化资源分配
通过强化学习与不确定的用户指导实现复杂模型转换
📝 作者: Kyanna Dagenais, Istvan David
📄 中文摘要:
模型驱动工程问题通常需要复杂的模型转换(MTs),即以长序列链式连接的转换过程。这类问题的典型例子包括模型同步、自动化模型修复和设计空间探索。手动开发复杂的模型转换是一个容易出错且往往不可行的过程。强化学习(RL)是一种有效的缓解方法,通过自主代理在状态空间中通过试错探索,识别有益的动作序列(如模型转换)。然而,强化学习方法在复杂问题中表现出性能问题,在这些情况下,人类的指导具有很高的实用价值。本文提出了一种方法和技术框架,通过强化学习在可能不确定的用户建议指导下开发复杂的模型转换序列。我们的框架允许用户定义的模型转换映射到强化学习原语上,并将其作为强化学习程序执行以找到最优的模型转换序列。评估结果表明,即使是存在不确定性的人类指导,也能显著提升强化学习的性能,并使复杂模型转换的开发更加高效。通过在人类建议的确定性和及时性之间进行权衡,我们的方法为强化学习驱动的人机协同工程方法迈出了重要一步。研究的关键发现是,结合人类指导的强化学习能够在复杂模型转换任务中取得更好的结果,同时减少开发时间和错误率。结论指出,这种方法为未来的模型驱动工程提供了新的可能性,尤其是在需要高效解决复杂问题的场景中。
模型转换强化学习人类指导模型驱动工程软件工程