← 返回总览
29
论文总数
29
高分论文
7.9
平均评分
7
关键词数
在线设置下近乎最优的分布鲁棒强化学习
📝 作者: Debamita Ghosh, George K. Atia, Yue Wang
📄 中文摘要:
本文研究了在线设置下的分布鲁棒强化学习(Distributionally Robust Reinforcement Learning, DRRL),旨在解决强化学习(RL)在现实世界部署中由于模拟到现实的差距(sim-to-real gap)导致的性能下降问题。传统的强化学习策略在训练与部署环境不匹配时往往表现不佳,而分布鲁棒强化学习通过优化不确定环境集合中的最差性能,提供部署性能的下界保证。然而,现有研究通常假设能够访问生成模型或覆盖广泛的离线数据集,这些假设在未知环境中并不现实。本文聚焦于更具挑战性的在线分布鲁棒强化学习场景,其中智能体仅与单一未知训练环境交互,同时优化其最差性能。研究针对基于一般f-散度(如χ2散度和KL散度)的不确定性集合,提出了一种计算高效的算法RVI-f,并证明其具有次线性遗憾保证(sublinear regret guarantees),且在最小假设下实现了近乎最优的样本复杂度。此外,本文建立了在线学习的minimax遗憾下界,表明所提出的算法在χ2散度集合下近乎minimax最优,在KL散度集合下也接近下界。广泛的实验验证了算法在不同环境下的鲁棒性和效率,支持了理论发现。研究结果为在线分布鲁棒强化学习提供了重要的理论保障,并为处理大规模问题和函数逼近的鲁棒学习开辟了新的研究方向。
分布鲁棒强化学习在线学习f-散度遗憾界样本复杂度
强化学习用于目标区间血糖控制
📝 作者: David H. Mguni, Jing Dong, Wanrong Yang, Ziquan Liu, Muhammad Salman Haleem, Baoxiang Wang
📄 中文摘要:
本研究提出了一种新型强化学习(RL)框架,用于解决医疗健康领域中慢性疾病管理中的决策问题,特别是在1型糖尿病(T1DM)的血糖控制中。研究背景聚焦于T1DM患者需要通过快速作用(如餐前胰岛素注射)和长效作用(如基础胰岛素注射)的干预手段,将血糖水平(BGL)维持在临床安全的目标区间内,而传统RL方法难以处理干预措施的延迟和异质性效应。作者设计了一种结合脉冲控制(用于快速干预)和切换控制(用于长效治疗)的受限马尔可夫决策过程(CMDP),并通过生理状态特征增强模型,以在临床和资源约束下实现安全策略学习。该框架考虑了胰岛素衰减等生物学因素,使策略更贴近真实世界治疗行为。关键发现包括,该方法在模拟T1DM控制任务中显著降低了血糖水平违规率,从现有技术的22.4%降至最低10.8%,同时在目标区间内的时间占比(TIR)提升至最高89.2%,并完全避免了低血糖事件(TBR为0%)。此外,研究提供了理论收敛保证,证明了框架在离散设置下的最优值函数收敛性。结论指出,尽管该框架目前不适用于临床部署,但为未来安全且时间感知的医疗RL奠定了基础,并指出了对缺失观测(如碳水化合物摄入)敏感性的局限性,提出未来改进方向。
强化学习血糖控制1型糖尿病马尔可夫决策过程医疗决策
SOTOPIA-RL:社会智能的奖励设计
📝 作者: Haofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Ha
📄 中文摘要:
本文提出了一种名为SOTOPIA-RL的新型强化学习(RL)框架,旨在提升大型语言模型(LLM)在社会智能任务中的表现,如适应、说服、协作和谈判。研究背景源于社会智能对LLM在现实世界社交任务中有效互动的重要性,而传统的基于马尔可夫决策过程(MDP)的RL方法由于社会互动的部分可观测性和多维性特征,在训练中面临信用分配困难和奖励设计不稳定的问题。为解决这些挑战,SOTOPIA-RL通过将粗粒度的回合级反馈细化为语句级、多维度的奖励机制,改进了训练效率和稳定性。语句级信用分配通过将结果归因于单个语句,缓解了部分可观测性问题;多维度奖励则捕捉了社会互动的丰富性(如建立关系、寻求知识等),减少了奖励操控的风险。研究在SOTOPIA这一开放式社会学习环境中进行了实验,验证了SOTOPIA-RL在社会目标完成度上取得了最先进的成绩(在SOTOPIA-hard数据集上得分为7.17,在SOTOPIA-full数据集上得分为8.31),显著优于现有方法。消融研究进一步证实了语句级信用分配和多维度奖励设计对RL训练的必要性。此外,研究还展示了该框架在不同评估者和伙伴模型下的鲁棒性,并通过人类评估验证了其性能提升的真实性,而非奖励操控的结果。结论指出,任务对齐的奖励建模对社会互动中的RL至关重要,未来可扩展至个性化奖励和多智能体群体设置,以支持更复杂的应用场景。
社会智能强化学习大型语言模型奖励设计SOTOPIA
一种用于计算能力网络中协调任务调度与电力调度的分层协同优化框架
📝 作者: Haoxiang Luo, Kun Yang, Qi Huang, Schahram Dustdar
📄 中文摘要:
随着人工智能和数据密集型应用的激增,计算能力网络(CPNs)作为一种新兴范式,旨在提供无处不在的按需计算资源。然而,CPNs的高能耗对可持续性构成重大挑战,同时电力系统因可再生能源(RES)高渗透率而面临不稳定性问题。本文提出了一种新颖的两阶段协同优化(TSCO)框架,通过协同管理电力系统调度和CPN任务调度,实现低碳运行。该框架将复杂的优化问题分解为两个阶段:日前随机机组组合(SUC)阶段和实时运行阶段。日前阶段采用Benders分解方法解决大规模问题,确保计算可行性;实时阶段结合经济调度与基于深度强化学习(DRL)的自适应CPN任务调度,DRL代理根据动态电网条件(如实时电价和边际碳强度)做出智能的碳感知决策。通过在IEEE 30节点系统与CPN集成的广泛仿真,TSCO框架显著优于基准方法。结果表明,该框架在降低总碳排放和运行成本的同时,将可再生能源削减量减少了超过60%,并保持了计算任务的高服务质量(QoS,任务成功率超过98.5%)。此外,TSCO通过将CPN作为灵活负载,吸收多余的可再生能源,展现了其在电网稳定中的潜力。本研究为电力系统运营商和计算基础设施所有者提供了重要启示,表明通过紧密集成可实现经济、环境和计算性能的多重收益。
计算能力网络可再生能源碳感知调度深度强化学习电力系统优化
RLGS:基于强化学习的自适应高斯分裂超参数调优
📝 作者: Zhan Li, Huangying Zhan, Changyang Li, Qingan Yan, Yi Xu
📄 中文摘要:
本文提出了一种名为RLGS的强化学习框架,用于3D高斯分裂(3D Gaussian Splatting, 3DGS)中的自适应超参数调优。3DGS是一种高效的新视图合成方法,但其性能高度依赖于学习率和致密化阈值等超参数的设置,而这些参数的调优通常是劳动密集型且依赖专家经验的过程。RLGS通过轻量级策略模块,将超参数调优建模为在线决策问题,利用强化学习动态调整关键超参数,如学习率和致密化阈值。该框架具有模型无关性,可无缝集成到现有的3DGS流程中,无需架构修改。研究表明,RLGS在多个先进的3DGS变体(如Taming-3DGS和3DGS-MCMC)以及不同数据集上均表现出良好的泛化能力。例如,在Tanks and Temple (TNT) 数据集上,RLGS在固定高斯预算下将Taming-3DGS的PSNR提高了0.7dB,并且在基线性能饱和时仍能持续提升渲染质量。实验还表明,RLGS在大规模真实世界数据集DL3DV-140上实现了稳定的性能提升,并在视觉细节保留方面优于基线方法。作者进一步通过消融研究验证了框架中各组件(如学习率和致密化策略模块)的有效性。RLGS为3DGS训练中的超参数调优提供了一种自动化解决方案,填补了强化学习在3DGS应用中的空白。然而,当前策略网络作为黑箱运作,决策解释性有限,未来工作将探索更具可解释性的架构和更广泛的自适应控制策略。总体而言,RLGS为提升3DGS渲染质量和效率提供了一种有效且通用的方法。
强化学习3D高斯分裂超参数调优新视图合成计算机图形学
一致性感知策略优化:COPO框架
📝 作者: Jinghang Han, Jiawei Chen, Hang Shao, Hao Ma, Mingcheng Li, Xintian Shen, Lihao Zheng, Wei Chen, Tao
📄 中文摘要:
本文提出了一种新颖的一致性感知策略优化框架(COPO),旨在解决强化学习(RL)中应用于大型语言模型(LLM)复杂问题求解时遇到的挑战,特别是基于群体相对策略优化(GRPO)方法中的梯度消失和样本浪费问题。研究背景源于近期DeepSeek R1等工作的启发,强调基于规则的奖励机制作为低成本优势函数计算和策略优化的替代方案。然而,现有GRPO方法在单一提示下多个采样响应趋于一致时(无论正确与否),群体优势值会退化为零,导致梯度消失,影响训练效率和下游性能。针对这一问题,COPO引入了基于结果一致性的结构化全局奖励机制,确保即使模型输出在组内高度一致,训练过程仍能获得有效的学习信号,从而从全局视角鼓励生成正确且自洽的推理路径。此外,作者设计了一种基于熵的软混合机制,自适应地平衡局部优势估计与全局优化,在训练过程中实现探索与收敛的动态转换。实验结果表明,COPO在多个数学推理基准测试中显著提升了性能,验证了该框架的鲁棒性和广泛适用性。研究还通过消融实验深入探讨了GRPO训练方案的改进方向,为该领域提供了重要见解。所有资源已公开发布,代码可在GitHub获取。
一致性感知策略优化强化学习大型语言模型数学推理
基于代理AI的数学框架用于电力分配系统规划与运营中能源韧性的商业化
📝 作者: Aniket Johri, Divyanshi Dwivedi, Mayukha Pal
📄 中文摘要:
本文提出了一种创新的数学框架,旨在解决电力分配系统在极端天气事件和网络威胁下的脆弱性问题,重点在于通过市场驱动机制实现能源韧性的商业化。研究背景源于现代电力系统面临的双重挑战:可再生能源渗透率的增加和极端事件频率的上升,这些因素促使系统规划从传统可靠性转向全面韧性策略。现有方法主要关注技术韧性指标和增强策略,但缺乏有效的市场机制来优化韧性资源的部署。本文引入了一种基于双代理近端策略优化(PPO)的框架,通过深度强化学习(DRL)实现动态电网切换优化。其中,战略代理选择最优的分布式能源(DER)驱动切换配置,而战术代理在预算和天气约束下微调单个开关状态和电网偏好。研究在自定义动态仿真环境中进行,模拟随机灾难事件、预算限制和韧性-成本权衡,设计了综合奖励函数以平衡韧性增强目标与市场盈利能力。结果显示,在10个测试场景中,框架平均韧性得分为0.85±0.08,效益-成本比为0.12±0.01,85%的灾难步骤中选择了配置至少4个DER的方案,证明了可持续的市场激励机制。结论表明,该框架通过韧性定价引导资源高效分配,将韧性转化为创收的公用事业服务,为电力系统规划和运营提供了新的视角,并为市场运营商和系统规划者提供了实用工具,以在成本效益和供电安全之间取得平衡。
电力系统韧性近端策略优化深度强化学习韧性商业化预算约束优化
通过强化学习在合成世界中增强视觉-语言模型训练以实现现实世界的成功
📝 作者: George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov
📄 中文摘要:
本研究聚焦于交互式多模态代理如何将原始视觉观察转化为连贯的语言条件动作序列,这是当前视觉-语言模型(VLMs)普遍缺乏的能力。过往的强化学习(RL)方法理论上可以赋予VLMs此类技能,但其训练行为的泛化能力鲜有验证,且依赖于脆弱的超参数调整或高密度奖励的低状态变化环境。本文提出了一种轻量级、无需超参数调整的强化学习算法——视觉-语言解耦演员-评论家(VL-DAC)。VL-DAC通过PPO更新应用于动作标记,同时仅在环境步长级别学习价值函数,这种解耦设计消除了不稳定的加权项,实现了更快、更可靠的收敛。本研究在多个低成本模拟器(如MiniWorld、Gym-Cards、ALFWorld和WebShop)中单独训练单一VLM,生成的策略展现出广泛的泛化能力:在BALROG(游戏中心代理控制)基准上相对提升50%,在VSI-Bench(空间规划)最难部分相对提升5%,在VisualWebBench(网页导航)上相对提升2%,且未降低通用图像理解的准确性。这些结果首次证明,简单的强化学习算法可在廉价合成世界中完全训练VLMs,同时在真实图像的代理控制、空间推理和网页导航基准上带来可测量的性能提升。这一方法为VLMs的训练提供了一种高效且经济的新路径,具有重要的应用潜力。
视觉-语言模型强化学习合成世界泛化能力多模态代理
合成POMDP以挑战记忆增强型强化学习:记忆需求结构建模
📝 作者: Yongyi Wang, Lingfeng Li, Bozhou Chen, Ang Li, Hanyu Liu, Qirui Zheng, Xionghui Yang, Wenxin Li
📄 中文摘要:
本文研究了记忆增强型强化学习(RL)算法的基准测试问题,提出了一种新的方法来构建部分可观察马尔可夫决策过程(POMDP)环境,以评估智能体在依赖过去观察进行决策时的表现。现有基准测试虽然包含了复杂的现实世界问题,但缺乏对记忆模型挑战程度的控制能力。相比之下,合成环境允许对动态进行细粒度的操控,这对于记忆增强型强化学习的详细和严格评估至关重要。本研究聚焦于POMDP的合成,提出了三项主要贡献:首先,开发了一种系统化的方法来构建具有可控记忆需求的POMDP环境,从而能够精确调整对记忆模型的挑战程度;其次,设计了多种记忆需求结构模型,用于模拟不同的记忆依赖模式,帮助揭示记忆增强型RL算法在不同场景下的表现差异;最后,通过实验验证了合成POMDP环境在评估记忆增强型RL算法时的有效性,展示了其在揭示算法局限性和改进方向方面的潜力。研究结果表明,合成环境不仅能够提供可控的测试平台,还能为算法设计提供有价值的洞察。作者强调,这种方法有助于推动记忆增强型强化学习领域的发展,为未来的研究奠定了基础,尤其是在需要处理复杂历史依赖问题的应用场景中具有重要意义。
强化学习记忆增强POMDP合成环境记忆需求
TempFlow-GRPO:流模型中GRPO的时间重要性研究
📝 作者: Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang
📄 中文摘要:
近年来,文本到图像生成的流匹配模型在质量上取得了显著进步,但其与强化学习的整合在人类偏好对齐方面仍不理想,限制了基于奖励的细粒度优化。研究发现,现有方法中时间均匀性假设是阻碍流模型有效GRPO(生成式强化策略优化)训练的关键因素:稀疏的终端奖励和均匀的信用分配无法捕捉生成时间步中决策重要性的变化,导致探索效率低下和次优收敛。为解决这一问题,本文提出了TempFlow-GRPO(时间流GRPO),一个原则性的GRPO框架,旨在捕捉并利用流生成中固有的时间结构。TempFlow-GRPO引入了两项关键创新:一是轨迹分支机制,通过在指定分支点集中随机性提供过程奖励,实现精确的信用分配,而无需专门的中间奖励模型;二是噪声感知加权方案,根据每个时间步的内在探索潜力调整策略优化,优先在早期高影响阶段进行学习,同时确保后期阶段的稳定优化。这些创新使模型具备了尊重底层生成动态的时间感知优化能力,在人类偏好对齐和标准文本到图像基准测试中取得了最先进的性能。研究结果表明,TempFlow-GRPO通过考虑时间结构显著提升了流模型的优化效率和生成质量,为文本到图像生成领域提供了重要的方法论贡献。
流模型强化学习文本到图像生成时间结构人类偏好对齐
面向可扩展且高效的物联网感知的云计算数据调度算法
📝 作者: Noor Islam S. Mohammad
📄 中文摘要:
随着物联网(IoT)设备的快速增长,产生了海量且异构的数据流,对云计算环境中的可扩展和高效调度提出了迫切需求,以满足延迟、能耗和服务质量(QoS)的要求。传统的调度方法往往缺乏对物联网-云系统中动态工作负载和网络变化的适应性。本文提出了一种新颖的混合调度算法,将深度强化学习(RL)与蚁群优化(ACO)相结合,以应对这些挑战。深度强化学习代理采用无模型的策略梯度方法,学习适应实时工作负载波动和网络状态的自适应任务分配策略。同时,蚁群优化元启发式算法进行全局组合搜索,以优化资源分配、缓解拥塞并平衡分布式云节点的负载。通过对大规模合成物联网数据集的广泛实验,反映了多样化的工作负载和QoS约束,结果表明,与领先的启发式方法和纯强化学习基线相比,所提出的方法在平均响应时间上降低了18.4%,资源利用率提高了12.7%,能耗降低了9.3%。此外,该算法通过截止日期感知调度和动态优先级分配,确保了严格的服务水平协议(SLA)合规性。研究结果证实,将无模型强化学习与群体智能相结合对于可扩展、节能的物联网数据调度是有效的,为下一代物联网-云平台提供了有前景的方法。
物联网云计算数据调度深度强化学习蚁群优化
GuirlVG:通过强化学习实证探索激励GUI视觉 grounding
📝 作者: Weitai Kang, Bin Lei, Gaowen Liu, Caiwen Ding, Yan Yan
📄 中文摘要:
本文研究了图形用户界面视觉 grounding(GUI-VG),这是GUI代理的核心能力。传统上,GUI-VG主要依赖于多模态大型语言模型(MLLMs)的监督微调(SFT),但这种方法需要大量数据整理和高昂的训练成本。随着MLLMs的预训练逐渐覆盖GUI领域,全面SFT后训练的必要性受到质疑。同时,基于规则的强化微调(RFT)近年来取得成功,显示出更高效的替代潜力。然而,如何最佳应用RFT于GUI-VG仍未被充分探索。为此,本文提出了GuirlVG,一种基于强化学习的GUI-VG方法,通过系统性实证研究和一种新颖的稳定技术构建。研究发现,简单的RFT应用效果不及SFT基准,促使更深入的探索。首先,作者将RFT分解为核心组件,分析每个组件的最佳形式。其次,提出了一种新的对抗性KL因子,动态稳定训练以缓解奖励过度优化问题。最后,进一步探索RFT的训练配置以提升效果。大量实验表明,GuirlVG仅用5.2K训练样本就超越了基于超过10M样本训练的SFT方法,在ScreenSpot数据集上提升了7.7%,在ScreenSpotPro上提升了17.2%,在ScreenSpotV2上达到了91.9%的准确率。这些结果表明GuirlVG在效率和性能上具有显著优势,为GUI-VG领域提供了重要的研究方向和实践价值。
图形用户界面视觉grounding强化学习多模态语言模型训练优化
自动大型语言模型红队测试
📝 作者: Roman Belaire, Arunesh Sinha, Pradeep Varakantham
📄 中文摘要:
红队测试对于识别当前大型语言模型(LLMs)的漏洞并建立对其的信任至关重要。然而,现有的自动化方法依赖于脆弱的提示模板或单轮攻击,无法捕捉现实世界中对抗性对话的复杂性和交互性。本研究提出了一种全新的范式:训练一个人工智能以策略性地‘攻破’另一个人工智能。通过将红队测试形式化为马尔可夫决策过程(MDP),并采用分层强化学习(RL)框架,本研究有效解决了固有的稀疏奖励和长程规划挑战。所提出的生成式代理通过细粒度的、基于token级别的伤害奖励,学习连贯的多轮攻击策略,从而揭示了现有基准方法所忽略的细微漏洞。该方法在红队测试领域建立了新的技术标杆,从根本上将LLM红队测试重新定义为一个动态的、基于轨迹的过程,而非单步测试,这对于稳健的人工智能部署至关重要。研究结果表明,这种方法能够显著提升对LLM潜在风险的识别能力,为构建更安全、更可靠的AI系统提供了重要支持。作者强调,这种动态测试范式的引入不仅是技术上的进步,也是对AI安全领域研究方向的重要重新定位,具有深远的理论和实践意义。
大型语言模型红队测试强化学习马尔可夫决策过程AI安全
IFDECORATOR:通过可验证奖励包装指令跟随强化学习
📝 作者: Xu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Che
📄 中文摘要:
本文提出了一种名为Instruction Following Decorator (IFDecorator) 的框架,旨在提升大型语言模型(LLMs)在指令跟随任务中的表现,同时解决可验证奖励强化学习(RLVR)中存在的训练效率低下和过度优化问题。RLVR虽然能够增强模型的指令跟随能力,但由于缺乏有效的难度评估机制,训练效率不高,且模型容易通过验证捷径进行过度优化,未能真正对齐用户指令的意图。IFDecorator通过三个核心组件改进RLVR训练流程:首先,采用合作-对抗式数据飞轮机制,共同演化指令和混合验证,生成逐渐增加难度的指令-验证对;其次,引入IntentCheck模块,确保模型输出与用户意图对齐;最后,通过陷阱指令(trip wires)诊断机制检测奖励黑客行为,捕获模型利用捷径的 exploit 行为。实验结果表明,基于Qwen2.5-32B-Instruct的IFDecorator在IFEval数据集上取得了87.43%的准确率,超越了如GPT-4o等更大的专有模型。此外,在FollowBench基准测试中,模型性能显著提升,同时保持了通用能力。陷阱指令机制有效降低了奖励黑客行为的发生率。作者计划公开模型、代码和数据,以支持未来研究。本研究为大型语言模型的指令跟随能力提供了高效且稳健的训练框架,对相关领域具有重要参考价值。
指令跟随强化学习大型语言模型可验证奖励意图对齐
大型语言模型与多智能体强化学习的协作研究
📝 作者: Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato
📄 中文摘要:
本研究聚焦于多智能体系统(MAS)在解决多智能体交互问题中的应用,特别是在大型语言模型(LLM)协作优化方面的创新。传统的LLM预训练通常是独立进行的,缺乏针对协作的特定优化,而现有的LLM微调框架依赖于个体奖励机制,这需要为每个智能体设计复杂的奖励函数以促进协作。为解决这一问题,本文将LLM协作建模为一个合作型多智能体强化学习(MARL)问题,并提出了一种多智能体多轮算法——多智能体组相对策略优化(MAGRPO)。该算法结合了当前针对LLM的强化学习方法和MARL技术,通过优化协作策略来提升智能体间的合作效率。实验在LLM写作和编码协作任务上进行,结果表明,通过MAGRPO微调的多智能体系统能够高效生成高质量的响应,展现出显著的协作效果。本研究不仅为将其他MARL方法应用于LLM开辟了道路,还指出了相关挑战和未来研究方向。这一方法在提升LLM协作能力方面具有重要潜力,可能对人工智能领域中多智能体系统的设计和应用产生深远影响。
大型语言模型多智能体强化学习协作优化策略优化人工智能
利用强化学习探测和增强基于GNN的量子纠错解码器的鲁棒性
📝 作者: Ryota Ikeda
📄 中文摘要:
图神经网络(GNN)作为一种强大的数据驱动方法,已被广泛应用于量子纠错(QEC)解码,能够直接从综合征数据中学习复杂的噪声特性。然而,这些解码器对微妙对抗性扰动的鲁棒性仍是一个关键的未解问题。本研究提出了一种新颖的框架,利用强化学习(RL)代理系统地探测GNN解码器的脆弱性。RL代理被训练为对抗者,目标是找到最小的综合征修改,使解码器发生误分类。我们将该框架应用于一个基于图注意力网络(GAT)的解码器,该解码器在Google Quantum AI的实验表面码数据上进行训练。研究结果表明,RL代理能够成功识别特定的关键漏洞,以最小的比特翻转数量实现高攻击成功率。此外,我们证明通过对抗性训练可以显著增强解码器的鲁棒性,即在RL代理生成的对抗性示例上重新训练模型。这种自动化的漏洞发现和针对性重新训练的迭代过程,为开发更可靠和鲁棒的神经网络解码器提供了有前景的方法论,有助于推动容错量子计算的发展。本研究不仅揭示了GNN解码器在实际应用中的潜在风险,还为提高其在复杂噪声环境下的性能提供了实用策略,具有重要的理论和应用价值。
图神经网络量子纠错强化学习鲁棒性对抗性训练
基于信息有序策略的马尔可夫决策过程中强化学习
📝 作者: Zhongjun Zhang, Shipra Agrawal, Ilan Lobel, Sean R. Sinclair, Christina Lee Yu
📄 中文摘要:
本文提出了一种基于时期的强化学习算法,适用于无限horizon平均成本马尔可夫决策过程(MDPs),该算法利用了策略类上的部分顺序结构。在这一结构中,若策略π' ≤ π,则表明在策略π下收集的数据可用于估计策略π'的性能,从而实现无需额外环境交互的反事实推断。作者证明,该算法的遗憾界为O(√(w log(|Θ|) T)),其中w为部分顺序的宽度。值得注意的是,该遗憾界与状态空间和动作空间的大小无关,显示出算法的普适性。文章进一步探讨了这种部分顺序结构在运筹学多个领域中的应用,包括库存控制和排队系统。对于每个领域,作者将提出的框架应用于具体问题,得到了新的理论保证和出色的实证结果,且无需对库存模型假设凸性或对排队模型假设特定的到达率结构。这种方法在理论上提供了更广泛的适用性,同时在实际应用中表现出较强的性能。研究结果表明,基于信息有序策略的强化学习算法在处理复杂决策问题时具有显著优势,为未来的研究和应用奠定了坚实基础。
强化学习马尔可夫决策过程信息有序策略运筹学遗憾界
DRL-ORA:在线风险适应的分布强化学习
📝 作者: Yupeng Wu, Wenyun Li, Wenjie Huang, Chin Pang Ho
📄 中文摘要:
强化学习(RL)面临的一个主要挑战是智能体需要在对环境不完全了解的情况下做出决策,这些决策会影响未来的表现。在安全关键场景中,动态调整学习过程中的认知风险水平有助于以更高的效率获得可靠的策略。本研究提出了一种新的框架——在线风险适应的分布强化学习(DRL-ORA)。该框架以统一的方式量化了认知不确定性和隐含的偶然不确定性,并通过在线求解总变差最小化问题动态调整认知风险水平。DRL-ORA框架整合了现有的风险适应方法变体,提供了更好的可解释性和灵活性。风险水平的选择通过一种基于“跟随领导者”类型的算法进行高效网格搜索,其中离线预言机还对应于在特定修改损失函数下的“满意度量”。研究表明,DRL-ORA在多种任务类别中优于依赖固定风险水平或手动设计风险水平适应的现有方法。实验结果验证了该框架在提升策略可靠性和学习效率方面的显著优势,尤其是在需要动态平衡探索与利用的复杂环境中。作者通过理论分析和实验对比,展示了DRL-ORA在安全关键任务中的潜在应用价值,为强化学习在不确定环境下的应用提供了新的思路和方法。总之,DRL-ORA为强化学习领域提供了一种创新的风险管理机制,有望在未来的研究和应用中进一步扩展其影响力。
强化学习风险适应分布学习不确定性量化安全关键任务
基于PAC-Bayes的深度探索
📝 作者: Bahareh Tasdighi, Manuel Haussmann, Nicklas Werge, Yi-Shan Wu, Melih Kandemir
📄 中文摘要:
本文研究了在延迟奖励条件下连续控制的强化学习(RL)问题,这是一个在现实世界应用中具有重要意义但尚未充分探索的领域。许多复杂技能依赖于中间技能作为前提,例如人形机器人必须先学会站立才能学习行走。为了应对延迟奖励问题,智能体需要进行深度探索。然而,现有的深度探索方法主要针对小型离散动作空间设计,其在最先进的连续控制任务中的泛化能力尚未得到验证。本文首次从PAC-Bayesian视角出发,在演员-评论家(actor-critic)学习框架下解决深度探索问题。具体而言,作者通过PAC-Bayes界限量化了Bellman算子的误差,其中一个自举的评论家网络集合代表后验分布,其目标值作为数据驱动的函数空间先验。基于此界限,作者推导出一个目标函数,用于训练评论家网络集合。每个评论家训练一个独立的软演员网络,通过共享主干和评论家特定的头部实现。智能体通过对随机选择的演员头部进行epsilon-软性动作执行深度探索。提出的算法,称为PAC-Bayesian Actor-Critic (PBAC),是唯一在不同难度的连续控制任务上持续发现延迟奖励的算法。实验结果表明,PBAC在处理延迟奖励的连续控制任务中表现出色,验证了其在深度探索问题上的有效性和创新性。本研究为强化学习在复杂环境下的应用提供了新的理论支持和实践方法。
强化学习深度探索PAC-Bayes连续控制延迟奖励
基于视觉语言模型反馈的现实世界离线强化学习
📝 作者: Sreyas Venkataraman, Yufei Wang, Ziyu Wang, Navin Sriram Ravie, Zackory Erickson, David Held
📄 中文摘要:
离线强化学习(Offline Reinforcement Learning)能够从预先收集的、次优数据集中学习策略,而无需在线交互。这使其非常适合现实世界的机器人任务和安全关键场景,因为在这些场景中,收集在线数据或专家演示通常耗时、成本高且存在风险。然而,现有的大多数离线强化学习研究假设数据集已标注了任务奖励,而这一过程往往需要大量人工努力,尤其是在难以确定真实状态的情况下(如现实世界中)。本文在前人研究(特别是RL-VLM-F)的基础上,提出了一种新颖的系统,该系统利用视觉语言模型(Vision-Language Model)的偏好反馈和任务的文本描述,自动为离线数据集生成奖励标签。随后,我们使用标注了奖励的数据集通过离线强化学习方法学习策略。本文展示了该系统在复杂的现实世界机器人辅助穿衣任务中的应用:首先,我们在次优离线数据集上利用视觉语言模型学习奖励函数;然后,使用学习到的奖励函数通过隐式Q学习(Implicit Q Learning)开发有效的穿衣策略。此外,该方法在涉及刚性和可变形物体操作的模拟任务中也表现出色,显著优于行为克隆(Behavior Cloning)和逆强化学习(Inverse RL)等基线方法。总之,本文提出了一种新系统,能够从未标注、次优的离线数据集中实现自动奖励标注和策略学习。这一方法在现实世界应用中具有重要潜力,尤其是在数据标注成本高昂或在线交互受限的场景中,为机器人学习提供了高效且安全的解决方案。
离线强化学习视觉语言模型奖励标注机器人任务策略学习
为何智能体做出该决策:强化学习的对比解释学习
📝 作者: Rui Zuo, Simon Khan, Zifan Wang, Garrett Ethan Katz, Qinru Qiu
📄 中文摘要:
强化学习(RL)在解决复杂决策问题方面取得了显著成功,但在关键领域的应用因其决策过程缺乏可解释性而受到限制。现有的可解释人工智能(xAI)方法往往无法为强化学习智能体提供有意义的解释,尤其是在忽略人类推理的对比性本质——即回答‘为什么选择这个动作而非那个动作?’的问题上。为解决这一问题,本文提出了一种新的对比学习框架VisionMask,用于解释强化学习中智能体选择的动作。VisionMask通过自监督方式训练,明确对比智能体在给定状态下选择的动作与替代动作,从而生成解释。本研究通过在多种强化学习环境中的实验,评估了该方法在忠实性、鲁棒性和复杂性方面的表现。结果表明,VisionMask在保持准确性和忠实度的同时,显著提升了人类对智能体行为的理解。此外,本文还展示了VisionMask如何用于反事实分析的示例。该工作弥合了强化学习与可解释人工智能之间的差距,为构建更安全、更具可解释性的强化学习系统铺平了道路。通过对比学习,VisionMask不仅揭示了智能体决策背后的原因,还为用户提供了更直观的理解工具,有助于在实际应用中建立对智能体的信任。
强化学习可解释人工智能对比学习决策解释VisionMask
SimpleRL-Zoo:探究并驯服野外开放基础模型的零强化学习
📝 作者: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
📄 中文摘要:
本文研究了零强化学习(Zero RL)训练在开放基础模型中的应用与效果。零强化学习是一种通过简单的强化学习框架和基于规则的奖励机制,使基础模型自然展现长链式思维(Chain-of-Thought, CoT)推理能力的训练范式。研究以DeepSeek-R1为基础,扩展到10个不同家族和规模的基础模型,包括LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B以及Qwen2.5系列模型(从0.5B到32B)。通过调整格式奖励和控制查询难度等关键设计策略,研究在大多数模型设置中显著提升了推理准确性和响应长度。然而,通过对训练动态的细致监控,作者发现不同基础模型在训练过程中表现出明显的模式差异,例如响应长度的增加并不总是与某些认知行为(如验证,即‘顿悟时刻’)的出现相关。值得注意的是,本研究首次在非Qwen家族的小型模型中观察到‘顿悟时刻’。此外,作者分享了实现成功零强化学习训练的关键设计、发现和实践经验,并开源了相关代码、模型和分析工具,以促进后续研究。本研究不仅揭示了零强化学习在不同基础模型中的适用性和局限性,也为如何优化强化学习框架以适应多样化模型提供了重要参考。
零强化学习基础模型链式思维推理能力训练动态
RAMBO:基于强化学习的增强型模型全身控制用于步行操作
📝 作者: Jin Cheng, Dongho Kang, Gabriele Fadini, Guanya Shi, Stelian Coros
📄 中文摘要:
步行操作(loco-manipulation)是四足机器人面临的一项重大挑战,它要求在步行协调的同时对各种物体进行物理交互,需要精确的末端执行器控制以及对未建模动态的鲁棒性。传统的基于模型的控制器通过在线优化提供精确的规划,但受到模型不准确性的限制。相比之下,基于学习的方法具有鲁棒性,但难以精确调节交互力。本研究提出了RAMBO,一种混合框架,将基于模型的全身控制与通过强化学习训练的反馈策略相结合。基于模型的模块通过求解二次规划生成前馈扭矩,而策略模块提供反馈校正项以增强鲁棒性。研究团队在四足机器人上验证了该框架,涵盖了多种现实世界的步行操作任务,包括推购物车、平衡盘子以及握持软物体,任务涉及四足和双足步行。实验结果表明,RAMBO能够在实现鲁棒和动态步行的同时,提供精确的操作能力。该框架成功结合了模型驱动的精确性和学习驱动的适应性,为解决步行操作中的复杂挑战提供了新的思路。研究不仅展示了在不同任务场景下的适用性,还为未来在机器人控制领域中融合模型与学习方法奠定了基础,具有重要的理论和应用价值。
步行操作全身控制强化学习四足机器人鲁棒性
R1-RE:基于RLVR的跨领域关系抽取
📝 作者: Runpeng Dai, Tong Zheng, Run Yang, Kaixian Yu, Hongtu Zhu
📄 中文摘要:
关系抽取(RE)是自然语言处理中的核心任务。传统方法通常将关系抽取视为监督学习问题,直接将上下文映射到标签,但这种方法在跨领域(OOD)泛化能力上往往表现不佳。受人类标注员工作流程的启发,本研究将关系抽取重新定义为基于标注指南的推理任务,并提出了R1-RE,这是首个针对关系抽取任务的强化学习与可验证奖励(RLVR)框架。该方法通过激发小型语言模型的推理能力来完成标注任务,显著提升了跨领域鲁棒性。本研究在公开的Sem-2010数据集和私有的MDKG数据集上对该方法进行了评估。实验结果表明,R1-RE-7B模型在跨领域准确率上平均达到了约70%,与领先的专有模型(如GPT-4o)相当。此外,通过对RLVR范式在关系抽取中的训练动态和涌现推理行为的全面分析,本研究提供了新的见解。这些发现不仅展示了RLVR框架在提升模型泛化能力方面的潜力,也为未来在自然语言处理领域中应用强化学习方法提供了理论和实践依据。研究结论表明,R1-RE框架通过模拟人类推理过程,能够有效应对跨领域挑战,为关系抽取任务提供了一种创新且高效的解决方案。
关系抽取跨领域泛化强化学习自然语言处理RLVR框架
基于优化示范的学习旋转操作:结合力与视觉反馈
📝 作者: Yuki Shirai, Kei Ota, Devesh K. Jha, Diego Romeres
📄 中文摘要:
非抓取式操作由于物体、环境和机器人之间的复杂接触交互而具有挑战性。基于模型的方法能够高效生成机器人和物体在接触约束下的复杂轨迹,但对模型不准确性较为敏感,且需要访问特权信息(如物体质量、大小、姿态),因此对新型物体适应性较差。相比之下,基于学习的方法通常对建模误差更为鲁棒,但需要大量数据支持。本文提出了一种学习闭环旋转操作的框架,通过结合计算高效的接触隐式轨迹优化(CITO),设计了示范引导的深度强化学习(RL),实现了样本高效的学习。此外,本文还提出了一种基于特权训练策略的仿真到现实的迁移方法,使机器人仅依靠本体感觉、视觉和力感知即可执行旋转操作,而无需访问特权信息。该方法在多个旋转任务上进行了评估,实验结果表明其能够成功实现仿真到现实的迁移。硬件实验和方法概述通过视频展示,证明了该框架在实际应用中的有效性。本研究的创新在于将模型驱动与数据驱动方法相结合,不仅提高了学习效率,还增强了机器人对未知物体的适应能力,为非抓取式操作提供了新的解决方案。研究结果表明,该方法在机器人操作领域具有潜在的应用价值,尤其是在需要处理复杂接触动态的任务中。
旋转操作深度强化学习接触隐式轨迹优化仿真到现实迁移机器人学
主动约束策略优化与预先惩罚机制
📝 作者: Ning Yang, Pengyu Wang, Guoqing Liu, Haifeng Zhang, Pin Lv, Jun Wang
📄 中文摘要:
安全强化学习(Safe Reinforcement Learning, RL)常常面临约束违反和不稳定性等重大问题,因此需要采用约束策略优化方法,以在确保满足特定约束(如安全性)的同时寻找最优策略。传统的约束优化问题通常通过拉格朗日方法解决,这是一种事后补救方法,可能导致振荡和超调现象。为此,本文提出了一种名为主动约束策略优化(Proactive Constrained Policy Optimization, PCPO)的新方法,该方法引入了预先惩罚机制。当策略接近约束边界时,该机制将障碍项整合到目标函数中,施加成本惩罚。同时,本文引入了一种约束感知的内在奖励机制,用于指导边界感知的探索,仅在策略接近约束边界时激活。我们为PCPO更新的对偶间隙和性能建立了理论上的上下界,揭示了该方法的收敛特性。此外,为了提升优化性能,我们采用了策略迭代方法。实验结果表明,PCPO在稳定性方面表现出色,实验数据进一步证明PCPO框架为约束下的策略优化提供了鲁棒的解决方案。这一研究不仅在理论上具有重要意义,还为未来的研究和实际应用提供了重要的启示,尤其是在需要严格遵守安全约束的场景中具有潜在的应用价值。
强化学习约束优化预先惩罚策略优化安全学习
通过对称性泰勒展开的行为正则化
📝 作者: Lingwei Zhu, Zheng Chen, Han Wang, Yukie Nagai
📄 中文摘要:
本文提出了一种新的离线强化学习(RL)框架,通过将对称散度引入行为正则化策略优化(BRPO)中。现有方法主要关注非对称散度(如KL散度)以获得解析的正则化策略和实用的最小化目标。然而,本文指出对称散度无法直接得到解析策略,并且作为损失函数时可能引发数值问题。为解决这些挑战,作者利用了$f$-散度的泰勒级数展开。具体而言,作者证明了通过有限级数可以获得解析策略;在损失函数方面,作者观察到对称散度可以分解为非对称项和条件对称项,通过对后者进行泰勒展开可以有效缓解数值问题。基于此,作者提出了对称$f$演员-评论家算法(S$f$-AC),这是首个采用对称散度的实用BRPO算法。实验结果在分布近似和MuJoCo任务上验证了S$f$-AC的竞争力,表明该方法在离线强化学习领域具有显著的应用潜力。作者通过理论分析和实验验证,展示了引入对称散度并结合泰勒级数展开的有效性,为强化学习中的行为正则化提供了新的视角和方法。结论指出,S$f$-AC不仅在理论上具有创新性,而且在实际任务中表现出与现有方法相当甚至更优的性能,为未来的研究奠定了基础。
对称散度行为正则化离线强化学习泰勒级数演员-评论家算法
强化学习在投资组合优化中标准化方法的比较研究
📝 作者: Caio de Souza Barbosa Costa, Anna Helena Reali Costa
📄 中文摘要:
近年来,强化学习在机器人技术、游戏、自然语言处理和金融等领域取得了显著成果。在金融领域,强化学习被广泛应用于投资组合优化任务中,通过智能体持续调整金融投资组合中资产的分配以实现利润最大化。许多研究提出了新的模拟环境、神经网络架构和训练算法来支持这一应用。其中,一种特定领域的策略梯度算法因其轻量、快速以及在性能上优于其他方法而受到研究界的广泛关注。然而,近期研究表明,该算法在某些情况下会产生不一致的结果,尤其是在投资组合不包含加密货币时表现不佳。一种可能的解释是,常用的状态标准化方法可能导致智能体丢失关于交易资产真实价值的关键信息。本文通过在三个不同市场(巴西IBOVESPA指数、纽约证券交易所NYSE和加密货币市场)中评估两种最广泛使用的标准化方法,并将其与训练前数据标准化的常规做法进行比较,探索了这一假设。研究结果表明,在这一特定领域中,状态标准化确实可能降低智能体的性能,尤其是在非加密货币市场中。通过对比实验,本文揭示了标准化方法对强化学习在投资组合优化中表现的影响,并为未来的研究提供了改进方向。结论指出,选择合适的标准化方法对于提升强化学习在金融领域的应用效果至关重要,同时也强调了针对不同市场特性进行定制化设计的必要性。
强化学习投资组合优化标准化方法金融市场策略梯度算法
深度强化学习算法在投资组合优化中的评估
📝 作者: Chung I Lu
📄 中文摘要:
本文评估了基准深度强化学习算法在投资组合优化任务中的表现,研究基于模拟数据进行。模拟器采用相关几何布朗运动结合Bertsimas-Lo市场影响模型生成数据。以Kelly准则(对数效用)为目标函数,在无市场影响的情况下解析推导出最优策略作为性能评估的上限基准。研究发现,离策算法如DDPG、TD3和SAC由于奖励噪声的影响,无法学习正确的Q函数,因此表现较差。而在线策略算法PPO和A2C通过广义优势估计(GAE)能够有效应对噪声,推导出接近最优的策略。其中,PPO的剪切变体在防止策略偏离最优解方面尤为重要。在更具挑战性的环境中,即几何布朗运动参数发生体制变化的情况下,结合隐马尔可夫模型(HMM)学习和预测体制上下文的PPO算法能够适应不同体制学习不同的策略。然而,研究指出这些算法的样本复杂度过高,难以应用于真实数据场景。在最简单的设置中,学习一个较好的策略需要超过200万步,相当于近8000年的每日价格数据。总体而言,本文揭示了深度强化学习在投资组合优化中的潜力与局限,为未来研究提供了重要参考。
深度强化学习投资组合优化Kelly准则市场影响样本复杂度