← 返回总览

计算机科学-机器人与轨迹

2025-08-07 K-means智能聚类结果

聚类 29 • 机器学习算法识别
39 论文总数
39 高分论文
7.8 平均评分
7 关键词数

🔍 聚类关键词特征

机器人轨迹运动场景智能驾驶规划

软微通道中自推进人工游泳者跑动-翻滚样游泳的涌现

ArXiv ID: 2508.04443
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Smita S. Sontakke, Aneesha Kajampady, Mohd Suhail Rizvi, Ranabir Dey
📄 中文摘要:
本研究探讨了软微通道壁的柔软度对自推进微游泳者游泳特性的影响,特别是在生理条件下生物微游泳者常遇到的可变形边界环境中的动力学行为。研究以自泳活性液滴作为模型系统,通过实验和数值模拟相结合的方法,揭示了微通道壁柔软度增加时,活性液滴表现出类似跑动-翻滚的运动模式,这种模式以游泳方向的突然重新定向为特征,并伴随游泳速度的局部降低和随后增加。研究背景指出,生物微游泳者在柔软表面(如生殖道壁或宿主组织)上的初始附着与基质柔软度之间的关系尚不明确,而本研究填补了人工微游泳者在软微通道中游泳动力学的空白。实验采用明场和荧光显微镜技术,结合微粒子图像测速(μ-PIV)分析,量化了活性液滴在不同柔软度微通道中的轨迹和流场变化。3D边界积分模拟进一步揭示了弹性流体力学相互作用与自推进机制固有的化学流体力学之间的耦合,导致游泳特性的改变。关键发现包括:在软微通道中,活性液滴由于壁变形引起的润滑压力增加而减速,随后自生成的化学尾迹(充满胶束)在液滴周围的局部增长进一步减缓速度,最终导致方向重新定向和新的跑动阶段。结论指出,这种跑动-翻滚样运动的涌现是弹性与化学流体力学交互作用的结果,为调控复杂环境中活性剂的行为提供了新方法,并可能对生物微游泳者的近壁动力学研究产生深远影响。
自推进微游泳者软微通道跑动-翻滚运动弹性流体力学化学流体力学
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本研究揭示了软微通道中人工微游泳者的创新性运动模式,具有潜在的广泛应用和影响力。

PILOT-C:基于物理信息的低失真最优轨迹压缩

ArXiv ID: 2508.03730
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Kefei Wu, Baihua Zheng, Weiwei Sun
📄 中文摘要:
随着位置感知设备的快速普及,每天生成的海量轨迹数据对存储和实时处理提出了巨大挑战。传统的线简化方法通常假设轨迹为二维,忽略时间同步和运动连续性,导致压缩效果和保真度受限。本文提出了一种新颖的轨迹压缩框架PILOT-C(Physics-Informed Low-Distortion Optimal Trajectory Compression),通过结合频域物理建模和误差受限优化,克服了现有方法的局限性。PILOT-C将轨迹视为多维时间序列信号,利用离散余弦变换(DCT)将其转换为频域,分离出代表噪声的高频分量和反映运动连续性的低频分量,从而实现高压缩比和低失真。与传统线简化方法不同,PILOT-C支持任意维度的轨迹压缩,通过对每个空间轴独立处理,轻松扩展至三维轨迹。在四个真实世界数据集(nuPlan、GeoLife、Mopsi、GeoLife-3D)上的实验评估表明,PILOT-C在压缩比和轨迹保真度上均表现出色:相比当前最先进的基于SED的线简化算法CISED-W,PILOT-C平均提升了19.2%的压缩比;相比CISED-W,平均误差降低了32.6%;在三维数据集上,PILOT-C相比最有效的线简化算法SQUISH-E,压缩比提升了49%,且计算复杂度保持不变。此外,PILOT-C优化了存储结构,使其在实际部署中更具实用性。研究还通过数学分析证明了误差在预定义界限内,并讨论了其在非均匀采样数据上的适应性。总之,PILOT-C首次将物理运动特性引入轨迹压缩,为多维轨迹数据处理提供了高效且高保真的解决方案。
轨迹压缩物理信息频域建模离散余弦变换多维轨迹
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: PILOT-C在轨迹压缩领域具有重要创新,显著提升压缩比和保真度,对多维数据处理有较大潜力。

多智能体路径规划中智能体故障问题研究

ArXiv ID: 2508.03777
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Foivos Fioravantes, Du\v{s}an Knop, Nikolaos Melissinos, Michal Opler
📄 中文摘要:
本文研究了多智能体路径规划(Multiagent Path Finding, MAPF)问题中的一个新变体,重点关注智能体因故障导致延迟的场景。在传统MAPF问题中,目标是为多个智能体计算无碰撞路径,从起点到目标点,尽量减少总时间(makespan)。然而,在现实应用中,如仓库机器人或无人机系统,智能体可能因硬件故障或临时障碍而延迟,导致原计划失效。作者提出了一种动态调度适应框架,避免了每次故障后重新计算整个计划的高计算成本,而是通过局部协调和路径调整来应对故障。具体而言,提出了两种分布式协议:一是“移动前检查”(Check Before Moving, CBM)协议,针对单一故障情况,通过优先级机制和局部检查确保无碰撞调度,证明其使总时间增加仅为1个时间单位;二是“移动前检查计数”(Check Counter Before Moving, CCBM)协议,适用于多故障情况,利用顶点计数机制记录智能体通过情况,确保在k个故障下总时间增加不超过k个单位。此外,作者证明了集中式调度适应的计算复杂性(NP难),强调了分布式方法的必要性。研究结果表明,这些协议在智能体故障情况下提供了实用且可扩展的多智能体导航解决方案,特别是在计算能力和通信受限的环境中。文章还提出了未来研究方向,如探索启发式方法或随机故障分布下的性能优化。
多智能体路径规划智能体故障动态调度分布式协议无碰撞路径
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新性分布式协议解决MAPF中故障问题,具有较大应用潜力。

代理人如何推测他人的行为?二级逆博弈用于推断代理人对他人目标的估计

ArXiv ID: 2508.03824
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Hamzah I. Khan, Jingqi Li, David Fridovich-Keil
📄 中文摘要:
本文提出了一种二级逆博弈框架,用于解决现有逆博弈理论方法中假设代理人完全了解彼此目标的局限性。研究背景聚焦于多智能体交互场景中,如城市驾驶和谈判,代理人可能基于对彼此目标的异质性估计进行决策,而非共享完全信息。作者通过理论分析和实证研究揭示了一级推断在面对代理人目标估计异质性时的预测误差,强调了二级推断的必要性。研究方法包括基于心智理论(Theory of Mind)构建二级动态逆博弈模型,将其形式化为耦合的纳什均衡问题,并证明该问题即使在线性二次博弈等简单场景中也是非凸的。为解决这一问题,作者开发了一种高效的基于梯度的算法,通过将二级博弈建模为可微分的混合互补问题(MCP),寻找局部最优解。关键发现表明,二级推断能够捕捉一级方法所忽略的代理人目标估计中的细微不对称,尤其是在线性二次博弈和合成城市驾驶场景的实验中,二级推断显著优于一级推断。结论指出,二级推断框架为理解和预测复杂多智能体交互提供了更具表达力的模型,未来可进一步探索其在战略规划、非线性随机博弈及参数可观测性分析中的应用,以提升自主代理人在信息不对称环境下的协调能力。
二级逆博弈多智能体交互心智理论目标估计城市驾驶
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出二级逆博弈框架,具有重要创新性,可能对多智能体系统研究产生较大影响。

约束保持的数据生成用于视觉运动策略学习

ArXiv ID: 2508.03944
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Kevin Lin, Varun Ragunath, Andrew McAlinden, Aaditya Prasad, Jimmy Wu, Yuke Zhu, Jeannette Bohg
📄 中文摘要:
本文提出了一种名为约束保持数据生成(CP-Gen)的方法,用于从单一专家演示生成机器人演示数据,以训练能够在现实世界中零样本迁移并泛化到不同对象几何形状和姿态的闭环视觉运动策略。研究背景聚焦于机器人操作中大规模演示数据的昂贵收集成本问题,传统的演示数据收集需要大量人力和时间投入,而自动化数据生成被认为是降低这一负担的关键。CP-Gen通过将专家演示分解为自由空间运动和机器人技能,并将技能表述为关键点轨迹约束(即机器人或抓取对象上的关键点必须跟踪相对于任务相关对象的参考轨迹),实现了几何感知的数据生成。具体方法包括对任务相关对象采样姿态和几何变换,优化机器人关节配置以满足变换后的关键点轨迹约束,并规划无碰撞路径。在16个模拟任务和4个现实世界任务(涉及多阶段、非抓取和紧公差操作)的实验中,使用CP-Gen训练的策略平均成功率达到77%,显著优于最佳基线方法的50%。研究还展示了CP-Gen在MimicGen模拟基准测试中的最优性能(85%对63%),以及在包含新型对象几何形状的自定义基准测试中的显著优势(70%对37%)。此外,策略在现实世界任务中实现了成功的零样本模拟到现实迁移。结论表明,CP-Gen通过几何感知的数据生成显著提升了视觉模仿学习的泛化能力和数据效率。
机器人学习数据生成视觉运动策略关键点轨迹约束零样本迁移
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人学习领域具有重要创新性,可能对数据高效策略训练产生较大影响。

使用遗传算法优化三自由度机器人手臂滑动控制参数

ArXiv ID: 2508.04009
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Vu Ngoc Son, Pham Van Cuong, Dao Thi My Linh, Le Tieu Nien
📄 中文摘要:
本文提出了一种利用遗传算法(GA)优化机器人手臂滑动模式控制(SMC)参数的方法,旨在解决圆柱形机械手在不确定和受扰条件下的精确轨迹跟踪问题。研究背景聚焦于机器人控制领域中非线性动态和外部干扰对控制精度的挑战,特别是在工业、研究和教育应用中,三自由度(3-DOF)圆柱形机械手的控制难度较大。传统控制方法如常规SMC和模糊SMC在参数选择和调优方面存在局限性,例如对参数变化敏感、抖振现象、调优困难等。本文通过遗传算法寻找满足性能标准的SMC参数最优值,以提高系统的鲁棒性和跟踪能力。研究方法包括建立圆柱形机械手的动态模型,设计SMC控制器,并结合遗传算法优化控制参数,同时通过李雅普诺夫稳定性分析确保系统的稳定性。关键发现表明,与常规SMC和模糊SMC相比,基于遗传算法的SMC(GA-SMC)在轨迹跟踪精度、鲁棒性和抗扰能力方面表现出显著优势。仿真结果显示,GA-SMC不仅能有效减少抖振效应,还能在受到高幅度干扰时保持较高的轨迹跟踪能力,最大误差远低于其他两种控制器。结论指出,该方法在提升系统性能方面具有重要价值,并可扩展至其他类型的机械手和控制系统,未来研究可进一步探索其实时应用和复杂环境下的适应性。
遗传算法滑动模式控制机器人手臂三自由度机械手轨迹跟踪
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出了一种创新的优化方法,对机器人控制领域有较大潜在影响。

运动即编舞者:学习潜在姿态动态以实现无缝手语生成

ArXiv ID: 2508.04049
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Jiayi He, Xu Wang, Shengeng Tang, Yaxiong Wang, Lechao Cheng, Dan Guo
📄 中文摘要:
本文提出了一种新的手语视频生成范式,旨在解决手语生成中对特定签名者数据的高需求和泛化能力不足的问题。研究背景聚焦于手语作为聋人社区主要沟通方式的重要性,以及现有手语生成(SLG)方法在数据依赖和视觉流畅性方面的局限性。作者通过一个两阶段合成框架,将运动语义与签名者身份解耦。首先,构建了一个与签名者无关的多模态运动词典,将每个手语词汇存储为身份无关的姿态、手势和3D网格序列,仅需每个手语一次录制,大幅降低数据需求。其次,提出了一种离散到连续的运动合成方法,将检索到的词汇序列转化为时间连贯的运动轨迹,并通过身份感知的神经渲染生成任意签名者的逼真视频。关键发现表明,将运动作为核心“编舞层”处理,不仅克服了签名者特定数据集的限制,还实现了前所未有的个性化灵活性。实验结果在PHOENIX14T数据集上表现出色,超越了现有方法,在运动质量和视觉真实性方面均建立了新基准,验证了运动中心表示在语义准确性和外观保真度上的优越性。结论指出,该方法通过解耦运动与身份,显著提升了手语视频合成的质量和适应性,为手语生成领域提供了重要的技术进步。
手语生成运动合成身份解耦多模态词典神经渲染
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在手语生成领域提出创新范式,具有较大影响力,可能推动相关技术发展。

DRIVE:面向约束感知自动驾驶的动态规则推断与验证评估

ArXiv ID: 2508.04066
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Longling Geng, Huangxing Li, Viktor Lado Naess, Mert Pilanci
📄 中文摘要:
本文提出了一种名为DRIVE(动态规则推断与验证评估)的创新框架,旨在通过专家示范学习并评估类人驾驶中的软约束,以实现安全且符合社会规范的自动驾驶。研究背景聚焦于自动驾驶中软约束(如舒适性偏好、谨慎反应及社会规范)的隐式性和上下文依赖性,这些约束难以通过规则系统明确编码。DRIVE框架通过指数族似然建模估计状态转换的可行性,构建了随驾驶情境变化的概率软行为规则分布,并将其嵌入到基于凸优化的规划模块中,生成不仅动态可行且符合人类偏好的轨迹。与依赖固定约束形式或纯奖励建模的先前方法不同,DRIVE将规则推断与轨迹级决策紧密耦合,支持数据驱动的约束泛化和原则性的可行性验证。实验在多个大规模自然驾驶数据集(如inD、highD和RoundD)上进行,并与代表性的逆约束学习和规划基线方法进行比较,结果表明DRIVE实现了0.0%的软约束违反率,轨迹更平滑,且在多样化驾驶场景中表现出更强的泛化能力。验证评估进一步展示了该框架在现实世界部署中的高效性、可解释性和鲁棒性。结论指出,DRIVE通过学习可解释的软约束并将其集成到约束感知规划中,显著提升了约束满足度、轨迹质量和泛化性能,未来可扩展至多智能体交互场景及实时城市环境部署。
自动驾驶软约束动态规则推断凸优化轨迹规划
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: DRIVE框架在自动驾驶领域展现重要创新,显著提升约束满足与泛化能力,具有较大应用潜力。

工业机器人运动规划与GPU加速:cuRobo在扩展自由度系统中的集成

ArXiv ID: 2508.04146
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Luai Abuelsamen, Harsh Rana, Ho-Wei Lu, Wenhan Tang, Swati Priyadarshini, Gabriel Gomes
📄 中文摘要:
本文针对工业机器人运动规划中的效率问题,特别是在多轴系统复杂环境下的挑战,提出了一种基于GPU加速的解决方案。通过将NVIDIA的cuRobo库集成到Vention的模块化自动化平台中,利用基于CAD的数字孪生技术和实时并行优化,本研究实现了快速轨迹生成和动态避障,适用于拾取与放置任务。研究特别关注了具有额外自由度的机器人系统,例如配备第七轴龙门系统的机器人,并在多种场景下进行了性能基准测试。结果表明,与传统的CPU规划器相比,cuRobo在规划速度和鲁棒性方面取得了显著提升,平均轨迹生成速度提高了60倍,规划时间低于100毫秒。此外,本文还开发了针对工业拾取与放置任务的全面基准测试框架,实现了基于模型预测控制(MPC)的动态重规划,并系统优化了成本函数参数以适应工业部署需求。实验结果显示,cuRobo在循环时间上比传统规划器(如MoveIt)快3倍,成功率高达98.5%,且在扩展自由度系统中的表现依然稳定。研究还探讨了视觉反馈和动态环境适应能力,初步工业部署表明循环时间缩短了28-35%,编程时间减少了60%。尽管在狭窄通道导航和高度动态环境中存在一定局限性,但GPU加速规划管道展现了在现代工业流程中可扩展、适应性强的潜力。未来工作将聚焦于实时视觉集成、多机器人协调以及硬件部署验证,以进一步满足工业自动化的复杂需求。
工业机器人运动规划GPU加速避障轨迹优化
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文在工业机器人运动规划领域具有重要创新,GPU加速技术显著提升效率,可能对工业自动化产生较大影响。

SplitGaussian:通过视觉几何分解重建动态场景

ArXiv ID: 2508.04224
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Jiahui Li, Shengeng Tang, Jingxuan He, Gang Huang, Zhangye Wang, Yantao Pan, Lechao Cheng
📄 中文摘要:
从单目视频中重建动态3D场景是一项具有根本性挑战的任务,因为需要从有限的观测数据中同时推断运动、结构和外观。基于高斯 splatting 的现有动态场景重建方法通常将静态和动态元素纠缠在共享表示中,导致运动泄漏、几何失真和时间闪烁等问题。研究发现,根本原因在于几何和外观在时间维度上的耦合建模,这不仅影响了稳定性,也降低了可解释性。为解决这一问题,本文提出了 SplitGaussian 框架,该框架明确地将场景表示分解为静态和动态两个组成部分。通过将运动建模与背景几何解耦,并仅允许动态分支随时间变形,该方法有效防止了静态区域的运动伪影,同时支持基于视角和时间的动态外观优化。这种解耦设计显著提升了时间一致性和重建保真度,同时加速了收敛速度。大量实验表明,SplitGaussian 在渲染质量、几何稳定性和运动分离方面均优于现有的最先进方法,展现了其在动态场景重建领域的显著优势。研究结果不仅为解决动态场景重建中的长期问题提供了新思路,也为后续相关研究奠定了坚实基础。
动态场景重建高斯 splatting视觉几何分解运动分离时间一致性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新性解耦框架,显著提升动态场景重建质量,具有较大影响力。

LayerT2V:用于视频生成的交互式多对象轨迹分层方法

ArXiv ID: 2508.04228
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Xiaohong Liu
📄 中文摘要:
在文本到视频(Text-to-Video, T2V)生成领域中,控制对象运动轨迹是一个具有挑战性且相对未被充分探索的领域,尤其是在涉及多个运动对象的情景中。目前,大多数社区模型和数据集主要针对单一对象的运动设计,这限制了现有生成模型在多对象任务中的表现。此外,现有的T2V运动控制方法要么不支持多对象运动场景,要么在对象轨迹交叉时性能显著下降,主要原因是碰撞区域的语义冲突。为解决这些问题,本文提出了LayerT2V,这是首个通过逐层合成背景和前景对象来生成视频的方法。这种分层生成方式能够在视频中灵活集成多个独立元素,将每个元素放置在不同的“层”上,从而在增强生成过程控制的同时实现连贯的多对象合成。LayerT2V通过分层策略有效缓解了语义冲突问题,并显著提升了多对象场景下的生成质量。大量实验表明,LayerT2V在生成复杂多对象场景方面表现出色,其mIoU和AP50指标分别比最先进的(SOTA)方法提高了1.4倍和4.5倍。这一方法为T2V生成中的多对象运动控制提供了新的解决方案,并展示了在复杂场景生成中的强大潜力。项目页面和代码已公开,供进一步研究和应用。
文本到视频生成多对象轨迹分层生成运动控制计算机视觉
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多对象视频生成领域具有重要创新,可能显著提升T2V技术应用范围。

意图增强扩散模型用于多模态行人轨迹预测

ArXiv ID: 2508.04229
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Yu Liu, Zhijie Liu, Xiao Ren, You-Fu Li, He Kong
📄 中文摘要:
行人轨迹预测对于自动驾驶车辆的路径规划和运动控制至关重要。然而,由于人类运动固有的多模态性和不确定性,准确预测人群轨迹仍然是一项具有挑战性的任务。近年来,基于扩散的模型在捕捉行人行为的随机性方面显示出令人满意的结果,但很少有扩散模型明确考虑行人的潜在运动意图,这限制了预测模型的可解释性和精度。本研究提出了一种基于扩散的多模态轨迹预测模型,将行人的运动意图纳入预测框架中。运动意图被分解为横向和纵向两个分量,并引入了一个行人意图识别模块,使模型能够有效捕捉这些意图。此外,研究采用了一种高效的引导机制,促进了可解释轨迹的生成。所提出的框架在两个广泛使用的人类轨迹预测基准数据集ETH和UCY上进行了评估,并与最先进的方法进行了比较。实验结果表明,该方法取得了具有竞争力的性能,验证了将运动意图纳入扩散模型的有效性。本研究不仅提升了轨迹预测的精度,还增强了模型的可解释性,为自动驾驶和智能交通系统的发展提供了重要参考。
行人轨迹预测扩散模型运动意图多模态预测自动驾驶
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在轨迹预测领域具有重要创新,可能对自动驾驶技术产生较大影响。

DRAMA:一种基于动态和鲁棒分配的多智能体系统适用于变化环境

ArXiv ID: 2508.04332
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Naibo Wang, Yifan Zhang, Sai Liu, Xinkui Zhao, Guanjie Cheng, Yueshen Xu
📄 中文摘要:
多智能体系统(MAS)通过异构智能体之间的协调合作,在解决复杂问题方面展现了显著的效果。然而,现实世界的环境和任务需求具有高度动态性,表现为频繁的变化、不确定性和多样性。尽管如此,大多数现有的MAS框架依赖于静态架构,智能体能力固定且任务分配策略僵硬,这极大地限制了其对不断变化条件的适应能力。这种不灵活性为在动态和不可预测场景中维持鲁棒且高效的多智能体合作带来了重大挑战。为解决这些局限性,本文提出了DRAMA:一种基于动态和鲁棒分配的多智能体系统,旨在促进在快速变化环境中的弹性协作。DRAMA采用模块化架构,明确区分控制平面和工作平面。智能体和任务被抽象为具有明确生命周期的资源对象,任务分配通过基于亲和性的松耦合机制实现。控制平面支持实时监控和集中式规划,允许在智能体加入、离开或不可用时灵活高效地重新分配任务,从而确保任务执行的连续性和鲁棒性。工作平面由一群自主智能体组成,每个智能体具备本地推理、任务执行、协作能力,并在需要时能够接管其他智能体的未完成任务。研究结果表明,DRAMA在动态环境中展现了优越的适应性和鲁棒性,为多智能体系统在复杂现实场景中的应用提供了新的解决方案。作者通过实验验证了DRAMA在任务分配效率和系统稳定性方面的改进,强调了其在应对环境变化时的潜力。结论指出,DRAMA为构建适应性更强的多智能体系统奠定了基础,未来可进一步扩展到更广泛的应用领域。
多智能体系统动态分配鲁棒性变化环境任务协作
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 论文提出创新性框架DRAMA,具有较大潜力影响多智能体系统领域。

基于混合学习-优化框架的可靠实时高速公路轨迹规划

ArXiv ID: 2508.04436
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Yujia Lu, Chong Wei, Lu Ma
📄 中文摘要:
高速公路自动驾驶因环境快速变化和反应时间有限而具有较高的碰撞风险,因此需要可靠且高效的轨迹规划方法。本文提出了一种混合轨迹规划框架,将基于学习的适应性方法与基于优化的形式化安全保障相结合。该框架采用双层架构:上层使用图神经网络(GNN),基于真实高速公路数据训练,预测类人的纵向速度分布;下层则通过混合整数二次规划(MIQP)形式化路径优化问题,利用离散化车辆几何的线性近似显著降低计算复杂度,同时通过严格的时空非重叠约束在整个规划周期内形式化保证避障。实验结果表明,该规划器在复杂的真实世界紧急场景中能够生成高度平滑、无碰撞的轨迹,成功率超过97%,平均规划时间为54毫秒,证实了其实时性。研究的主要贡献在于下层路径优化模型,通过创新的计算方法和安全约束,为自动驾驶提供了可靠的解决方案。本文的研究不仅在技术上实现了高效的实时轨迹规划,还为自动驾驶系统的安全性和实用性提供了重要参考,具有潜在的广泛应用前景。
自动驾驶轨迹规划图神经网络混合整数规划实时性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在自动驾驶领域具有重要创新,实时性和安全性兼备,可能对行业产生较大影响。

MonoCloth:从单目视频中重建和动画化衣物分离的人体化身

ArXiv ID: 2508.04505
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Daisheng Jin, Ying He
📄 中文摘要:
从单目视频中重建逼真的三维人体化身是一项具有挑战性的任务,主要由于几何信息有限以及复杂的非刚性运动所致。本文提出了一种名为MonoCloth的新方法,用于从单目视频中重建和动画化穿衣的人体化身。为了克服单目输入的局限性,作者引入了一种基于部件的分解策略,将化身分为身体、面部、手部和衣物四个部分。这种设计反映了不同部件在重建难度和变形复杂性上的差异。具体而言,方法针对面部和手部进行了详细的几何恢复;对于衣物,作者提出了一种专门的布料仿真模块,利用时间运动线索和几何约束捕捉衣物的变形。实验结果表明,与现有方法相比,MonoCloth在视觉重建质量和动画真实性方面均有显著提升。此外,得益于其基于部件的设计,MonoCloth还支持衣物转移等额外任务,展现了其多功能性和实用价值。本研究通过创新的分解策略和仿真技术,为单目视频中的三维人体重建提供了一种高效且实用的解决方案,对计算机视觉和图形学领域具有重要意义。研究不仅提升了重建精度,还为虚拟现实、游戏开发和影视制作等应用场景提供了技术支持。
单目视频三维重建人体化身布料仿真衣物转移
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在单目视频重建领域有重要创新,对虚拟现实等领域有较大影响。

行为自适应多机器人危险定位在易故障、无通信环境中的研究

ArXiv ID: 2508.04537
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Alkesh K. Srivastava, Aamodh Suresh, Carlos Nieto-Granda
📄 中文摘要:
本文针对高风险、易故障且无通信环境(如灾后区域、地下矿井、洞穴及行星表面)中多机器人自主危险映射的挑战进行了研究。研究旨在让机器人在探索和绘制危险地图的同时,尽量减少因环境威胁或硬件限制导致的故障风险。作者提出了一种基于行为熵(Behavioral Entropy, BE)的行为自适应信息论规划框架,该框架推广了香农熵(Shannon Entropy, SE),以捕捉多样化的人类不确定性评估。在此基础上,开发了行为自适应路径规划(Behavior-Adaptive Path Planning, BAPP)框架,通过可调的风险敏感参数调节信息收集策略,并提出了两种规划算法:BAPP-TID用于智能触发高保真机器人,BAPP-SIG用于高风险下的安全部署。研究提供了BAPP框架信息性的理论见解,并通过单机器人和多机器人仿真验证了其有效性。结果表明,BAPP框架在性能上持续优于基于香农熵和随机策略的方法:BAPP-TID加速了熵的减少,而BAPP-SIG在最小化信息增益损失的同时提高了机器人生存率。在多智能体部署中,BAPP通过空间划分、移动基地重新定位和角色感知异构性实现了有效的扩展。这些发现突显了行为自适应规划在复杂、易故障环境中的稳健性和风险敏感探索的价值,为多机器人系统在极端环境下的应用提供了重要参考。
多机器人行为自适应危险定位路径规划信息论
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多机器人危险定位领域具有重要创新,可能对极端环境探索产生较大影响。

NavA3:理解任意指令,随处导航,找到任何目标

ArXiv ID: 2508.04598
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Lingfeng Zhang, Xiaoshuai Hao, Yingbo Tang, Haoxiang Fu, Xinyu Zheng, Pengwei Wang, Zhongyuan Wang,
📄 中文摘要:
本文研究了具身导航作为具身智能核心能力的重要性,旨在使机器人在物理环境中移动并进行交互。传统的导航任务主要集中于预定义目标导航或指令跟随,与现实世界中人类对复杂开放场景的需求存在显著差距。为解决这一问题,作者提出了一项具有挑战性的长距离导航任务,要求机器人理解高级人类指令,并在现实环境中执行空间感知的目标导航。现有的具身导航方法由于在理解高级指令和开放词汇目标定位方面的局限性,难以应对此类任务。本文提出了NavA3,一个分层次的框架,分为全局和局部策略两个阶段。在全局策略中,利用推理型视觉语言模型(Reasoning-VLM)的推理能力解析高级人类指令,并将其与全局3D场景视图结合,以推断并导航至最可能包含目标对象的区域。在局部策略中,作者收集了一个包含100万个空间感知对象功能样本的数据集,用于训练NaviAfford模型(PointingVLM),该模型实现了强大的开放词汇目标定位和空间感知能力,从而在复杂环境中精准识别目标并完成导航。大量实验表明,NavA3在导航性能上达到了最先进的水平,并能在现实世界中跨不同机器人实体成功完成长距离导航任务,为通用具身导航奠定了基础。相关数据集和代码将公开发布。
具身导航空间感知开放词汇长距离导航机器人智能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在具身导航领域具有重要创新,可能显著提升机器人现实应用能力。

RoboTron-Sim:通过模拟困难场景提升现实世界驾驶性能

ArXiv ID: 2508.04642
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Baihui Xiao, Chengjian Feng, Zhijian Huang, Feng yan, Yujie Zhong, Lin Ma
📄 中文摘要:
在自动驾驶领域,收集现实世界中罕见的高风险场景、长尾驾驶事件以及复杂交互的数据仍然是一个重大挑战,导致现有自动驾驶系统在这些关键情境下的表现不佳。本文提出了一种名为RoboTron-Sim的方法,通过利用模拟的困难场景来提升现实世界中关键情境下的驾驶性能。首先,作者开发了一个名为Hard-case Augmented Synthetic Scenarios (HASS)的模拟数据集,该数据集涵盖了13种高风险边缘场景类别,并平衡了如昼夜、晴雨等环境条件。其次,作者引入了场景感知提示工程(Scenario-aware Prompt Engineering, SPE)和图像到自我编码器(Image-to-Ego Encoder, I2E Encoder),使多模态大型语言模型能够通过HASS有效学习现实世界中的复杂驾驶技能,同时适应现实世界与模拟场景之间的环境偏差和硬件差异。在nuScenes数据集上的广泛实验表明,RoboTron-Sim在挑战性场景中的驾驶性能提升了约50%,在现实世界的开环规划任务中取得了最先进的成果。定性结果进一步证明了RoboTron-Sim在处理罕见高风险驾驶场景方面的有效性。该研究为自动驾驶系统在复杂环境下的鲁棒性和安全性提供了重要的技术支持,具有显著的实际应用价值。
自动驾驶模拟场景高风险场景多模态学习驾驶性能
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在自动驾驶领域具有重要创新性,可能显著提升系统安全性。

开放场景图用于开放世界对象目标导航

ArXiv ID: 2508.04678
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Joel Loo, Zhanxin Wu, David Hsu
📄 中文摘要:
本文研究了如何构建通用机器人系统以实现开放世界的语义导航,例如在陌生环境中搜索由自然语言指定的目标对象。为解决这一挑战,作者提出了OSG Navigator,一个由基础模型组成的模块化系统,专门用于开放世界对象目标导航(ObjectNav)。基础模型提供了关于世界的庞大语义知识,但在大规模组织和维护空间信息方面存在困难。OSG Navigator的核心是开放场景图(Open Scene Graph, OSG)表示法,它作为空间记忆,采用OSG模式分层组织空间信息。这些模式是描述各类环境共同结构的模板,可以从给定环境的简单语义标签(如“家庭”或“超市”)中自动生成。OSG模式使OSG Navigator能够以零样本方式适应新的环境类型。作者在模拟环境和现实世界中,使用Fetch和Spot机器人进行了实验,结果表明OSG Navigator在ObjectNav基准测试中达到了最先进的性能,并且在不同的目标、环境和机器人形态上实现了零样本泛化。研究表明,该系统通过结合基础模型的语义知识和开放场景图的空间记忆能力,显著提升了机器人在开放世界中的导航效率和适应性,为未来通用机器人系统的开发提供了重要参考。
开放场景图对象目标导航机器人学语义导航零样本学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人导航领域具有重要创新,可能对开放世界应用产生较大影响。

TurboTrain:面向多智能体感知与预测的高效平衡多任务学习

ArXiv ID: 2508.04682
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Zewei Zhou, Seth Z. Zhao, Tianhui Cai, Zhiyu Huang, Bolei Zhou, Jiaqi Ma
📄 中文摘要:
本文提出了一种名为TurboTrain的新型高效训练框架,旨在解决多智能体系统端到端训练中面临的挑战,提升多任务性能。研究背景聚焦于多智能体感知与预测领域,传统的训练方法需要大量手动设计和监控,效率低下且复杂。TurboTrain框架包含两个核心组成部分:基于掩码重建学习的多智能体时空预训练方案,以及基于梯度冲突抑制的平衡多任务学习策略。通过简化训练流程,该框架消除了手动设计和调整复杂多阶段训练流程的需要,显著缩短了训练时间并提升了性能。研究在真实世界的合作驾驶数据集V2XPnP-Seq上对TurboTrain进行了评估,结果表明该框架进一步提升了当前最先进的多智能体感知与预测模型的性能。关键发现包括:预训练能够有效捕捉多智能体的时空特征,并显著改善下游任务的表现;同时,提出的平衡多任务学习策略通过抑制梯度冲突,增强了检测与预测任务的协同效果。结论指出,TurboTrain为多智能体系统的训练提供了一种高效且自动化的解决方案,具有广泛的应用潜力,尤其在自动驾驶等需要多智能体协作的场景中表现出色。
多智能体系统感知与预测多任务学习预训练自动驾驶
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多智能体学习领域具有重要创新,可能对自动驾驶等领域产生较大影响。

从MAS到MARS:医疗场景下分层多智能体机器人系统的协调失败与推理权衡

ArXiv ID: 2508.04691
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Yuanchen Bai, Zijian Ding, Shaoyue Wen, Xiang Chang, Angelique Taylor
📄 中文摘要:
多智能体机器人系统(MARS)在多智能体系统(MAS)的基础上,融入了物理和任务相关的约束条件,从而增加了动作执行和智能体协调的复杂性。然而,尽管存在先进的多智能体框架,其在现实世界中的机器人部署仍然有限,阻碍了MARS研究的实际进展。为了弥合这一差距,本研究通过两个实验探讨了分层多智能体框架在模拟现实世界的多机器人医疗场景中的性能权衡。在研究1中,作者使用CrewAI框架,通过迭代优化系统的知识库,系统性地识别和分类协调失败(如工具访问违规、未能及时处理故障报告),这些问题无法仅通过提供上下文知识解决。在研究2中,作者采用AutoGen框架,评估了一种重新设计的双向通信结构,并进一步测量在同一机器人团队设置中推理模型与非推理模型之间的权衡。基于实证结果,研究强调了自主性与稳定性之间的张力,并指出边缘案例测试对于提高系统可靠性和安全性以适应未来现实世界部署的重要性。此外,研究还提供了补充材料,包括代码、任务智能体设置、跟踪输出以及协调失败和推理行为的标注示例。本研究为MARS在医疗场景中的应用提供了重要的理论和实践指导,揭示了分层多智能体系统在复杂环境下的挑战与潜在解决方案。
多智能体机器人系统协调失败推理权衡医疗场景分层框架
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 研究具有重要创新性,对MARS实际部署有较大潜在影响。

通过可微仿真系统识别实现精确可靠的双足运动

ArXiv ID: 2508.04696
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Vyacheslav Kovalev, Ekaterina Chaikovskaia, Egor Davydenko, Roman Gorbachev
📄 中文摘要:
本文提出了一种新颖的控制框架,通过将系统识别集成到强化学习的训练循环中,利用可微仿真技术实现双足运动的精确控制。系统识别在减少双足运动中的轨迹漂移方面至关重要,尤其是在强化学习和基于模型的控制中。与传统方法依赖直接扭矩测量不同,本研究仅使用轨迹数据(位置、速度)和控制输入来估计系统参数。作者利用可微仿真器MuJoCo-XLA优化系统参数,确保模拟机器人行为与现实世界运动高度一致。该框架支持可扩展且灵活的参数优化,能够处理包括质量和惯性在内的基本物理属性,并通过神经网络近似处理复杂的系统非线性行为,如高级摩擦模型。实验结果表明,该框架显著提高了轨迹跟踪的精度,为双足机器人控制提供了有效的解决方案。本文的方法不仅提升了模拟与现实之间的匹配度,还为强化学习在机器人运动控制中的应用开辟了新的可能性。研究的关键发现包括通过可微仿真优化系统参数可以显著减少轨迹漂移,同时支持复杂的物理建模。结论指出,该框架在双足运动控制领域具有重要的应用潜力,未来可进一步扩展到其他机器人控制任务中。
双足运动系统识别可微仿真强化学习机器人控制
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人控制领域具有重要创新,可能显著提升双足运动精度。

具有时空记忆的占用学习

ArXiv ID: 2508.04705
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Ziyang Leng, Jiawei Yang, Wenlong Yi, Bolei Zhou
📄 中文摘要:
三维占用(3D occupancy)作为一种精细尺度的环境建模方式,成为自动驾驶感知领域的重要表征方法。然而,由于高处理成本以及体素的不确定性和动态性,如何在多个输入帧间高效聚合三维占用信息仍然是一个挑战。为解决这一问题,本文提出了一种场景级占用表征学习框架ST-Occ,该框架通过时间一致性有效学习时空特征。ST-Occ包含两个核心设计:一是时空记忆模块,通过场景级表征捕获并高效存储全面的历史信息;二是记忆注意力机制,通过不确定性和动态感知模型,将当前占用表征与时空记忆相关联。本方法通过利用多帧输入之间的时间依赖性,显著增强了三维占用预测任务中的时空表征能力。实验结果表明,该方法在性能上超越了现有最先进方法,mIoU指标提升了3个百分点,同时将时间不一致性降低了29%。研究表明,ST-Occ在自动驾驶场景感知中具有重要的应用潜力,为处理复杂动态环境提供了新的解决方案。作者通过创新的时空记忆和注意力机制,成功解决了多帧信息聚合中的关键问题,为后续研究奠定了基础。
三维占用时空记忆自动驾驶场景感知注意力机制
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在自动驾驶感知领域具有重要创新,可能显著提升场景理解能力。

基于价值的并行更新MCTS方法用于联网自动驾驶车辆的多智能体协作决策

ArXiv ID: 2409.13783
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Ye Han, Lijun Zhang, Dejian Meng, Zhuang Zhang, Xingyu Hu, Songyu Weng
📄 中文摘要:
本文针对联网自动驾驶车辆(CAVs)的多车辆横向和纵向联合决策问题,提出了一种基于有限时间范围和时间折扣设置的多智能体马尔可夫博弈的蒙特卡洛树搜索(MCTS)方法,并引入了并行更新机制。通过分析部分稳态交通流中多车辆联合行动空间的并行动作,该并行更新方法能够快速排除潜在危险动作,从而在不牺牲搜索广度的情况下增加搜索深度。本文提出的方法在大量随机生成的交通流中进行了测试,实验结果表明,该算法具有良好的鲁棒性,其性能优于当前最先进的强化学习算法和启发式方法。采用该算法的车辆驾驶策略展现出超越人类驾驶员的合理性,并在协调区域的交通效率和安全性方面具有显著优势。研究表明,该方法在处理多智能体协作决策问题时,能够有效提升自动驾驶系统的决策能力和适应性,为未来智能交通系统的优化提供了重要的技术支持。此外,该研究还揭示了并行更新机制在复杂动态环境下的潜力,为后续研究提供了新的思路和方向。总体而言,本文提出的方法在联网自动驾驶领域具有重要的应用价值和理论意义。
蒙特卡洛树搜索联网自动驾驶多智能体协作并行更新交通效率
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在自动驾驶决策领域具有重要创新,可能显著提升交通效率与安全性。

RoboTron-Drive:自主驾驶一体化大型多模态模型

ArXiv ID: 2412.07689
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Zhijian Huang, Chengjian Feng, Feng Yan, Baihui Xiao, Zequn Jie, Yujie Zhong, Xiaodan Liang, Lin Ma
📄 中文摘要:
大型多模态模型(LMMs)通过整合大型语言模型,在自主驾驶(AD)领域展现了出色的理解和解释能力。然而,当前数据驱动的自主驾驶方法往往聚焦于单一数据集和特定任务,忽视了模型的整体能力和泛化能力。为了弥补这一不足,本研究提出了RoboTron-Drive,一种通用的多模态大型模型,旨在处理多样化的数据输入(如图像和多视角视频),并执行广泛的自主驾驶任务,包括感知、预测和规划。研究首先通过课程式预训练,使模型能够处理多样的视觉信号并完成基本的视觉理解和感知任务。随后,通过对多种自主驾驶数据集进行增强和标准化,对模型进行微调,最终构建了一个一体化的自主驾驶LMM。为了评估模型的通用能力和泛化性能,本研究在六个公开基准数据集上进行了测试,并在三个未见过的数据集上进行了零样本迁移实验,结果显示RoboTron-Drive在所有任务中均取得了最先进的性能。研究团队认为,RoboTron-Drive为现实世界中的自主驾驶提供了一个有前景的解决方案。本研究还提供了项目页面和代码链接,以供进一步研究和应用。
自主驾驶大型多模态模型感知与规划泛化能力零样本迁移
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在自主驾驶领域具有重要创新,可能显著提升技术应用范围。

随流而动:使用实时扭曲噪声的可运动控制视频扩散模型

ArXiv ID: 2501.08331
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Ryan Burgert, Yuancheng Xu, Wenqi Xian, Oliver Pilarski, Pascal Clausen, Mingming He, Li Ma, Yitong
📄 中文摘要:
本研究致力于通过结构化的潜在噪声采样增强视频扩散模型的运动控制能力。研究提出了一种创新方法,即通过对训练视频进行预处理生成结构化噪声,而无需对扩散模型的架构或训练流程进行修改。这种方法的核心是一个新颖的噪声扭曲算法,该算法足够高效,可实时运行。它通过从光流场中提取相关性扭曲噪声替代随机的时序高斯噪声,同时保留空间高斯性,从而实现运动控制。算法的高效性使得基于现代视频扩散模型的微调过程仅需极小的额外开销,并为用户提供了多种便捷的运动控制方式,包括局部对象运动控制、全局相机运动控制以及运动迁移。扭曲噪声在时序一致性与空间高斯性之间的协调确保了运动控制的有效性,同时保持了每帧的像素质量。广泛的实验和用户研究表明,该方法在视频扩散模型的运动控制方面具有显著优势,是一种稳健且可扩展的解决方案。研究成果包括视频演示、源代码和模型检查点,均已公开供学术界和业界参考与使用。
视频扩散模型运动控制噪声扭曲光流场生成模型
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在视频生成领域提出重要创新,具有较大应用潜力。

egoPPG:自视角系统中通过眼动追踪摄像头估算心率以辅助下游视觉任务

ArXiv ID: 2502.20879
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Bj\"orn Braun, Rayan Armani, Manuel Meier, Max Moebus, Christian Holz
📄 中文摘要:
自视角视觉系统旨在理解穿戴者周围的空间环境及其行为,包括运动、活动和交互。本研究提出,自视角系统还应检测生理状态以捕捉个体的注意力及情境反应,这对于上下文感知行为建模至关重要。论文提出了egoPPG,一种新的自视角系统视觉任务,旨在恢复个体的心脏活动以辅助下游视觉任务。作者引入了PulseFormer方法,通过未改装自视角系统中的眼动追踪摄像头提取心率作为生理状态的关键指标。PulseFormer持续估算眼周区域的光体积描记图(PPG),并融合头戴设备惯性测量单元的运动线索来追踪心率值。研究展示了egoPPG在EgoExo4D数据集上的下游任务效益,发现PulseFormer的心率估计将熟练度估计提高了14%。为训练和验证PulseFormer,作者收集了超过13小时的眼动追踪视频数据集(来自Project Aria),并结合接触式PPG信号和心电图(ECG)作为真实心率值的参考。数据集涉及25名参与者进行多样化的日常活动,如办公、烹饪、跳舞和锻炼,这些活动引发了显著的自然运动和心率变化(44-164 bpm)。模型表现出稳健的心率估计能力(平均绝对误差MAE=7.67 bpm),并能捕捉心率模式(相关系数r=0.85)。研究结果表明,自视角系统可统一环境和生理追踪以更好地理解用户,egoPPG作为补充任务为现有数据集和任务提供了有意义的增强。作者公开了代码、数据集及EgoExo4D的心率增强数据,以激励生理感知自视角任务的研究。
自视角视觉心率估计眼动追踪生理状态计算机视觉
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究创新性地结合生理数据与自视角视觉任务,具有较大潜在影响力。

RAILGUN:一种统一的多智能体路径规划卷积策略,适用于不同环境和任务

ArXiv ID: 2503.02992
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Yimin Tang, Xiao Xiong, Jingyi Xi, Jiaoyang Li, Erdem B{\i}y{\i}k, Sven Koenig
📄 中文摘要:
多智能体路径规划(MAPF)是解决多个机器人无碰撞路径问题的关键技术,广泛应用于无人机群、仓库自动化等领域。由于MAPF问题是NP难问题,基于学习的方法近年来受到广泛关注,尤其是利用深度神经网络的方法。然而,由于智能体数量和地图规模的多样性,现有基于学习的MAPF规划器均采用去中心化规划方式。本研究首次提出了一种中心化的基于学习的MAPF策略——RAILGUN。RAILGUN并非基于智能体的策略,而是基于地图的策略,通过采用基于卷积神经网络(CNN)的架构,RAILGUN能够泛化到不同的地图,并处理任意数量的智能体。研究团队通过从基于规则的方法中收集轨迹数据,以监督学习的方式训练模型。实验结果表明,RAILGUN在大多数基准方法中表现优异,并且在训练数据集中未见过的各种任务、地图和智能体数量上展现出强大的零样本泛化能力。这一成果为MAPF问题提供了一种全新的解决方案,显著提升了算法的适应性和实用性。研究不仅在理论上具有创新性,还为实际应用场景中的多智能体协调提供了重要参考。结论指出,RAILGUN的中心化策略和泛化能力为未来多智能体系统的设计和优化奠定了基础,同时也为深度学习在复杂规划问题中的应用开辟了新的可能性。
多智能体路径规划卷积神经网络中心化策略零样本泛化机器人协调
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: RAILGUN提出中心化学习策略,具有重要创新和广泛应用潜力。

LTLCodeGen:用于机器人任务规划的语法正确的时序逻辑代码生成

ArXiv ID: 2503.07902
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Behrad Rabiei, Mahesh Kumar A. R., Zhirui Dai, Surya L. S. R. Pilla, Qiyue Dong, Nikolay Atanasov
📄 中文摘要:
本文研究了如何从自然语言指令中规划机器人导航任务。作者提出了一种模块化方法,利用大型语言模型(LLM)将自然语言指令翻译成线性时序逻辑(LTL)公式,其中命题由语义占用地图中的对象类别定义。随后,LTL公式和语义占用地图被输入到运动规划算法中,以生成无碰撞的机器人路径,从而满足自然语言指令的要求。本文的主要贡献是LTLCodeGen,一种通过代码生成将自然语言翻译为语法正确的LTL的方法。该方法确保了生成的LTL公式在语法上的准确性,为机器人任务规划提供了可靠的逻辑基础。作者在真实世界实验中展示了完整的任务规划方法,通过人类语音为移动机器人提供导航指令。此外,作者还在模拟和真实世界实验中对该方法进行了全面评估,并将其与端到端LLM任务规划以及最先进的LLM到LTL翻译方法进行了比较。实验结果表明,LTLCodeGen在翻译准确性和任务执行效率上均表现出色,尤其是在复杂自然语言指令的处理中展现了显著优势。研究结论指出,该方法不仅提高了机器人对自然语言指令的理解能力,还为未来的机器人任务规划提供了可扩展的框架,具有重要的应用潜力。
机器人导航自然语言处理线性时序逻辑代码生成任务规划
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人任务规划领域具有重要创新,可能显著提升自然语言指令的执行效率。

NuPlanQA:多模态大型语言模型中多视角驾驶场景理解的大规模数据集与基准

ArXiv ID: 2503.12772
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Sung-Yeon Park, Can Cui, Yunsheng Ma, Ahmadreza Moradipari, Rohit Gupta, Kyungtae Han, Ziran Wang
📄 中文摘要:
近年来,多模态大型语言模型(MLLMs)在多个领域展现了强大的性能,但其在驾驶场景理解方面的能力尚未得到充分验证。驾驶场景的复杂性,尤其是多视角信息的整合,对现有MLLMs提出了重大挑战。本文提出了NuPlanQA-Eval,一个用于驾驶场景理解的多视角、多模态评估基准。为了进一步支持多视角驾驶场景的泛化能力,作者还构建了NuPlanQA-1M,一个包含100万个真实世界视觉问答(VQA)对的大规模数据集。为了实现对交通场景的上下文感知分析,数据集被分为九个子任务,涵盖三个核心技能:道路环境感知、空间关系识别和自我中心推理。此外,作者提出了BEV-LLM模型,通过将多视角图像的鸟瞰视图(BEV)特征集成到MLLMs中,增强模型性能。评估结果揭示了现有MLLMs在驾驶场景特定感知和自我中心视角的空间推理方面面临的关键挑战。相比之下,BEV-LLM在该领域展现了显著的适应性,在九个子任务中的六个任务中表现优于其他模型。这些发现突显了BEV集成如何增强多视角MLLMs的能力,同时也指出了需要进一步改进的关键领域,以实现对驾驶场景的有效适应。为了促进后续研究,作者公开了NuPlanQA数据集,地址为https://github.com/sungyeonparkk/NuPlanQA。本研究为自动驾驶领域的多模态模型发展提供了重要资源和方向。
多模态语言模型驾驶场景理解多视角数据集鸟瞰视图自动驾驶
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在自动驾驶领域具有重要创新性,可能对多模态模型发展产生较大影响。

RoboTron-Nav:一个整合感知、规划和预测的具身导航统一框架

ArXiv ID: 2503.18525
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Yufeng Zhong, Chengjian Feng, Feng Yan, Fanfan Liu, Liming Zheng, Lin Ma
📄 中文摘要:
在语言引导的视觉导航领域,智能体需要根据自然语言指令在未知环境中定位目标物体。为了在陌生场景中实现可靠导航,智能体必须具备强大的感知、规划和预测能力。此外,在长期导航中,当智能体重新访问之前探索过的区域时,可能会保留无关和冗余的历史感知信息,导致导航结果不佳。本研究提出了RoboTron-Nav,一个统一的框架,通过在导航和具身问答任务上的多任务协作,整合了感知、规划和预测能力,从而显著提升了导航性能。RoboTron-Nav还采用了一种自适应的3D感知历史采样策略,有效且高效地利用历史观测数据。通过借助大型语言模型,RoboTron-Nav能够理解多样化的指令和复杂的视觉场景,从而生成合适的导航动作。在CHORES-S基准测试中的物体目标导航任务上,RoboTron-Nav取得了81.1%的成功率,创造了新的最优性能。这一成果表明,该框架在语言引导的视觉导航领域具有显著的实用价值和潜力,为未来的机器人导航研究提供了重要的技术参考。
具身导航语言引导视觉导航大型语言模型多任务协作
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新框架,显著提升导航性能,具有较大领域影响力。

JointTuner:面向定制化视频生成的外观-运动自适应联合训练

ArXiv ID: 2503.23951
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Fangda Chen, Shanshan Zhao, Chuanfu Xu, Long Lan
📄 中文摘要:
近年来,定制化视频生成技术在外观和运动的同步适配方面取得了显著进展。然而,传统方法通常将外观和运动训练解耦,这种分阶段策略往往导致概念干扰,进而影响外观特征或运动模式的准确渲染。此外,参考视频中的背景和前景元素可能会对定制主体造成外观污染,构成另一大挑战。本研究提出了一种新颖框架JointTuner,通过联合优化外观和运动组件来解决上述问题。该框架引入了两项关键创新:突触低秩适应(Synaptic LoRA)和外观无关时间损失(AiT Loss)。Synaptic LoRA通过一个上下文感知的线性激活层作为突触调节器,动态引导LoRA模块专注于主体外观或运动模式,从而在空间和时间维度上实现一致优化。AiT Loss则通过中断外观相关组件的梯度流,引导模型专注于运动学习,最大限度减少外观干扰。JointTuner兼容基于UNet的模型(如ZeroScope)和基于扩散变换器的模型(如CogVideoX),支持生成更长、更高质量的定制化视频。此外,本研究还提出了一个系统化的外观-运动联合定制评估框架,涵盖90种组合,并从语义对齐、运动动态性、时间一致性和感知质量四个关键维度进行评估。实验结果表明,JointTuner在定制化视频生成任务中显著提升了生成质量和一致性,为该领域提供了重要的技术进步。研究项目主页为https://fdchen24.github.io/JointTuner-Website。
定制化视频生成外观-运动联合训练突触低秩适应扩散模型计算机视觉
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在定制化视频生成领域提出重要创新,具有较大潜在影响力。

DeMo++:自动驾驶中的运动解耦

ArXiv ID: 2507.17342
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Bozhou Zhang, Nan Song, Xiatian Zhu, Li Zhang
📄 中文摘要:
本文提出了一种名为DeMo++的框架,旨在解决自动驾驶系统中运动预测与规划的问题。运动预测和规划分别负责估计交通参与者和自车轨迹,以确保在动态变化环境中的安全性和效率。传统方法通常采用一对一轨迹预测范式,即每个查询对应一条独特轨迹,以预测多模态轨迹。然而,这种方法在建模轨迹复杂的时空演变时往往表现不佳,可能导致碰撞或次优结果。为此,DeMo++将运动估计解耦为两个独立部分:整体运动意图,用于捕捉运动方向的多样性;精细时空状态,用于追踪场景中代理的动态进展并实现自我优化能力。此外,框架引入了跨场景轨迹交互机制,探索相邻场景中运动之间的关系,从而全面建模运动意图的多样性及每条轨迹的时空演变。为了有效实现这一框架,作者开发了一种结合注意力机制和Mamba的混合模型,利用两者的优势进行高效的场景信息聚合和精确的轨迹状态序列建模。大量实验表明,DeMo++在多个基准测试中取得了最先进的性能,包括运动预测(Argoverse 2 和 nuScenes)、运动规划(nuPlan)以及端到端规划(NAVSIM)。研究结果显示,该框架在提高自动驾驶系统的安全性和效率方面具有显著潜力,为未来的研究和应用提供了重要参考。
自动驾驶运动预测运动规划轨迹解耦时空建模
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: DeMo++在自动驾驶领域提出重要创新,可能显著提升系统性能。

触觉舒适:通过互动降低心率

ArXiv ID: 2508.04372
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Morten Roed Frederiksen, Kasper St{\o}y, Maja Matari\'c
📄 中文摘要:
本研究探讨了一种便携式伴侣机器人,用于帮助儿童在无需事先训练的情况下通过触觉互动实现放松,从而降低心率。研究背景源于焦虑障碍儿童通常被教授如深呼吸和重复咒语等策略来应对高焦虑情境,但这些方法依赖于事先的训练。本文提出了一种新型解决方案,即设计一款口袋大小的伴侣机器人,通过触觉游戏转移儿童注意力,促进放松效果。研究通过两个实验验证了该方法的效果:一个为期14天的试点研究,涉及两名8岁儿童;另一个主要研究涉及18名7-8岁儿童。两项研究均采用受试者内设计,测量儿童在与机器人互动时和未使用机器人时的心率。结果显示,与机器人互动显著降低了参与者的心率(p<0.01),相较于未使用机器人的对照条件,表现出一致的镇静效果。所有参与者均未被诊断为焦虑障碍,但研究结果表明,触觉伴侣机器人具有增强放松技巧治疗价值的潜力。这一发现为焦虑管理提供了一种创新工具,可能适用于更广泛的儿童群体,并为未来的临床应用奠定了基础。研究结论指出,触觉互动作为一种即时有效的放松手段,可能在儿童心理健康干预中发挥重要作用。
触觉互动伴侣机器人心率降低儿童焦虑放松技巧
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究具有创新性,触觉机器人可能对儿童焦虑管理产生较大影响。

基于位置的群集模型用于稳健对齐

ArXiv ID: 2508.04378
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Hossein B. Jond
📄 中文摘要:
本文提出了一种基于位置的群集模型,用于交互智能体的集体运动,通过平衡内聚-分离和对齐机制实现稳定的群体行为。该模型改进了基于速度的方法,通过使用初始位置和当前位置来近似速度差异,并引入阈值权重以确保持续的对齐效果。在二维空间中对50个智能体进行的仿真实验表明,与基于速度的模型相比,基于位置的模型能够产生更强的对齐效果,并形成更加刚性和紧凑的队形。对齐度量和分离距离的分析结果突显了所提出模型在实现稳健群集行为方面的有效性。模型利用位置信息确保了对齐的鲁棒性,避免了传统基于速度模型中可能出现的对齐不稳定问题。此外,该模型在机器人学和集体动力学领域具有广泛的应用前景,尤其适用于需要高度协调的多智能体系统,如无人机编队、机器人集群以及交通流量模拟等场景。研究结果表明,基于位置的群集模型在复杂动态环境中能够显著提升群体行为的稳定性和一致性,为多智能体系统的设计和优化提供了新的理论基础和实践指导。作者还讨论了模型在不同参数设置下的表现,并指出了未来研究方向,包括将模型扩展到三维空间以及考虑更复杂的环境干扰因素。总之,本文提出的方法为解决群体运动中的对齐问题提供了一种创新且有效的解决方案。
群集模型位置对齐多智能体系统集体运动机器人学
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在多智能体系统领域具有重要创新性,可能对机器人集群等领域产生较大影响。

将控制器行为的随机模型融入到移动机器人越野环境中运动规划的动力学高效自适应状态格子中

ArXiv ID: 2508.04384
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Eric R. Damm, Eli S. Lancaster, Felix A. Sanchez, Kiana Bronder, Jason M. Gregory, Thomas M. Howard
📄 中文摘要:
移动机器人运动规划器依赖理论模型来预测机器人如何在环境中移动。然而,在实际物理机器人上部署时,这些模型会因现实世界的物理特性和低级控制器遵循规划轨迹的不确定性而产生误差。本研究通过提出三种方法,将随机控制器行为整合到动力学高效自适应状态格子(KEASL)规划器的重组搜索空间中,以解决这一问题。为了验证该方法的效果,研究在越野非结构化环境中使用Clearpath Robotics Warthog无人地面车辆(UGV)进行了实验,采用了两种不同的感知算法,并对一系列模拟环境地图复杂性进行了消融研究。数据分析表明,将随机控制器采样融入KEASL后,生成的轨迹更加保守,与不采用采样的KEASL相比,预测的碰撞可能性有所降低。与扩展障碍物足迹的基线规划相比,预测的碰撞可能性更加接近,但基线搜索的规划成功率有所下降。本研究的关键发现是,通过考虑控制器行为的随机性,可以显著提高运动规划在复杂越野环境中的鲁棒性和安全性,为实际机器人部署提供了重要的理论支持和实践指导。研究结论表明,这种方法在平衡规划成功率和碰撞风险方面具有潜力,未来可进一步优化以适应更广泛的应用场景。
移动机器人运动规划随机模型越野环境自适应状态格子
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在机器人运动规划领域具有重要创新,可能提升越野环境中的规划安全性。

基于紧凑型LED的机器人手指位移传感技术

ArXiv ID: 2410.03481
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Amr El-Azizi, Sharfin Islam, Pedro Piacenza, Kai Jiang, Ioannis Kymissis, Matei Ciocarlie
📄 中文摘要:
本文提出了一种专为机器人手指设计的传感器,用于检测外部接触引起的位移。该传感器通过LED感知两块板之间由透明弹性体连接的位移变化;当手指受到外力时,弹性体发生位移,LED信号随之改变。研究表明,在此情境下将LED同时用作光发射器和接收器能够提供高灵敏度,使得这种发射器和接收器对能够检测到极小的位移。作者通过测试一个监督学习模型从原始信号预测完整力和扭矩数据的能力,表征了传感器的独立性能,发现在三个受力方向上的平均误差介于0.05至0.07牛顿之间。该方法支持手指尺寸的封装,无需放大电子设备,制造成本低,易于集成到完整的手部结构中,并且能够承受高过载剪切力和弯曲扭矩,表明其在未来完整操作任务中的应用潜力。研究结果为机器人手指的触觉感知技术提供了新的解决方案,可能显著提升机器人在复杂环境下的操作精度和适应性。通过这种紧凑型、低成本的设计,传感器在机器人技术领域展现了广阔的应用前景,尤其是在需要高精度触觉反馈的场景中。
机器人手指LED传感器位移感知触觉反馈监督学习
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在机器人触觉感知领域具有重要创新,可能提升操作精度。

Filippov系统中奇异摄动滑动流的动力学

ArXiv ID: 2508.03942
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Piotr Kowalczyk, Jan Sieber
📄 中文摘要:
本文对Filippov系统中奇异摄动对滑动运动的影响进行了深入分析。研究表明,奇异摄动可能导致切换流形上相空间的拓扑结构发生质的变化,作者将其分类为六种不同的拓扑结构。其中五种拓扑结构表明奇异摄动轨迹包含一段或多段滑动运动,而本文重点研究的第六种拓扑结构则表明轨迹演化特征为沿切换表面轨迹段之间的切换,而不涉及滑动运动。具体而言,在具有一个切换表面和m维快速动力学的n维Filippov系统中,快速动力学作为稳定的奇异摄动,其流动遵循简化系统的滑动运动,但摄动会随时间变化,并可能引发微观混沌行为。然而,流动方向的显著变化是不可能的。在一维快速动力学的特殊情况下,奇异摄动在向量场切换点处对摄动流产生O(ε)的规则摄动。研究通过数学分析和理论推导,揭示了奇异摄动在Filippov系统中的复杂影响,为理解非光滑动力系统的行为提供了重要见解。作者还讨论了这些拓扑结构对系统整体动力学行为的影响,并指出了未来研究的方向,如进一步探索多切换表面系统中的奇异摄动效应。总之,本文为非光滑动力系统领域的研究提供了理论基础,对理解奇异摄动在复杂系统中的作用具有重要意义。
奇异摄动Filippov系统滑动运动切换流形动力系统
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 本文在非光滑动力系统领域具有重要创新,可能对相关研究产生较大影响。

不平衡部分旋转航天器姿态运动研究

ArXiv ID: 2508.04695
发布日期: 2025-08-07
聚类ID: 聚类 29
📝 作者: Jingyuan Wu, Wenhao Li, Guanhua Feng
📄 中文摘要:
本文研究了具有非对称航天器平台和不平衡转子的航天器系统的姿态运动。通过摄动展开方法,将航天器的动力学方程简化为线性周期时变(LPTV)系统,并推导出了角速度的解析解。研究提出了一种新的稳定性准则,为稳定性转变和动态行为提供了深刻的见解。此外,文章对进动和章动的特征运动进行了分析研究,揭示了这些运动与系统惯性属性的依赖关系。为了验证解析结果,进行了数值模拟,模拟结果与解析结果在定义的操作范围内表现出极好的一致性,并给出了线性化的误差界限。本研究的发现加深了对不平衡部分旋转航天器动力学的理解,为此类系统的设计和优化提供了实用的指导意见。通过对航天器姿态运动的深入分析,本文不仅在理论上拓展了相关领域的知识体系,还为实际工程应用中提高航天器控制精度和稳定性提供了重要参考。
航天器姿态运动不平衡转子线性周期时变系统稳定性准则数值模拟
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 本文在航天器动力学领域具有重要创新,可能对系统设计产生较大影响。