← 返回总览

计算机科学-机器人与视觉

2025-08-08 K-means智能聚类结果

聚类 26 • 机器学习算法识别
35 论文总数
35 高分论文
7.6 平均评分
5 关键词数

🔍 聚类关键词特征

机器人视觉任务本文导航

INTENTION:通过交互直觉和基于视觉语言模型的推理推断人形机器人运动倾向

ArXiv ID: 2508.04931
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Jin Wang, Weijie Wang, Boyuan Deng, Heng Zhang, Rui Dai, Nikos Tsagarakis
📄 中文摘要:
传统的机器人操作控制与规划高度依赖精确的物理模型和预定义的动作序列。尽管这些方法在结构化环境中表现良好,但在现实世界场景中,由于建模不准确和难以泛化到新任务,常常失效。相比之下,人类能够凭借直觉与环境互动,展现出卓越的适应性,通过隐性的物理理解高效决策。本研究提出了一种名为INTENTION的新框架,通过整合基于视觉语言模型(VLM)的场景推理与交互驱动的记忆机制,使机器人具备学习到的交互直觉和在多样化场景中的自主操作能力。我们引入了记忆图(Memory Graph)来记录先前任务交互中的场景信息,这种方法体现了类似人类的理解和现实世界中不同任务的决策能力。同时,我们设计了一个直觉感知器(Intuitive Perceptor),用于从视觉场景中提取物理关系和功能性(affordances)。这些组件共同使机器人能够在无需重复指令的情况下,在新场景中推断出合适的交互行为。本研究的创新在于通过模仿人类直觉和记忆机制,显著提升了机器人在非结构化环境中的适应性和自主性,为机器人操作提供了一种新的范式。研究结果表明,INTENTION框架在多种任务中表现出色,尤其是在需要泛化和快速适应的场景中,具有重要的应用潜力。结论指出,该方法为未来机器人与人类更自然、更高效的交互奠定了基础,同时也为视觉语言模型在机器人领域的应用开辟了新方向。
机器人直觉视觉语言模型交互记忆人形机器人场景推理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人直觉和自主性方面有重要创新,可能显著影响机器人领域。

多机器人同时区域与线覆盖的最优规划:基于分层循环合并调控

ArXiv ID: 2508.04981
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Tianyuan Zheng, Jingang Yi, Kaiyan Yu
📄 中文摘要:
本文研究了多机器人同时覆盖线性特征(如表面裂缝或道路路线)和勘察区域(如停车场或局部区域)的双重覆盖问题,旨在为多个机器人在已知环境中确定高效、无碰撞的路径。每个机器人承担两种功能角色:服务(线性特征覆盖)和探索(完整区域覆盖)。服务操作的覆盖范围较小,但成本(如时间)高于探索。本文提出了一种基于分层循环合并调控(HCMR)的优化规划算法,以解决双重覆盖问题中的复杂性。为实现最优规划方案,作者从莫尔斯理论的角度分析了图遍历中的流形附着过程,证明了满足最小路径长度和无碰撞约束的解必须属于莫尔斯有界集合。为识别这一集合,作者引入了HCMR算法,其中循环合并搜索调控遍历行为,边序列回溯将这些调控转化为图边遍历序列。通过平衡分区,选择最优序列为每个机器人生成路径。作者证明了在固定扫描方向下HCMR算法的最优性。多机器人仿真结果表明,与其他最先进的规划方法相比,HCMR算法显著改善了规划路径长度(至少提升10.0%),平均减少任务时间至少16.9%,并确保无冲突操作。研究结果展示了HCMR算法在多机器人任务规划中的高效性和实用性,为解决复杂覆盖问题提供了新的理论和实践基础。
多机器人双重覆盖最优规划分层循环合并无碰撞路径
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新算法,对多机器人覆盖问题有重要影响,应用潜力大。

MAG-Nav:基于语言驱动的对象导航,利用记忆保留的主动接地

ArXiv ID: 2508.05021
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Weifan Zhang, Tingguang Li, Yuzhen Liu
📄 中文摘要:
本文提出了一种基于现成视觉语言模型(VLMs)的导航框架,旨在通过自然语言描述在未知环境中实现视觉导航,这是智能机器人的一项关键能力。该框架引入了两种受人类启发的机制:基于视角的主动接地和历史记忆回溯。前者通过动态调整机器人的视角以优化视觉检查,后者使系统能够保留并随时间重新评估不确定的观察结果。与现有被动依赖偶然视觉输入的方法不同,本方法通过主动优化感知和利用记忆来解决复杂未知环境中的视觉-语言接地问题,显著提升了导航性能。该框架以零样本方式运行,无需标记数据或模型微调,即可在多样化和开放性的语言描述中实现强大的泛化能力。实验结果表明,在Habitat-Matterport 3D (HM3D)数据集上,该方法在语言驱动的对象导航任务中优于现有最先进方法。此外,作者通过在四足机器人上的现实世界部署进一步验证了该方法的实用性,展示了其在实际应用中的稳健性和有效性。本研究为智能机器人在复杂环境中的语言驱动导航提供了新的思路和解决方案,具有重要的理论价值和应用前景。
视觉导航语言驱动主动接地历史记忆零样本学习
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在语言驱动导航领域具有重要创新,可能对机器人学产生较大影响。

化学之眼:基于视觉语言模型的安全监控与自驱动实验室机器人决策系统

ArXiv ID: 2508.05148
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Francisco Munguia-Galeano, Zhengxue Zhou, Satheeshkumar Veeramani, Hatem Fakhruldeen, Louis Longley,
📄 中文摘要:
本文介绍了‘化学之眼’(Chemist Eye),一种专为自驱动实验室(SDLs)设计的安全监控系统,旨在增强实验室中的情境感知能力。自驱动实验室通过机器人和自动化技术的集成,增加了安全管理的复杂性,尤其是在个人防护装备(PPE)合规性和火灾风险方面。特别是在SDLs中,靠近使用易燃锂电池的移动机器人的火灾可能导致更严重的后果。‘化学之眼’系统通过多个配备RGB、深度和红外摄像头的监控站,实时监控实验室中的事故、医疗紧急情况、PPE合规性以及火灾隐患。该系统采用基于视觉语言模型(VLM)的决策机制,能够与机器人无缝集成,实现实时通信。根据VLM的建议,系统可引导移动机器人远离潜在火灾位置、出口或未穿戴PPE的人员,并发出必要的语音警告。此外,系统还与第三方消息平台集成,向实验室人员发送即时通知。在配备三台移动机器人的SDL中进行的真实数据测试表明,‘化学之眼’在安全隐患识别和决策性能方面分别达到了97%和95%的准确率。研究结果表明,该系统在提升自驱动实验室安全性和机器人决策效率方面具有显著潜力,为实验室自动化安全管理提供了创新解决方案。
自驱动实验室安全监控视觉语言模型机器人决策个人防护装备
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在实验室自动化安全领域具有重要创新,可能显著提升SDLs的安全管理水平。

学习观察与行动:机器人操作的任务感知视图规划

ArXiv ID: 2508.05186
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Yongjie Bai, Zhouxia Wang, Yang Liu, Weixing Chen, Ziliang Chen, Mingtong Dai, Yongsen Zheng, Lingbo
📄 中文摘要:
本文提出了一种名为任务感知视图规划(Task-Aware View Planning, TAVP)的框架,旨在解决当前视觉-语言-动作(VLA)模型在多任务机器人操作中面临的静态视角和共享视觉编码器带来的限制问题。这些限制导致了三维感知能力的不足和任务干扰,影响了模型的鲁棒性和泛化能力。TAVP通过整合主动视图规划与任务特定的表示学习来克服这些挑战。该框架采用了一种高效的探索策略,并通过一种新颖的伪环境加速探索过程,以主动获取信息丰富的视图。此外,研究引入了混合专家(Mixture-of-Experts, MoE)视觉编码器,用于解耦不同任务的特征,从而提升表示的保真度和任务泛化能力。通过以任务感知的方式学习观察世界,TAVP生成了更完整、更具区分性的视觉表示,在广泛的操作挑战中显著提升了动作预测能力。在RLBench任务上的大量实验表明,TAVP模型在性能上优于现有的固定视图方法,展现了其在机器人操作领域的潜力。研究还提供了视觉结果和代码以供进一步验证和应用。
机器人操作任务感知视图规划视觉编码器动作预测
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人操作领域具有重要创新,可能显著提升多任务处理能力。

EndoMatcher:通过多领域预训练实现机器人辅助手术中通用内窥镜图像匹配

ArXiv ID: 2508.05205
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Bingyu Yang, Qingyao Tian, Yimeng Geng, Huai Liao, Xinyan Huang, Jiebo Luo, Hongbin Liu
📄 中文摘要:
在机器人辅助手术中,内窥镜图像的通用密集特征匹配对于三维重建、导航和手术场景理解等任务至关重要。然而,由于内窥镜图像的视觉条件复杂(如弱纹理、大视角变化)以及标注数据的稀缺性,这一任务面临巨大挑战。为解决这些问题,本文提出了EndoMatcher,一种通过大规模多领域数据预训练实现的通用内窥镜图像匹配方法。针对复杂的视觉条件,EndoMatcher采用双分支视觉变换器(Vision Transformer)提取多尺度特征,并通过双重交互模块增强鲁棒性对应学习。为克服数据稀缺和提升领域多样性,作者构建了Endo-Mix6,这是首个用于内窥镜匹配的多领域数据集,包含约120万对真实和合成图像对,覆盖六个领域,并通过运动结构恢复(Structure-from-Motion)和模拟变换生成对应标签。Endo-Mix6的多样性和规模带来了训练稳定性挑战,包括数据集大小差异、分布偏移和误差不平衡等问题。为此,作者提出了一种渐进式多目标训练策略,促进跨领域的平衡学习并提升表示质量,使EndoMatcher能够在零样本条件下泛化到未见过的器官和成像条件。广泛的零样本匹配实验表明,EndoMatcher在Hamlyn和Bladder数据集上的内点匹配数量分别比最先进方法提高了140.69%和201.43%,在Gastro-Matching数据集上的匹配方向预测准确率(MDPA)提高了9.40%,在挑战性内窥镜条件下实现了密集且准确的匹配。代码已公开,展示了其在机器人辅助手术中的潜在应用价值。
内窥镜图像匹配机器人辅助手术多领域预训练视觉变换器零样本泛化
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人手术图像匹配领域具有重要创新,可能显著提升手术精度和安全性。

迈向具身智能AI:基于LLM和VLM的机器人自主性和交互的综述与分类

ArXiv ID: 2508.05294
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge
📄 中文摘要:
本文综述了基于基础模型(如大型语言模型LLM和视觉-语言模型VLM)的机器人自主性和人机交互领域的最新进展。近年来,这些模型为机器人系统带来了全新的方法,同时视觉-语言-动作模型(VLA)和大型行为模型(BLM)进一步提升了机器人系统的灵活性和能力。本文聚焦于推动具身智能(agentic applications)发展的研究与架构,探讨了从基于GPT风格的工具接口到更复杂的AI代理系统的发展路径。这些复杂的系统包括AI代理作为协调者、规划者、感知执行者或通用接口的角色,使机器人能够理解自然语言指令、调用API、规划任务序列,或协助操作和诊断。本文不仅回顾了同行评审的研究成果,还考虑到该领域快速发展的特点,纳入了社区驱动的项目、ROS软件包和工业框架,以展示新兴趋势。此外,本文提出了一种模型集成方法的分类法,并对当前文献中不同解决方案中AI代理的角色进行了比较分析。通过对现有工作的系统性梳理,本文揭示了具身智能AI在机器人技术中的潜力与挑战,为未来研究提供了重要的参考框架。研究表明,基于LLM和VLM的架构正在推动机器人从单纯的执行者向具备推理和决策能力的智能体转变,尽管在实际应用中仍面临计算资源、实时性和泛化能力的限制。结论指出,未来的发展方向可能包括更高效的多模态模型集成以及在复杂环境中的鲁棒性测试。
具身智能大型语言模型视觉-语言模型机器人自主性人机交互
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文具有重要创新性,对机器人智能化的未来发展有较大影响。

GhostShell:流式大语言模型函数调用用于并发具身编程

ArXiv ID: 2508.05298
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Jian Gong, Youwei Huang, Bo Yuan, Ming Zhu, Juncheng Zhan, Jinke Wang, Hang Shu, Mingyue Xiong, Yanj
📄 中文摘要:
本文提出了一种名为GhostShell的新方法,利用大语言模型(LLMs)实现具身系统的流式和并发行为编程。与传统的依赖预先安排的动作序列或行为树的方法不同,GhostShell通过从LLM流式传输的令牌逐步发出函数调用,驱动具身系统实时行动。GhostShell包含一个流式XML函数令牌解析器、一个动态函数接口映射器以及一个多通道调度器,该调度器协调通道内的同步和通道间的异步函数调用,从而根据LLM的指令协调多个机器人组件的串并行具身动作。我们在机器人原型COCO上对GhostShell进行了评估,通过34个真实世界交互任务和多个LLM的全面接地实验进行测试。结果表明,我们的方法在使用Claude-4 Sonnet时达到了0.85的行为正确性指标(Behavioral Correctness Metric),达到了领域内最先进的水平,并且响应时间比LLM原生函数调用API快高达66倍。GhostShell在长距离多模态任务中也表现出色,展现了强大的鲁棒性和泛化能力。研究表明,GhostShell为具身系统的实时行为编程提供了一种高效且创新的解决方案,有望在机器人技术和人工智能领域产生广泛影响。
大语言模型具身编程流式函数调用机器人行为并发调度
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: GhostShell在具身编程领域具有重要创新,可能显著提升机器人实时交互能力。

信息理论图融合与视觉-语言-动作模型在策略推理和双臂机器人控制中的应用

ArXiv ID: 2508.05342
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Shunlei Li, Longsen Gao, Jin Wang, Chang Che, Xi Xiao, Jiuwen Cao, Yingbai Hu, Hamid Reza Karimi
📄 中文摘要:
本文提出了一种名为图融合视觉-语言-动作(GF-VLA)的框架,旨在通过RGB和深度图像的人类演示,直接使双臂机器人系统能够进行任务级推理和执行。研究背景聚焦于从人类视频中教授机器人灵巧技能的挑战,传统方法依赖低级轨迹模仿,难以在对象类型、空间布局和机械手配置上实现泛化。GF-VLA首先基于香农信息理论提取线索,识别与任务相关性最高的手和对象,随后将这些线索编码为时间有序的场景图,捕捉手-对象和对象-对象之间的交互关系。这些场景图与语言条件变换器融合,生成层次化的行为树和可解释的笛卡尔运动指令。为提升双臂场景下的执行效率,研究进一步引入了跨手选择策略,无需显式几何推理即可推断最佳抓取器分配。实验在四个结构化的双臂积木组装任务上评估了GF-VLA,任务涉及符号形状构建和空间泛化。结果表明,基于信息理论的场景表示实现了超过95%的图精度和93%的子任务分割率,支持大语言模型(LLM)规划器生成可靠且人类可读的任务策略。在双臂机器人执行中,这些策略在堆叠、字母构建和几何重构场景中分别实现了94%的抓取成功率、89%的放置精度和90%的总体任务成功率,展现了在多样化的空间和语义变化中的强大泛化能力和鲁棒性。研究结论表明,GF-VLA框架在机器人任务推理和执行中具有显著的创新性和应用潜力。
双臂机器人视觉-语言-动作模型信息理论场景图任务推理
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人任务推理领域具有重要创新,可能对双臂机器人控制产生较大影响。

模块化机器人计算设计与制造:无束缚控制的研究

ArXiv ID: 2508.05410
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Manas Bhargava, Takefumi Hiraki, Malina Strugaru, Michal Piovarci, Chiara Daraio, Daisuke Iwai, Bern
📄 中文摘要:
自然界中的生物通过其肌肉骨骼系统的分布式驱动来适应不同地形或改变身体形态以执行多样化任务。在机器人领域,模仿这种广泛的适应性和运动范围一直是一个长期挑战。为此,人类开发了多种模仿自然生物的软体机器人系统。然而,这些系统通常针对单一功能进行优化,缺乏按需改变形态或功能的能力,或者常被束缚于笨重的控制系统。本研究提出了一种设计和控制机器人的框架,通过利用分布式驱动模仿自然界的蓝图,解决上述挑战。我们设计了一种新型构建模块,结合3D打印的骨骼与液晶弹性体(LCE)肌肉作为轻量化驱动器,实现肌肉骨骼机器人的模块化组装。开发的LCE棒能够在红外辐射作用下收缩,从而实现对骨骼分布式网络的局部无束缚控制,进而导致机器人整体形变。此外,为充分利用广阔的设计空间,我们开发了两种计算工具:一种用于优化机器人的骨骼图结构,支持多种目标形变;另一种用于协同优化骨骼设计和控制步态,以实现目标运动。我们通过构建多个机器人验证了系统的有效性,这些机器人展示了复杂的形态变化、多样的控制方案以及对环境的适应性。本系统集成了模块化材料构建、无束缚分布式控制和计算设计方面的进步,推出了一代新型机器人,使其能力更接近于活体生物。这一研究为软体机器人领域提供了重要的技术创新,可能对未来的机器人设计和应用产生深远影响。
模块化机器人分布式驱动无束缚控制液晶弹性体计算设计
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在软体机器人领域具有重要创新,可能显著影响未来机器人设计。

人机协作操作中的混合主动对话

ArXiv ID: 2508.05535
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Albert Yu, Chengshu Li, Luca Macesanu, Arnav Balaji, Ruchira Ray, Raymond Mooney, Roberto Mart\&#x27
📄 中文摘要:
本文研究了在长期人机协作中,机器人系统如何适应不同的人类伙伴,这些伙伴的物理行为、协助意愿以及对机器人能力的理解可能会随时间变化。作者提出了一种混合主动对话范式(Mixed-Initiative Dialog),并开发了MICoBot系统,用于处理人类与机器人通过自然语言共同制定、接受或拒绝任务步骤分配的场景,以实现高效协作。MICoBot系统在三个层面上进行决策:首先,元规划器(meta-planner)通过人类对话制定并编码高级协作策略;其次,规划器基于机器人的能力(通过仿真预训练的可负担性模型评估)和人类协助的估计可用性,优化分配剩余任务步骤给机器人或人类;最后,动作执行器决定执行的具体低级动作或与人类交流的语言内容。作者在仿真环境和现实世界中进行了广泛评估,涉及一台物理机器人与18名不同的人类参与者共计27小时的实验。结果表明,MICoBot能够与多样化的人类用户有效协作,相较于纯大语言模型(LLM)基线和其他代理分配模型,显著提高了任务成功率和用户体验。本研究为构建适应性强、交互自然的人机协作系统提供了重要参考,展示了混合主动对话在提升协作效率和用户满意度方面的潜力。
人机协作混合主动对话机器人学自然语言处理任务分配
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新性对话范式,对人机协作领域有较大潜在影响。

CleanUpBench:具身清扫与抓取基准测试

ArXiv ID: 2508.05543
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Wenbo Li, Guanting Chen, Tao Zhao, Jiyao Wang, Tianxin Hu, Yuwen Liao, Weixiang Guo, Shenghai Yuan
📄 中文摘要:
具身人工智能(Embodied AI)基准测试在导航、操作和推理方面取得了显著进展,但大多数研究针对的是复杂的人形代理或大规模仿真,与现实世界的部署存在较大差距。相比之下,具有双模式功能(如清扫和抓取)的移动清洁机器人正迅速成为现实且具有商业价值的平台。然而,目前尚无基准测试系统性地评估这些代理在结构化、多目标清洁任务中的表现,揭示了学术研究与现实应用之间的关键差距。本文提出了CleanUpBench,一个可重复且可扩展的基准测试,用于评估具身代理在现实室内清洁场景中的表现。CleanUpBench基于NVIDIA Isaac Sim构建,模拟了一个配备清扫机制和六自由度机械臂的移动服务机器人,能够与异构物体进行交互。该基准测试包括手动设计的环境和一个程序化生成的布局以评估泛化能力,同时提供涵盖任务完成度、空间效率、运动质量和控制性能的全面评估套件。为了支持比较研究,作者提供了基于启发式策略和基于地图的规划的基线代理。CleanUpBench弥合了低级技能评估与全场景测试之间的差距,为日常环境中的接地具身智能提供了一个可扩展的测试平台。通过这一基准测试,研究人员能够更好地理解和改进清洁机器人在现实世界中的表现,推动具身人工智能技术向实际应用迈进。最终,CleanUpBench为学术界和工业界提供了一个重要的工具,以促进具身智能在服务机器人领域的进一步发展。
具身人工智能清洁机器人基准测试机器人抓取室内导航
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究提出创新基准测试,填补学术与应用差距,具有较大潜力影响机器人领域。

圆柱形机械手轨迹跟踪的鲁棒自适应模糊滑模控制

ArXiv ID: 2508.05584
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Van Cuong Pham, Minh Hai Tran, Phuc Anh Nguyen, Ngoc Son Vu, Nga Nguyen Thi
📄 中文摘要:
本研究提出了一种鲁棒自适应模糊滑模控制(AFSMC)方法,旨在提升圆柱形机器人机械手在轨迹跟踪中的性能。圆柱形机械手广泛应用于数控机床(CNC)和3D打印等领域。AFSMC方法结合了模糊逻辑和滑模控制(SMC),以增强系统的适应性和鲁棒性。其中,模糊逻辑用于近似系统的未知动态特性,而滑模控制则确保了系统的强健性能。通过在MATLAB/Simulink环境中进行的仿真实验,结果表明,与传统方法相比,AFSMC在轨迹跟踪精度、稳定性和抗干扰能力方面均有显著提升。研究详细分析了AFSMC在处理不确定性和外部干扰时的优越性,验证了其在机器人机械手控制中的有效性。作者指出,该方法能够显著提高工业机器人应用的精度,为复杂工业环境下的机器人控制提供了新的解决方案。此外,本研究还探讨了AFSMC在实际应用中的潜在挑战和改进方向,为未来的研究奠定了基础。总之,本文提出的AFSMC方法在机器人控制领域具有重要的理论价值和实践意义,有助于推动工业自动化技术的进一步发展。
鲁棒控制自适应模糊控制滑模控制轨迹跟踪机器人机械手
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人控制领域具有重要创新性,可能对工业应用产生较大影响。

面向泛化安全的群体导航:通过共形不确定性处理

ArXiv ID: 2508.05634
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li
📄 中文摘要:
本文研究了移动机器人在人群中导航的安全性问题,特别是在面对分布外场景时性能下降的挑战。作者提出了一种通过适当考虑行人不确定性来学习鲁棒性安全导航策略的方法。该方法通过自适应共形推断生成预测不确定性估计,并将其融入智能体观察中,结合约束强化学习指导智能体的行为。这种系统能够调节智能体的行动,使其适应分布偏移。在分布内场景中,该方法取得了96.93%的成功率,相比之前最先进的基线方法提高了超过8.80%,同时碰撞次数减少了3.72倍,侵入真实人类未来轨迹的次数减少了2.43倍。在三种分布外场景(速度变化、策略变化以及从个体到群体动态的转变)中,该方法展现了更强的鲁棒性,成功应对了分布偏移的挑战。此外,作者在真实机器人上部署了该方法,实验表明机器人在稀疏和密集人群中都能做出安全且鲁棒的决策。本研究为机器人导航的安全性和泛化能力提供了重要贡献,相关代码和视频已公开,供进一步研究和验证。
群体导航安全导航强化学习共形推断分布偏移
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人导航安全性和泛化性方面有重要创新,可能对领域发展产生较大影响。

Genie Envisioner:机器人操作的统一世界基础平台

ArXiv ID: 2508.05635
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai
📄 中文摘要:
本文介绍了Genie Envisioner(GE),一个用于机器人操作的统一世界基础平台,该平台将策略学习、评估和仿真整合在一个单一的视频生成框架内。GE的核心是GE-Base,这是一个大规模、指令条件化的视频扩散模型,能够在结构化的潜在空间中捕捉现实世界机器人交互的空间、时间和语义动态。在此基础上,GE-Act通过一个轻量级的流匹配解码器将潜在表示映射到可执行的动作轨迹,实现跨不同实体的高精度和泛化策略推断,且所需监督极少。为了支持可扩展的评估和训练,GE-Sim作为一个动作条件化的神经仿真器,提供高保真的闭环策略开发滚动预测。此外,该平台还配备了EWMBench,一个标准化的基准测试套件,用于测量视觉保真度、物理一致性和指令-动作对齐性。这些组件共同使Genie Envisioner成为一个可扩展且实用的指令驱动通用具身智能基础平台。研究团队承诺将所有代码、模型和基准测试公开发布,以促进学术界和工业界的进一步研究与应用。本文的研究为机器人操作领域提供了一个全新的视角,通过统一的视频生成框架显著提升了策略学习和仿真的效率与效果,为实现通用具身智能奠定了重要基础。关键发现表明,该平台在多种机器人任务中表现出优异的泛化能力和精确性,尤其是在低监督条件下的策略推断能力。结论指出,Genie Envisioner有望成为未来机器人智能发展的核心工具,推动跨领域协作与技术创新。
机器人操作视频扩散模型具身智能策略学习神经仿真
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究具有重要创新性,可能对机器人学和AI领域产生较大影响。

人机一体化通用控制方法

ArXiv ID: 2412.14762
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Maddalena Feder, Giorgio Grioli, Manuel G. Catalano, Antonio Bicchi
📄 中文摘要:
本文提出了一种新的通用控制方法,专门针对多自由度设备设计,旨在帮助运动能力受限的人群在日常活动中获得支持。研究的核心挑战在于找到最合适的控制界面策略,将用户在低维空间中的运动有效映射到复杂的机器人辅助设备上,例如假肢、超数肢体,甚至远程机器人化身。研究目标是构建一个将人类与机器人部分整合为统一系统的框架,使系统能够根据人类设定的目标进行运动,同时自主减少用户的努力和不适感。本文提出的控制框架适用于控制多自由度的辅助系统,能够将用户执行的补偿性运动转化为机器人达到目标所需的命令,同时消除或减少补偿行为。该框架可扩展至任意自由度的假肢,甚至包括完整的机器人化身,后者被视为一种全身假肢,使用户将机器人视为自身身体的人工延伸,尽管没有物理连接,但实现了感觉-运动的整合。研究通过模拟场景和现实世界的试验验证并应用了这一控制策略,试验包括机器人部件(假肢和机器人)的虚拟双胞胎以及物理人形化身的测试。结果表明,该方法在提高用户控制效率和舒适度方面具有显著潜力,为人机一体化技术的发展提供了重要参考。
人机一体化通用控制方法多自由度设备机器人辅助感觉-运动整合
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在人机交互领域具有重要创新,可能显著提升辅助机器人技术的影响力。

Di-NeRF:分布式NeRF用于协作学习与相对姿态优化的研究

ArXiv ID: 2402.01485
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Mahboubeh Asadi, Kourosh Zareinia, Sajad Saeedi
📄 中文摘要:
本文提出了一种完全分布式的算法,用于一群机器人协作优化神经辐射场(NeRF)的参数,以实现对未知环境的协作式建图。相比单一机器人,协作式建图能够更快、更鲁棒地完成任务,但需要分布式范式来应对可扩展性和通信问题。该算法通过网格网络传输每个机器人训练的NeRF参数,每个机器人仅基于自身的视觉数据训练其NeRF模型。同时,算法联合优化所有机器人的相对姿态和模型参数,从而在相对相机姿态不够精确的情况下仍能实现有效的建图。研究表明,多机器人系统可以通过多个NeRF的优化获得可微分且鲁棒的3D重建效果。作者在真实世界数据和合成数据上进行了实验,验证了所提出算法的高效性。实验视频和补充材料可在项目网站上查看(https://sites.google.com/view/di-nerf/home)。本文的研究背景在于解决多机器人协作建图中的通信和姿态估计问题,主要方法包括分布式NeRF参数优化和相对姿态的联合优化,关键发现是该方法在多机器人系统中显著提升了3D重建的精度和鲁棒性。结论表明,分布式NeRF算法为多机器人协作建图提供了一种高效且可扩展的解决方案,未来可进一步应用于更复杂的动态环境。
分布式NeRF协作建图多机器人系统相对姿态优化3D重建
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多机器人协作建图领域具有重要创新,可能对未来分布式3D重建产生较大影响。

现实融合:基于体积视觉数据融合的鲁棒实时沉浸式移动机器人遥操作

ArXiv ID: 2408.01225
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Ke Li, Reinhard Bacher, Susanne Schmidt, Wim Leemans, Frank Steinicke
📄 中文摘要:
本文提出了一种名为‘现实融合(Reality Fusion)’的新型机器人遥操作系统,该系统通过将典型的车载深度传感器与复杂远程环境的逼真、高分辨率、高帧率、宽视场(FoV)的3D高斯斑点(3DGS)渲染相结合,实现定位、流式传输、投影和融合。研究背景在于解决传统深度传感器视场有限的问题,同时在数据流传输成本与视觉质量之间取得平衡,从而支持沉浸式虚拟现实(VR)中的自中心和外中心机器人遥操作。该系统通过3DGS有效扩展了深度传感器的空间信息,为用户提供了更全面的环境感知能力。主要方法包括开发一个高性能的VR 3DGS渲染器、设计易于复制的定制遥现机器人以及集成沉浸式机器人控制包。关键发现表明,通过对24名参与者的用户研究,‘现实融合’系统显著提升了用户性能、情境意识和用户偏好,展现出其在实际应用中的潜力。结论指出,该系统为机器人遥操作提供了一种鲁棒且高效的解决方案,并为未来的研究和开发奠定了基础。作者还提供了开源实现,包括源代码(https://github.com/uhhhci/RealityFusion),以支持进一步的学术探索和技术创新。
机器人遥操作沉浸式虚拟现实3D高斯斑点体积视觉数据融合用户研究
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人遥操作领域具有重要创新,可能显著提升沉浸式交互体验。

快速且鲁棒的视觉运动黎曼流匹配策略

ArXiv ID: 2412.10855
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Haoran Ding, No\'emie Jaquier, Jan Peters, Leonel Rozo
📄 中文摘要:
本文提出了一种基于黎曼流匹配策略(Riemannian Flow Matching Policy, RFMP)的模型,用于学习复杂的机器人视觉运动任务。传统的扩散模型在处理视觉数据与高维多模态动作分布的结合时表现出色,但其推理速度较慢,需耗费大量去噪计算,或依赖复杂的序列训练方法。RFMP继承了流匹配(Flow Matching, FM)的易训练和快速推理特性,同时天然融入了机器人应用中常见的几何约束,因为机器人状态通常位于黎曼流形上。为了进一步提升RFMP的鲁棒性,本文提出了稳定黎曼流匹配策略(Stable RFMP, SRFMP),该方法利用LaSalle不变性原理,为FM的动态系统提供了对目标黎曼分布支持的稳定性保障。通过在十个模拟和真实世界任务上的严格评估,RFMP在欧几里得空间和黎曼空间上成功学习并合成了复杂的感官运动策略,其训练和推理阶段效率高,性能优于扩散策略(Diffusion Policies)和一致性策略(Consistency Policies)。研究结果表明,RFMP在处理复杂机器人任务时展现了显著的优势,为视觉运动策略的设计提供了新的思路和方法。
视觉运动策略黎曼流匹配机器人学流匹配稳定性
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在机器人视觉运动策略领域具有重要创新,可能对未来研究产生较大影响。

APEX-MR:多机器人异步规划与执行用于协作装配

ArXiv ID: 2503.15836
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Philip Huang, Ruixuan Liu, Shobhit Aggarwal, Changliu Liu, Jiaoyang Li
📄 中文摘要:
本文研究了多机器人系统的协调问题,并提出了一种名为APEX-MR的异步规划与执行框架,旨在安全高效地协调多个机器人完成协作装配任务,例如乐高积木的组装。相比单机器人工作站,多机器人系统具有扩展工作空间、提升任务效率以及实现更复杂灵巧任务的显著优势。然而,多机器人协调面临系统不确定性、任务效率、算法可扩展性及安全性等挑战。APEX-MR通过系统化的方法对多机器人任务和运动规划进行后处理,支持在不确定性环境下实现稳健的异步执行。实验结果表明,APEX-MR在许多长周期乐高装配任务中,平均执行时间比顺序规划快48%,比同步规划快36%。此外,作者将APEX-MR部署于双臂机器人系统中,成功完成了物理乐高装配任务。据称,这是首个使用商用乐高积木实现定制化乐高装配的机器人系统。实验验证了双臂系统在APEX-MR框架下能够安全协调机器人运动、高效协作并构建复杂的乐高结构。本研究为多机器人协作任务提供了一种创新解决方案,具有重要的应用潜力。项目相关信息可在网站https://intelligent-control-lab.github.io/APEX-MR/获取。
多机器人协调异步规划协作装配乐高装配机器人系统
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 该研究在多机器人协作领域具有重要创新,可能显著提升复杂任务效率。

基于子框架的多机器人网络轴承刚性维持控制

ArXiv ID: 2504.17103
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: J. Francisco Presenza, Ignacio Mas, J. Ignacio Alvarez-Hamelin, Juan I. Giribet
📄 中文摘要:
本文提出了一种新颖的方法,用于分析和控制具有感知约束和动态拓扑的多机器人网络中的轴承刚性。通过将系统框架分解为多个子框架,作者将轴承刚性这一全局属性表达为一组局部属性,并将刚性特征值作为自然的局部刚性度量标准。研究团队设计了一种去中心化的基于梯度的控制器,仅利用轴承测量数据执行特定任务指令。该控制器通过将刚性特征值保持在某一阈值以上来维持轴承刚性,且仅使用子框架内交换的信息即可实现控制。仿真实验验证了该方案的有效性,突显了其可扩展性和实用性。本文的研究背景在于多机器人网络在实际应用中面临的复杂环境和动态变化的挑战,传统的刚性维持方法往往需要全局信息,难以适应去中心化的需求。作者提出的方法通过局部信息实现全局刚性的维持,为多机器人系统的协调控制提供了新的思路。关键发现包括:子框架分解方法能够有效降低计算复杂性,同时保证系统的整体稳定性;基于梯度的控制器在动态拓扑下表现出较强的鲁棒性。结论指出,该方法在多机器人协作任务(如编队控制、目标跟踪)中具有广泛的应用前景,特别是在通信受限或计算资源有限的场景下。
轴承刚性多机器人网络子框架去中心化控制梯度控制器
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: 本文提出创新性方法,对多机器人控制领域有重要影响。

CARE:通过排斥估计增强视觉导航的安全性以避免碰撞

ArXiv ID: 2506.03834
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Joonkyung Kim, Joonyeol Sim, Woojun Kim, Katia Sycara, Changjoo Nam
📄 中文摘要:
本文提出了一种名为CARE(Collision Avoidance via Repulsive Estimation,基于排斥估计的碰撞避免)的方法,旨在提升基于学习的视觉导航方法的鲁棒性。近年来,视觉导航模型,尤其是基础模型,仅通过RGB图像生成可行轨迹,展现出了令人瞩目的性能。然而,这些策略在包含分布外(OOD)场景的环境中表现不佳,例如遇到未见过的物体或不同的相机设置(如视野、相机姿态或焦距的变化)。在不进行微调的情况下,此类模型可能生成导致碰撞的轨迹,需要大量数据收集和额外训练来解决这一问题。为此,本文引入了CARE模块,这是一个可附加的组件,能够在不依赖额外距离传感器或对预训练模型进行微调的情况下增强视觉导航的安全性。CARE可以无缝集成到任何基于RGB的导航模型中,这些模型生成局部机器人轨迹。它通过从RGB输入直接估计的深度图像计算排斥力向量,动态调整预训练模型生成的轨迹。本研究通过将CARE与最先进的视觉导航模型结合,并在多种机器人平台上进行评估。现实世界的实验表明,CARE在目标条件导航中显著减少了碰撞(最高达100%),且不影响导航性能;在探索任务中,CARE进一步提升了无碰撞旅行距离(最高达10.7倍)。相关项目页面为:https://airlab-sogang.github.io/CARE/。
视觉导航碰撞避免排斥估计机器人导航深度估计
⭐ 重要性评分: 8/10 查看原文
🤖 AI评价: CARE模块创新性强,对视觉导航安全有显著提升,可能影响机器人领域。

情感影响与人机协调反应之间因果关系的研究

ArXiv ID: 2508.04834
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Morten Roed Frederiksen, Kasper St{\o}y
📄 中文摘要:
本文旨在探索机器人与人类共享事件反应时是否会改变人类对机器人情感影响的感知,以提升机器人在社交情境中的功能表现。研究设计了两种测试设置:第一种设置聚焦于突出和隔离机器人情感表达中的反应元素;第二种设置则研究对机器人与人类物理接触反应施加特定时间延迟的效果。第一项测试涉及两组人类观察者(共84人),包括一个测试组和一个对照组,均与机器人进行互动。第二项测试涉及110名参与者,每十名参与者增加一次机器人反应的延迟时间。研究结果表明,当机器人对与人类观察者共享的事件做出反应时,相较于随机反应,其情感影响的感知发生了统计学上显著的变化(p<0.05)。此外,在共享物理互动中,接近人类反应时间的机器人反应被认为是最适合该场景的。本文得出结论,对于小型非人形机器人,约200毫秒的延迟时间可能对人类观察者产生最大的影响;而当目标是让人类观察者感觉自己对机器人产生了最大影响时,约100毫秒的较短反应时间最为有效。这些发现为优化机器人社交互动设计提供了重要参考,强调了反应时间在人机情感交流中的关键作用,并为未来研究提供了理论基础。
人机交互情感影响机器人反应反应延迟社交机器人
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 本文在人机交互领域具有重要创新性,可能对社交机器人设计产生较大影响。

线性搜索在发送者/接收者模型中捕获无意识移动目标

ArXiv ID: 2508.04870
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Khaled Jawhar, Evangelos Kranakis
📄 中文摘要:
本文研究了在发送者/接收者(S/R)通信模型下,两个具有不同通信能力的自主机器人如何通过线性搜索捕获一个无意识移动的目标。两个机器人可以在共处一地时进行面对面(F2F)通信,但其中一个机器人作为发送者(可无线发送消息),另一个作为接收者(可无线接收消息)。机器人以最大速度1移动,而目标从距离原点d处开始,以速度v<1远离原点(‘远离’模型)或以速度v≥0靠近原点(‘靠近’模型)移动。假设目标的运动方向(即是‘远离’还是‘靠近’模型)事先为机器人所知。为了捕获目标,两个机器人必须与目标同时处于同一位置。研究探讨了在已知目标运动方向的情况下,如何设计有效的搜索策略以确保捕获目标。作者分析了不同速度参数和通信模型对搜索效率的影响,提出了基于S/R模型的协作算法,通过优化机器人之间的通信和移动路径来实现目标捕获。研究的关键发现包括:在‘远离’模型中,机器人需要利用发送者与接收者之间的无线通信来预测目标位置并调整路径;而在‘靠近’模型中,机器人可以利用目标靠近原点的特性减少搜索时间。此外,研究还讨论了通信延迟和速度差异对捕获成功率的影响。结论表明,S/R通信模型显著提高了搜索效率,尤其是在目标速度较低的情况下,该方法能够以较小的计算成本实现高效捕获。这项研究为多机器人协作搜索提供了新的理论框架和实践指导。
线性搜索移动目标机器人协作发送者/接收者模型通信效率
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 论文在机器人协作搜索领域具有重要创新,可能对多智能体系统研究产生较大影响。

多机器人手臂运动规划的捷径技术基准测试

ArXiv ID: 2508.05027
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Philip Huang, Yorai Shaoul, Jiaoyang Li
📄 中文摘要:
为多机器人手臂生成高质量的运动规划是一项挑战,主要由于系统的高维度以及手臂间潜在的碰撞风险。传统的运动规划方法在多手臂系统中往往会生成在平滑性和执行时间上不够优化的运动方案。捷径技术作为一种后处理方法,常被用于提升运动质量以实现高效且平滑的执行。然而,在多手臂场景中,优化某一手臂的运动路径时必须避免与其他手臂发生碰撞。尽管现有的多手臂规划研究常采用某种形式的捷径技术,但其具体方法和对性能的影响往往描述得较为模糊。本研究通过在多种模拟场景中对现有的多手臂轨迹捷径方法进行定量比较,提供了全面的分析。我们详细探讨了每种捷径方法的优缺点,并提出了两种简单的策略,将这些方法结合起来以实现最佳的性能与运行时间权衡。本文的研究不仅揭示了不同捷径技术在多手臂运动规划中的适用性和局限性,还为未来的研究提供了有价值的参考数据和方法论支持。相关的视频、代码和数据集可在https://philip-huang.github.io/mr-shortcut/获取。
多机器人手臂运动规划捷径技术碰撞避免性能优化
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究具有重要创新性,为多手臂规划提供新视角,可能影响领域发展。

基于视觉的碰撞感知方法用于软体夹持器系统稳定抓取圆形物体

ArXiv ID: 2508.05040
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Boyang Zhang, Jiahui Zuo, Zeyu Duan, Fumin Zhang
📄 中文摘要:
本文提出了一种基于视觉的碰撞感知方法,旨在通过软体夹持器系统实现对圆形物体的稳定抓取。研究背景源于外部碰撞对机器人执行器抓取圆形物体时所构成的风险。作者开发了一种视觉感知模块,利用手掌内摄像头(eye-in-palm camera)提供宽广的视野,同时监控夹持器手指和被抓取物体的运动状态。此外,研究团队设计了一种碰撞丰富的抓取策略,以确保整个动态抓取过程的稳定性和安全性。为了验证碰撞检测机制的性能,研究人员制造了一个物理软体夹持器,并将其安装在协作机器人手臂上进行测试。实验结果表明,该系统能够即时响应碰撞事件,反应时间极短。同时,通过躲避测试,证实了夹持器能够精确检测外部碰撞的方向和强度。关键发现包括:视觉感知模块显著提高了软体夹持器在复杂环境下的抓取稳定性;碰撞检测机制能够在毫秒级别内作出反应,确保了抓取过程的安全性。结论指出,该方法为软体机器人系统在动态环境中的应用提供了新的解决方案,尤其适用于需要高安全性和稳定性的工业场景。未来研究可进一步优化视觉算法以适应更多形状的物体,并提升系统的鲁棒性。
软体夹持器碰撞感知视觉感知圆形物体抓取机器人手臂
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在软体机器人领域具有重要创新性,可能对工业抓取应用产生较大影响。

人形机器人手臂在指向任务中动作可读性的研究

ArXiv ID: 2508.05104
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Andrej L\&#x27;u\v{c}ny, Matilde Antonj, Carlo Mazzola, Hana Horn\&#x27;a\v{c}kov\&#x27;a, Ana Fari\
📄 中文摘要:
本研究探讨了人形机器人手臂动作在指向任务中的可读性,旨在理解人类如何从截断的动作和身体线索中预测机器人的意图,以提升人机交互的安全性和可预测性。研究通过设计实验,使用NICO人形机器人进行测试,参与者观察机器人手臂朝触摸屏上目标的移动。实验设置了不同的机器人线索条件,包括注视、指向以及注视与指向一致或不一致的情况。手臂轨迹在完整路径的60%或80%处被截断,参与者需预测最终目标。研究检验了多模态优越性假说和视觉优先假说,两者均得到了实验数据的支持。结果表明,人类能够通过结合多种线索(如注视和手臂动作)更准确地预测机器人意图,尤其是在动作未完成的情况下,多模态线索的结合显著提高了预测准确性。此外,注视线索在预测中起到关键作用,验证了视觉优先假说。这项研究揭示了机器人动作设计中可读性的重要因素,为未来人机交互中机器人行为的优化提供了理论依据和实践指导。研究结论强调,设计机器人时应注重动作和线索的一致性,以增强人类对机器人意图的理解和信任,从而提升交互体验和安全性。
人形机器人动作可读性人机交互指向任务多模态线索
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究在人机交互领域具有重要创新性,可能影响机器人设计。

元认知与自我调节学习在操控机器人问题解决任务中的应用

ArXiv ID: 2508.05112
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Margarida Romero (UniCA, UIC, LINE), George Kalmpourtzis
📄 中文摘要:
本文探讨了元认知在创造性问题解决(CPS)中的重要作用,重点分析了元推理在监控学习者推理过程和CPS活动进展中的应用。元推理负责监督问题解决过程的推进,并调节解决问题的所需时间和努力。在一个定义不明确的问题情境中,学习者需要通过探索来构建一个更明确的问题空间,并逐步接近解决方案空间。学习者在探索和利用过程中的行为受到元推理的调节。本研究通过元认知和交互主义方法,旨在识别和考察使用教育机器人进行CPS的过程。本文呈现了一个案例研究,参与者需要探索一组机器人立方体,以发展与系统每个单一组件相关的技术知识,同时还需要概念化这些立方体在组装后的系统级行为。研究展示了通过元认知调节探索和利用先前知识及新兴知识的过程,直至找到解决方案的关键发现。研究结果表明,元认知在帮助学习者管理复杂的机器人问题解决任务中起着至关重要的作用,尤其是在知识的涌现和问题解决策略的调整方面。通过对学习者在任务中的行为和反思的分析,本文揭示了元认知如何支持学习者在不确定的问题空间中导航,并最终实现有效的解决方案。这一研究为教育机器人领域中如何通过元认知策略提升学习者的问题解决能力提供了理论和实践指导。
元认知自我调节学习创造性问题解决教育机器人元推理
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 本文在教育机器人领域具有重要创新性,可能对学习策略研究产生较大影响。

从加拿大到日本:10000公里如何影响机器人远程操作中的用户感知

ArXiv ID: 2508.05143
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Sim\&#x27;eon Capy, Thomas M. Kwok, Kevin Joseph, Yuichiro Kawasumi, Koichi Nagashima, Tomoya Sasaki
📄 中文摘要:
机器人远程操作(RTo)作为本地控制的一种可行替代方案,尤其在需要人类干预的情况下,近年来受到广泛关注。本研究旨在探讨距离对机器人远程操作中用户感知的影响,特别关注远程操作机器人在老年人护理中的潜力。研究通过评估非专家用户在长距离RTo中的感知变化,比较用户在交互前后以及与本地操作机器人时的感知差异。为此,研究设计了一个包含多份问卷的特定协议,并开发了基于机器人操作系统(ROS)和Unity的专用软件架构。实验结果表明,本地操作和远程操作机器人条件之间没有统计学上的显著差异。这一发现表明,远程操作机器人可能成为传统本地控制的有效替代方案,尤其在跨越长距离(如从加拿大到日本的10000公里)的情况下,用户感知并未受到显著影响。研究还探讨了延迟、网络稳定性等技术因素对用户体验的影响,发现这些因素在当前技术条件下对用户感知的干扰较小。此外,本研究的结果为远程机器人技术在老年人护理中的应用提供了理论支持,表明远程操作可以有效弥补地理距离带来的限制,为未来在医疗和护理领域的广泛应用奠定了基础。结论指出,尽管技术挑战依然存在,但远程操作机器人在用户接受度和实用性方面展现出巨大潜力,未来可通过优化网络技术和用户界面进一步提升体验。
机器人远程操作用户感知老年人护理长距离影响ROS
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究具有重要创新性,为远程机器人应用提供了新视角,可能影响老年人护理领域。

与机器人共舞:表演艺术场景下儿童与机器人互动的实验研究

ArXiv ID: 2508.05208
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Victor Ngo, Rachel, Ramchurn, Roma Patel, Alan Chamberlain, Ayse Kucukyilmaz
📄 中文摘要:
本文对18名儿童在英国各地展出的Thingamabobas装置中与自主机器人手臂表演者NED(永不停歇的舞者)的现场互动体验进行了评估。研究详细描述了NED的设计,包括其服装、行为以及与人类的互动方式,这些都是装置的重要组成部分。通过观察分析,研究发现了儿童与机器人互动中的三大关键挑战:1)启动和维持互动的难度,2)机器人缺乏表现力和互惠性,3)儿童的期望未被满足。研究结果表明,儿童对机器人艺术表演者表现出天然的好奇心,并且在互动中展现出一定的适应能力。然而,观察结果强调了在表演艺术背景下优化人机交互(HRI)系统的迫切需求。研究指出,必须仔细考虑观众的能力、感知和期望,以确保特别是在年轻观众群体中,能够创造出引人入胜且有意义的互动体验。本文通过对儿童与机器人互动的深入分析,为设计更具吸引力和互动性的机器人表演系统提供了宝贵的见解,同时也突显了在艺术与技术交叉领域中,针对特定受众优化机器人行为的重要性。研究结论呼吁未来的HRI研究应更加关注文化和情感因素,以提升机器人作为艺术表演者的表现力和互动效果。
人机交互儿童互动机器人表演表演艺术观众期望
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究在人机交互与艺术结合领域具有创新性,可能对未来HRI设计产生较大影响。

Affecta-Context:上下文引导的行为适应框架

ArXiv ID: 2508.05359
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Morten Roed Frederiksen, Kasper St{\o}y
📄 中文摘要:
本文提出了一种名为Affecta-Context的通用框架,旨在促进社交机器人的行为适应能力。该框架利用物理上下文信息来指导人机交互中的行为决策。框架由两部分组成:一部分用于表示遇到的上下文环境,另一部分通过人机交互学习行为优先级。在遇到不同物理上下文时,框架根据测量的物理属性对上下文进行聚类。在每个上下文中,框架通过优化机器人行为的物理属性来学习行为优先级,以适应当前环境及与其交互的用户的偏好。本文通过一个实验展示了Affecta-Context框架的能力,使机器人能够自主学习离散行为的优先级排序。实验在两个不同的物理上下文中进行了72次交互,涉及6名不同的人类测试参与者。研究结果表明,经过训练的Affecta-Context框架能够对输入进行泛化,并将其行为匹配到之前未访问过的物理上下文。这一框架为社交机器人在动态环境中的行为适应提供了有效的解决方案,具有重要的应用潜力。研究不仅展示了框架在特定场景下的有效性,还验证了其在未知环境中的适应能力,为未来社交机器人设计提供了新的思路和方法。作者通过实验数据和分析,详细阐述了框架的学习过程和行为优化机制,强调了上下文感知在提升机器人交互体验中的关键作用。
社交机器人行为适应上下文感知人机交互行为优先级
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究在社交机器人行为适应领域具有重要创新,可能对未来人机交互产生较大影响。

机器人能够化解高强度冲突情境

ArXiv ID: 2508.05373
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Morten Roed Frederiksen, Kasper St{\o}y
📄 中文摘要:
本文研究了人类与机器人之间高强度对抗情境,探讨了机器人如何通过不同方式化解冲突。研究聚焦于五种情感表达模态(affective expression modalities)作为缓解冲突的主要手段,旨在发现每种模态在减轻人们对表现不佳的机器人敌意方面的优势与不足。化解冲突的方法包括让机器人更好地承认冲突的存在,并通过表达歉意来缓解紧张局势。为了进行测试,研究团队使用了一个定制的情感机器人,在模拟冲突情境中对105名测试参与者进行了实验。结果表明,所有测试的情感表达模态均能成功缓解冲突,并传达对对抗的承认。各模态的评分非常接近,但运动模态(movement modality)与其他模态存在显著差异(ANON p<0.05)。此外,测试参与者对机器人受冲突影响程度的感知在所有表达模态中表现出相似的感情解读。这表明,化解高强度互动可能并不需要特别关注机器人的表达能力,而是需要注重机器人对情境的社会感知能力以及根据情境做出适当反应的能力。研究结果为设计更具社会适应性的机器人提供了重要启示,强调了情境感知在人机交互中的关键作用,同时也为未来在高强度冲突情境下优化机器人行为提供了理论依据。
机器人高强度冲突情感表达人机交互社会感知
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 研究具有创新性,对人机交互领域有较大潜在影响。

机器人真的需要拟人手吗?

ArXiv ID: 2508.05415
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Alexander Fabisch, Wadhah Zai El Amri, Chandandeep Singh, Nicol\&#x27;as Navarro-Guerrero
📄 中文摘要:
本文探讨了机器人是否需要拟人手的问题,研究背景源于人类手部操作技能被认为是其自愿运动功能的巅峰,涉及多自由度的协调和高维传感器输入的处理,以实现高度的灵巧性。作者提出一个核心问题:人类手部及其相关的生物力学特性、传感器和控制机制是否是机器人设计中应追求的理想目标?研究通过分析人类手部的功能和结构特性,探讨了拟人手在机器人领域的必要性与实用性。方法上,作者结合了机器人设计理论、生物力学模型以及实际机器人操作任务的实验数据,比较了拟人手与非拟人设计在不同场景下的表现。关键发现表明,尽管人类手部在某些复杂任务中具有显著优势,但拟人手的设计在机器人应用中并非总是最优解,尤其是在特定工业任务或极端环境中,非拟人设计可能更具效率和适应性。此外,拟人手的复杂性可能导致更高的制造成本和维护难度,而其实际性能提升有限。结论指出,机器人手的设计应根据具体任务需求进行优化,而非一味追求人类手部的模仿。这一研究为机器人设计提供了新的视角,强调功能导向而非形态模仿的重要性。
机器人手拟人设计生物力学机器人控制功能优化
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 本文提出新颖视角,对机器人设计有重要启发,可能影响未来研究方向。

任务驱动的SLAM基准测试用于机器人导航

ArXiv ID: 2409.16573
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Yanwei Du, Shiyu Feng, Carlton G. Cort, Patricio A. Vela
📄 中文摘要:
本文提出了一种任务驱动的SLAM(同时定位与建图)基准测试方法TaskSLAM-Bench,旨在解决当前SLAM基准测试忽视重复性(精度)重要性的问题,而精度在现实世界中的部署中至关重要。SLAM在移动辅助机器人中的一个关键应用是支持基于导航任务的定位。TaskSLAM-Bench以精度为核心指标,同时考虑SLAM的建图能力,并具有易于满足的实现要求。通过对SLAM方法的模拟和现实世界测试场景进行评估,本研究深入分析了现代视觉SLAM和激光雷达SLAM解决方案在导航性能方面的特性。研究结果表明,在典型的室内环境中,被动立体视觉SLAM的精度水平与激光雷达SLAM相当。TaskSLAM-Bench作为现有基准测试的补充,为专注于导航场景的SLAM性能提供了更丰富的评估手段。此外,公开的代码支持在配备适当设备的机器人上进行定制环境中的现场SLAM测试。这一方法不仅填补了现有基准测试在精度评估方面的空白,还为SLAM技术在实际导航任务中的应用提供了重要的参考依据。研究结论强调了在不同环境下SLAM方法的选择和优化对机器人导航性能的影响,为未来的技术发展和应用提供了指导。
SLAM机器人导航基准测试精度激光雷达
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 本文提出创新性基准测试方法,对SLAM在导航中的应用有较大影响。

跟随即是所需:利用人群作为规划者进行机器人人群导航

ArXiv ID: 2504.10828
发布日期: 2025-08-08
聚类ID: 聚类 26
📝 作者: Yuwen Liao, Xinhang Xu, Ruofei Bai, Yizhuo Yang, Muqing Cao, Shenghai Yuan, Lihua Xie
📄 中文摘要:
本研究提出了一种新颖的机器人人群导航方法,旨在解决在拥挤环境中机器人导航的高层次推理和规划问题。传统方法通常依赖于复杂且繁重的规划器,而忽略了人类智能在导航中的潜在作用。鉴于人类作为高效能代理在人群导航场景中普遍存在,本文提出了一种替代方案,即机器人利用人群中的人类作为规划者,借助人类有效的规划决策和社会行为来实现导航目标。通过一系列基于规则的评估方法,研究识别出能够引导机器人朝目标前进的合适人类领导者。机器人采用一个简单的基准规划器,通过设计易于实现的短程子目标,跟随选定的人类领导者进行导航。研究通过模拟实验和现实世界测试验证了该框架相较于现有规划器能够生成安全且高效的机器人路径,即使不依赖预测性或数据驱动模块。此外,该方法在未明确定义交通规则和社会规范的情况下,也能使机器人展现出类似人类的行为模式。实验结果表明,该框架在机器人导航领域具有显著的创新性和实用性,为未来的研究提供了新的视角和方法。代码将在https://github.com/centiLinda/PeopleAsPlanner.git上公开。
机器人导航人群导航人类规划者社会行为短程子目标
⭐ 重要性评分: 7/10 查看原文
🤖 AI评价: 该研究提出创新性方法,利用人类智能进行机器人导航,具有较大潜力。