分布式鲁棒元强化学习在机器人运动控制中的应用

123技术园

首页 / 技术内容

2025-01-30 18:12

No.1334587078285205504

技术概要

PDF全文

本研究提出了一种利用分布式鲁棒元强化学习技术来实现机器人运动控制的新方法。该方法首先进行任务样本的采集；然后，针对每个任务，通过强化学习框架，采用随机初始化策略来生成少量运动轨迹，并与环境进行交互。

背景技术

过去几年，元学习因为其在学术界和工业界的巨大潜力而引起了研究兴趣的激增。这种学习范式通过利用先前的经验，可以提取知识作为先验，并赋予学习模型根据少量示例适应到未知任务的能力。机器人导航任务是机器人技术中的一个经典问题，涉及机器人在已知或未知环境中找到从起点到终点的最优路径，引导机器人一步步向目标地点移动。在元强化学习中，目标是学习一个元策略，该策略在训练过程中通过多个相关任务（环境）的训练数据进行优化，以便在面对新的、未见过的任务时，能够迅速适应并表现出色。具体而言，在元强化学习框架下，机器人导航任务旨在训练一个通用导航策略使得机器人在多种不同的环境和任务中快速适应和高效导航。然而，从任务分布的角度来看，鲁棒性的研究需要更加全面。特别是，最近开发的大模型在很大程度上依赖小样本学习能力，并且在风险敏感的场景中要求预测的鲁棒性。例如，当类似GPT的对话生成系统应用于医疗咨询领域时，不准确的答案可能会对患者、家庭甚至社会造成灾难性的后果。在这些考虑的基础上，在部署元学习模型时，考虑不同任务之间的适应性差异并促进任务鲁棒性的研究以满足实际需求是非常必要的。最近，Wang等人提出通过采用尾部风险最小化准则来提高任务分布鲁棒性。在解决非凸风险函数存在下的优化难题时，采用了两阶段优化策略作为解决问题的启发式方法。简而言之，该策略包含两个迭代阶段，分别是：(i)使用crude蒙特卡罗方法在任务空间中估计风险分位数；(ii)从筛选的任务子集中更新元学习模型参数。该策略在实现上非常简单，并且在某些条件下有改进保证，在面对任务分布变化时，经验上表现出提升的鲁棒性。尽管取得了这些进展，但在该领域中仍然存在若干未解决的理论或实践问题。本发明也研究了任务空间中快速适应的鲁棒性，并试图填补先前研究中的空白。理论上，本申请注意到(i)之前的研究中不存在解的概念，(ii) 缺乏对两阶段优化策略的算法理解，(iii) 在任务尾部风险中忽略了泛化能力的分析。应用实践上，使用crude蒙特卡罗方法在分位数估计中可能效率较低，并且的近似误差较高，降低了适应鲁棒性。这些瓶颈可能会削弱两阶段优化策略在实践中的通用性，需要在部署前有更多的理解。一般的元强化学习方法优化所有任务上的平均回报，但是这种方法往往在高风险或高难度的任务中表现不佳，导致某些任务的性能显著下降，鲁棒性差，无法提供可靠的导航。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

王琦吕怡琴谢正梁栋杜武妹梁星星

技术所属：中国人民解放军国防科技大学.

相关技术

具有准零刚度特性的三自由度并联隔振平台  具有准零刚度特性的三自由度并联隔振平台 
 本发明公开了一种具有准零刚度特性的三自由度并联隔振平台，包括静平台、动平台和多组支链，所述支链包括支撑柱、竖直弹簧、L形支撑架、上连杆、下连杆和水平弹簧；所述支撑柱的下端固定于静平台，所述支撑柱的上端通过第一调节机构与竖直弹簧的下端连接；所述竖直弹簧的上端固定于动平台下面；所述L形支撑架的下端固定于静平台，所述水平弹簧通过弹簧座安装于L形支撑架的上面，弹簧座、下连杆、上连杆和动平台构成互相平行的第一转动副、第二转动副和第三转动副。本发明具有灵活的运动特性，满足空间三平移自由度隔振要求，且通过调节弹簧的预压缩量，X方向和Y方向可实现近似零刚度特性，Z方向实现零刚度特性。
一种基于数字孪生技术的机械臂构建方法  一种基于数字孪生技术的机械臂构建方法 
 本发明公开了一种基于数字孪生技术的机械臂构建方法，属于数字孪生技术领域。本发明通过分布式设计机械臂三维模型、机械臂夹爪三维模型，便于以多种组合方式实现二次建模，将二次建模后的机械臂夹爪孪生模型在数字化工厂仿真软件中与机械臂孪生模型进行装配，装配之后机械臂夹爪孪生模型将自行与机械臂孪生模型绑定，以在数字化工厂仿真软件中同步运行，接着进行仿真验证。本发明通过构建高精度的机械臂/机械臂夹爪孪生模型能够实现孪生机械臂/机械臂夹爪运动状态与实体机械臂/机械臂夹爪一致，能够准确及时的获取实体机械臂/机械臂夹爪所处的位置，并对机械臂下一步的运行进行智能化控制。
一种用于机械臂的重力平衡装置  一种用于机械臂的重力平衡装置 
 本发明提出一种用于机械臂的重力平衡装置，安装于机械臂基座上，是用于平衡机械臂自身重力的机械结构，旨在解决现有机械臂在运动中因重力作用导致的能耗增加、精度降低等问题，同时安装在基座上可显著降低机械臂的转动惯量。该机械臂重力平衡机械结构由传动机构、固定机构和平衡机构组成。传动机构用于将机械臂关节轴的转动传导至位于基座的平衡机构上。固定机构用于将重力平衡装置固定在基座上。平衡机构可根据机械臂关节角度，产生完全等同于机械臂重力矩的扭矩。本发明具有结构简单、安装方便、精度高等优点，可广泛应用于工业自动化、机器人技术等领域。
一种机械臂抓取目标检测方法和系统  一种机械臂抓取目标检测方法和系统 
 本发明涉及一种机械臂抓取目标检测方法和系统，所述方法包括，采集目标物料图像得到初始数据集；采用数据增强的方式对初始数据集进行预处理，得到目标数据集；以生成式残差卷积神经网络模型为基准模型构建改进的生成式残差卷积神经网络模型作为机械臂抓取目标检测网络模型；利用改进后的损失计算方法计算各输出损失和总损失，获得与实际可行抓取信息之间的差异，并获得训练权重；利用损失计算的结果对模型的权重进行更新，得到最优的训练权重，将测试集输入至所述训练后的机械臂抓取目标检测网络模型中得到机械臂抓取目标检测结果，本发明改进后的机械臂抓取目标检测网络模型提高了对抓取目标检测的精度和速度。
一种基于双层博弈的重载机械臂人机协同控制方法  一种基于双层博弈的重载机械臂人机协同控制方法 
 本发明属于重载机械臂人机协同控制系统技术领域，尤其为一种基于双层博弈的重载机械臂人机协同控制方法，包括如下步骤:首先，操控员和自动控制系统根据当前环境分别发出控制信号；接着，上层博弈权限分配系统根据协同控制双方的控制信号以及当前环境状态，获取最优控制权限，并发送给下层博弈人机交互模型；然后，人机交互模型通过求解Nash均衡实时优化操控员与自动控制系统的控制信号；最后，利用最优控制权限融合最优控制信号，并将融合好的控制信号输出给重载机械臂，实现基于双层博弈的重载机械臂人机协同控制。本发明能够有效降低人机冲突对重载机械臂人机协同控制性能的影响，最大化程度上提升重载机械臂作业效率与安全性。
基于光热效应的光驱动感知一体化柔性关节及其光路系统  基于光热效应的光驱动感知一体化柔性关节及其光路系统 
 本发明公开了一种基于光热效应的光驱动感知一体化柔性关节及其光路系统，其中柔性关节包括多模光纤和光热转换弹性体，光热转换弹性体呈弧形关节状，该光热转换弹性体内含有用于光热转化的材料，多模光纤偏心嵌置在光热转换弹性体内；多模光纤的纤芯上刻有光纤布拉格光栅，且光纤布拉格光栅的中点与柔性关节的中点平齐；当多模光纤的入射光功率增加时，光热转换弹性体会朝着曲率减小的方向进行弯曲运动，光纤布拉格光栅的反射谱信号反映光热转换弹性体的变化角度。本发明利用光纤布拉格光栅将感知与驱动功能集成一体，具有高度集成化，能量耗损小，体积小，重量轻，抗干扰等优点，便于应用在软体机器人、体内手术、高辐射性、易燃易爆等场合。
一种基于质心动力学模型的人形机器人全身协调控制方法  一种基于质心动力学模型的人形机器人全身协调控制方法 
 本发明公开了一种基于质心动力学模型的人形机器人全身协调控制方法，包括:依据质心动力学模型对人形机器人进行系统建模；基于全身运动学和动量守恒原理建立手臂动量与质心动量的关系；构建整个非线性优化控制问题并进行实时求解，控制器预测机器人未来一段时间的运动轨迹；逆动力学计算得出前馈力矩，结合关节PD控制器下发关节力矩。本发明设计了一种面向人形机器人全身协调控制的非线性模型预测控制问题，合理地规划了系统状态、手臂末端状态，足端状态以及控制输入的参考轨迹，设计了机器人全身协调运动必需的等式约束与不等式约束；添加了对手臂末端的任务轨迹约束和动量守恒约束，使手臂辅助运动平衡的能力更加突出。
一种可末端自锁的双层环形可展开周边桁架  一种可末端自锁的双层环形可展开周边桁架 
 本发明公开了一种可末端自锁的双层环形可展开周边桁架，包括若干双层弧形剪叉组件续接而成的环状周边桁架及驱动所述环状周边桁架展开或收拢的驱动机构，所述环状周边桁架的续接始端和续接末端设有自锁机构，所述双层弧形剪叉组件由第一单层弧形剪叉组件和第二单层弧形剪叉组件铰接而成。本发明可展开机构具有良好的负载能力和刚度性能，能适应空间大尺度可展开索网天线的周边桁架的应用要求。
基于模仿学习的人形机器人多运动切换控制方法及系统  基于模仿学习的人形机器人多运动切换控制方法及系统 
 本发明提出基于模仿学习的人形机器人多运动切换控制方法及系统，以生成式对抗网络为基础进行模仿学习，通过人形机器人执行各项运动技能的表现情况动态调整对每个运动技能的采样概率，以使所述人形机器人均匀的掌握不同运动技能，实现人形机器人能够集成不同的运动技能组合，并有效地减缓了模式坍塌问题的严重程度，具有良好的灵活性和可扩展性。
一致性约束的检测机器人任务分配方法  一致性约束的检测机器人任务分配方法 
 本发明涉及检测机器人技术领域，特别是涉及一致性约束的检测机器人任务分配方法，包括:确定待检测任务和检测机器人数量；将所述待检测任务和检测机器人数量输入任务分配模型，获取所述检测机器人的任务分配结果，其中，所述任务分配模型基于一致性约束算法构建；基于所述任务分配结果驱动检测机器人进行检测工作，并在检测过程中实时更新待检测任务和检测机器人数量，不断输入所述任务分配模型中，对所述任务分配结果进行更新，直至检测结束。本发明基于一致性束的检测机器人任务分配方法对任务进行分配后更为实际，在检测过程中可动态调节检测任务的分配，大大减小资源浪费。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工