分布式鲁棒元强化学习在机器人运动控制中的应用
2025-01-30 18:12
No.1334587078285205504
技术概要
PDF全文
本研究提出了一种利用分布式鲁棒元强化学习技术来实现机器人运动控制的新方法。该方法首先进行任务样本的采集;然后,针对每个任务,通过强化学习框架,采用随机初始化策略来生成少量运动轨迹,并与环境进行交互。
背景技术
过去几年,元学习因为其在学术界和工业界的巨大潜力而引起了研究兴趣的激增。这种学习范式通过利用先前的经验,可以提取知识作为先验,并赋予学习模型根据少量示例适应到未知任务的能力。机器人导航任务是机器人技术中的一个经典问题,涉及机器人在已知或未知环境中找到从起点到终点的最优路径,引导机器人一步步向目标地点移动。在元强化学习中,目标是学习一个元策略,该策略在训练过程中通过多个相关任务(环境)的训练数据进行优化,以便在面对新的、未见过的任务时,能够迅速适应并表现出色。具体而言,在元强化学习框架下,机器人导航任务旨在训练一个通用导航策略使得机器人在多种不同的环境和任务中快速适应和高效导航。 然而,从任务分布的角度来看,鲁棒性的研究需要更加全面。特别是,最近开发的大模型在很大程度上依赖小样本学习能力,并且在风险敏感的场景中要求预测的鲁棒性。例如,当类似GPT的对话生成系统应用于医疗咨询领域时,不准确的答案可能会对患者、家庭甚至社会造成灾难性的后果。在这些考虑的基础上,在部署元学习模型时,考虑不同任务之间的适应性差异并促进任务鲁棒性的研究以满足实际需求是非常必要的。 最近,Wang等人提出通过采用尾部风险最小化准则来提高任务分布鲁棒性。在解决非凸风险函数存在下的优化难题时,采用了两阶段优化策略作为解决问题的启发式方法。简而言之,该策略包含两个迭代阶段,分别是:(i)使用crude蒙特卡罗方法在任务空间中估计风险分位数;(ii)从筛选的任务子集中更新元学习模型参数。该策略在实现上非常简单,并且在某些条件下有改进保证,在面对任务分布变化时,经验上表现出提升的鲁棒性。尽管取得了这些进展,但在该领域中仍然存在若干未解决的理论或实践问题。 本发明也研究了任务空间中快速适应的鲁棒性,并试图填补先前研究中的空白。理论上,本申请注意到(i)之前的研究中不存在解的概念,(ii) 缺乏对两阶段优化策略的算法理解,(iii) 在任务尾部风险中忽略了泛化能力的分析。应用实践上,使用crude蒙特卡罗方法在分位数估计中可能效率较低,并且的近似误差较高,降低了适应鲁棒性。这些瓶颈可能会削弱两阶段优化策略在实践中的通用性,需要在部署前有更多的理解。 一般的元强化学习方法优化所有任务上的平均回报,但是这种方法往往在高风险或高难度的任务中表现不佳,导致某些任务的性能显著下降,鲁棒性差,无法提供可靠的导航。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
王琦吕怡琴谢正梁栋杜武妹梁星星
技术所属: 中国人民解放军国防科技大学.
相关技术
具有准零刚度特性的三自由度并联隔振平台 具有准零刚度特性的三自由度并联隔振平台
一种基于数字孪生技术的机械臂构建方法 一种基于数字孪生技术的机械臂构建方法
一种用于机械臂的重力平衡装置 一种用于机械臂的重力平衡装置
一种机械臂抓取目标检测方法和系统 一种机械臂抓取目标检测方法和系统
一种基于双层博弈的重载机械臂人机协同控制方法 一种基于双层博弈的重载机械臂人机协同控制方法
基于光热效应的光驱动感知一体化柔性关节及其光路系统 基于光热效应的光驱动感知一体化柔性关节及其光路系统
一种基于质心动力学模型的人形机器人全身协调控制方法 一种基于质心动力学模型的人形机器人全身协调控制方法
一种可末端自锁的双层环形可展开周边桁架 一种可末端自锁的双层环形可展开周边桁架
基于模仿学习的人形机器人多运动切换控制方法及系统 基于模仿学习的人形机器人多运动切换控制方法及系统
一致性约束的检测机器人任务分配方法 一致性约束的检测机器人任务分配方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利