本研究提出了一种利用分布式鲁棒元强化学习技术来实现机器人运动控制的新方法。该方法首先进行任务样本的采集;然后,针对每个任务,通过强化学习框架,采用随机初始化策略来生成少量运动轨迹,并与环境进行交互。
背景技术
过去几年,元学习因为其在学术界和工业界的巨大潜力而引起了研究兴趣的激增。这种学习范式通过利用先前的经验,可以提取知识作为先验,并赋予学习模型根据少量示例适应到未知任务的能力。机器人导航任务是机器人技术中的一个经典问题,涉及机器人在已知或未知环境中找到从起点到终点的最优路径,引导机器人一步步向目标地点移动。在元强化学习中,目标是学习一个元策略,该策略在训练过程中通过多个相关任务(环境)的训练数据进行优化,以便在面对新的、未见过的任务时,能够迅速适应并表现出色。具体而言,在元强化学习框架下,机器人导航任务旨在训练一个通用导航策略使得机器人在多种不同的环境和任务中快速适应和高效导航。
然而,从任务分布的角度来看,鲁棒性的研究需要更加全面。特别是,最近开发的大模型在很大程度上依赖小样本学习能力,并且在风险敏感的场景中要求预测的鲁棒性。例如,当类似GPT的对话生成系统应用于医疗咨询领域时,不准确的答案可能会对患者、家庭甚至社会造成灾难性的后果。在这些考虑的基础上,在部署元学习模型时,考虑不同任务之间的适应性差异并促进任务鲁棒性的研究以满足实际需求是非常必要的。
最近,Wang等人提出通过采用尾部风险最小化准则来提高任务分布鲁棒性。在解决非凸风险函数存在下的优化难题时,采用了两阶段优化策略作为解决问题的启发式方法。简而言之,该策略包含两个迭代阶段,分别是:(i)使用crude蒙特卡罗方法在任务空间中估计风险分位数;(ii)从筛选的任务子集中更新元学习模型参数。该策略在实现上非常简单,并且在某些条件下有改进保证,在面对任务分布变化时,经验上表现出提升的鲁棒性。尽管取得了这些进展,但在该领域中仍然存在若干未解决的理论或实践问题。
本发明也研究了任务空间中快速适应的鲁棒性,并试图填补先前研究中的空白。理论上,本申请注意到(i)之前的研究中不存在解的概念,(ii) 缺乏对两阶段优化策略的算法理解,(iii) 在任务尾部风险中忽略了泛化能力的分析。应用实践上,使用crude蒙特卡罗方法在分位数估计中可能效率较低,并且的近似误差较高,降低了适应鲁棒性。这些瓶颈可能会削弱两阶段优化策略在实践中的通用性,需要在部署前有更多的理解。
一般的元强化学习方法优化所有任务上的平均回报,但是这种方法往往在高风险或高难度的任务中表现不佳,导致某些任务的性能显著下降,鲁棒性差,无法提供可靠的导航。
实现思路