本技术公开了基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法,包括以下步骤:S1、通过relu激活网络对系统动力学模型和不确定性边界进行建模;S2、确定鲁棒性条件,并将其用于预先确定吸引域的面积;S3、确定动力学模型不确定性和状态估计下的鲁棒性保证RL;S4、网络参数化建立;S5、对倒立摆和四旋翼无人机进行数值模拟。本发明采用上述的基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法,仍然可以准确地找到最违逆的状态,从而强制其在不确定性下的稳定性,给出了鲁棒RL问题解存在性的几何视图来解释鲁棒性及其能力,在各种不确定性下对倒立摆和四旋翼机的数值模拟证明了所提出方法的有效性。
背景技术
机器人系统容易受到各种不确定性(包括建模不确定性和状态不确定性)引起的稳定性退化和灾难性故障的影响。关于这一主题的现有技术包括鲁棒控制、自适应控制、随机控制、滑模控制和h-∞等。然而,现有的方法可能会受到它们在描述不确定性和系统动力学时使用的模型的限制。RL算法依赖于通过神经网络的函数逼近,已经成为解决马尔可夫决策过程(MDP)的高度灵活的框架。然而,经典的RL与不确定性、干扰或环境结构变化的鲁棒性作斗争。为此,研究了鲁棒RL,以增强各方面的策略鲁棒性:(1)不确定动力学模型;(2)外部干扰;(3)可控噪声;(4)不确定观测和状态估计。最小-最大问题或最优性然后制定并求解基于Hamilton-Jacobi-Isaacs方程的条件,以获得抑制最坏情况下不确定性影响的控制器。
如使用小增益定理来构建目标函数,以最小化稳定化对干扰或不确定性的灵敏度,如果增益以灵敏度的逆为界,则可以抑制由建模误差引起的干扰;当不确定性集被定义为以产生单样本轨迹的错误MDP为中心,并通过抽样来估计。一个替代的对抗动作或来自对手的扰动被添加到选定的动作中,控制器以生成对抗网络(GAN)的方式进行训练。
然而,鲁棒RL很难同时在动力学模型和状态估计的不确定性下提供严格的收敛保证,阻碍了其在实际应用中的可信度。通过最小化一些设计的奖励函数的期望来补偿不确定性。建模的不确定性仍然会导致次优甚至不安全的行为,特别是当智能体探索新的或不熟悉的状态时。带噪声的观察会导致状态估计的不确定性,系统的稳定性可能会受到损害。
基于李雅普诺夫理论和势垒函数的辅助损失函数部分解决了RL方法的收敛性问题。然而,它们对不确定动力学模型和系统状态的适用性尚未得到探讨。
实现思路