本技术介绍了一种应用于航天器任务规划的自适应MADDPG算法,旨在解决星群对非合作目标的规避决策问题。该方法包括:构建脉冲式星群模型以模拟空间非合作目标规避任务;设计奖励函数以指导星群威胁规避决策;开发并训练威胁场景预测神经网络;基于奖励函数构建自主决策网络;利用MADDPG算法训练该网络以适应不同威胁场景;最后,将非合作目标与星群信息输入预测网络,确定当前威胁场景,并选择相应的决策网络进行规避决策。该发明有效降低了星群规避决策的复杂度,提高了决策效率。
背景技术
随着发射数量和故障报废数量的增长,空间轨道日益饱和,非合作目标碰撞风险日益增加,空间在轨服务场景日益复杂,因此有必要研究航天器根据任务需要与环境感知实时对目标抵近威胁进行规避的自主决策方法。
由于空间环境极为复杂且具有非线性、高动态、不确定等特征,且星群执行的复杂太空任务需要考虑群体的协同性、通信链路约束与规划的时效性,在进行对空间非合作目标的自主规避时还需要满足距离、通信关系等复杂约束。现有的贝叶斯网络、遗传算法、粒子群算法等理论难以处理其高复杂度的决策问题,且现有的航天器任务规划技术一般应用于单一航天器或少量编队航天器,难以应用于由大量卫星组成的星群,因此需要提出以人工智能为基础的智能决策方法。近几年MADDPG算法已经在多无人机的协同任务决策、路径规划、协同围捕等任务中有所应用,但是目前在航天器集群规避空间非合作目标威胁问题中的应用仍为空白。
因此,设计一种基于自适应MADDPG的星群规避自主决策方法,针对当前环境自适应选取自主决策网络,实现星群对多种空间非合作目标威胁的自主规避,并满足星群任务执行过程中的复杂约束,从而提升星群应对未知威胁的自主决策能力,加快规避策略的求解速度。
实现思路