本技术提供了时空任务驱动下多智能体强化学习任务规划与控制方法,包括:S1,建立多智能体系统下信号时序逻辑任务的强化学习控制器训练架构;S2,建立多智能体系统间的自注意力动作补偿机制;S3,根据任务框架构造信号时序逻辑任务对应的鲁棒值过滤基线;S4,根据环境信息对智能体动作生成软约束;S5,根据补偿动作程度构造多目标任务的冲突检测与任务重规划机制;S6,基于约束条件,迭代训练控制器参数以在线给出控制律满足STL任务需求。本发明利用强化学习的方式学习控制器参数,适应复杂环境下在线求解控制律,给出的控制律更加符合外部环境和内部动态系统的实际情况,大大减少在线计算控制律的负担。
背景技术
近年来,随着自动控制理论、人工智能的发展,工业领域机械化需求的日益增长,多智能体系统受到越来越多的关注。多智能体系统是由多个独立智能体组成的计算系统,这些智能体能够感知环境、相互通信、协同合作或竞争,以解决复杂问题和执行任务。由于多智能体系统在上述方面的经济性、安全性、效率性等优势,其应用前景也越来越广泛。军事方面,多智能体系统能够执行如侦察、打击敌方目标、后勤支持等任务;民用方面,多智能体系统能够用于森林与城市火灾的救援等危险任务;工业方面,智能制造业中的自动化生产线任务分工和协同操作、智能物流中的货物运输与资源调度等都需要多智能体系统的协作。随着智能体应用场景的不断拓展,其面临的任务表现出复杂的时序逻辑特性,不仅包含动态系统物理位置约束,还包括任务时限和执行顺序等时间和逻辑上的要求,这类复杂时序逻辑任务的在线决策与控制器设计面临着巨大的挑战,需引进形式化的时序逻辑任务。
然而,随着系统动态未知性的上升和环境变化变得更加复杂,基于模型的方法在求解智能体决策问题上变得越来越具有挑战性。在面对这些不确定性和复杂性的情况下,强化学习(RL)在智能体控制领域近年来备受关注。相较于传统基于模型的方法,强化学习通过智能体与环境的交互,利用试错的方式学习最优的决策策略,这种学习方式使得强化学习更加适用于那些系统模型难以建模或难以获取的情境。由于RL出色的实时决策性能,其被广泛应用于需要在不同时间步骤上做出一系列决策的序列决策问题。在强化学习领域引入STL的概念,通过充分发挥深度强化学习的学习能力和时序逻辑框架的形式化表示,可以更准确地描述系统任务和性能规范,从而有效引导深度学习模型学习更符合实际要求的策略。这种形式化方法与深度强化学习的结合为解决多目标时序逻辑任务约束提供了新的可能性。尤其是在对系统行为进行精确建模和验证需求不断增加的情境下,这为处理具有形式化要求的智能体控制问题开辟了新的研究方向,推动了智能体控制领域的进一步发展。
在多智能体强化学习框架下,每个智能体单独接收到自己的一个目标或多个目标的时序逻辑任务,由于智能体之间的任务存在耦合,一个智能体的任务能否满足还会受到邻居智能体行为轨迹的影响。举例来说,仓储物流场景中,在保证安全的前提下,智能体需要根据自己的多目标限时物资运输任务规划每个任务的执行顺序,以在给定时间内完成多个到达任务。而在障碍物密集的物流仓储场景中,单个智能体的控制器性能能否满足时序逻辑要求,不仅受到物资运输顺序的影响,还会受临近智能体位置状态的影响,这类带有智能体间冲突的多目标点任务被归结为复杂的多目标时序逻辑任务。上述智能体间状态互相影响、任务规划对时序逻辑约束满足情况的影响会导致智能体控制器训练性能不佳。
因此,解决带有多目标点的复杂时序逻辑任务决策问题,充分利用智能体的经验以及实现智能体之间的协同变得至关重要,设计一种适用于复杂环境、能够增强控制器对动态环境的适应性、提高控制器控制性能的多智能体强化学习控制器训练策略,对于多目标时序逻辑约束的多智能体系统的实现具有重要意义。
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
实现思路