本技术公开了一种基于事件触发的分布式纳什均衡搜索方法和系统,旨在解决大规模动态非合作系统中的复杂决策问题。通过构造无向图模型,定义网络参与者及其通信关系,结合网络平均场博弈理论,实现个体与群体行为的宏观交互。该方法引入三个辅助变量,在线动态估计群体聚集行为,并通过自适应学习增益优化邻居间的通信权重,以降低计算和通信成本。本发明还采用事件触发机制,有效控制信息交换时机,避免不必要的通信开销。通过这种方式,玩家能够在不完全信息的情况下实现无领导者共识和局部目标函数的优化,显著提高决策效率和系统的可扩展性。适用于各类大规模复杂网络场景。
背景技术
在大规模动态非合作系统中,个体决策受到其他个体行为的显著影响,解决由此产生的复杂性一直是学术研究的挑战。平均场博弈(Mean Field Games,MFG)理论通过研究理性玩家的策略,旨在揭示系统的特征和演化趋势。该理论假设玩家为匿名个体,通过利用大量个体间的互动所产生的“平滑效应”来简化复杂性,从而有效解决大规模互动中的计算复杂度问题。近年来,MFG理论在经济、金融、工程和机器学习等领域得到广泛应用,为大规模复杂网络提供了有效的建模和求解方案。
在非合作博弈中,玩家需要同时在时间和空间上动态决策,以优化不可分割且非线性的累积奖励。然而,实时获取所有其他玩家状态信息并不现实,这导致了不完全信息博弈的挑战。为此,近年来提出了一些基于局部信息的分布式计算和学习方法,其中一种基于领导者-跟随者共识协议的分布式纳什均衡(NE)搜索算法被提出,以引导玩家趋向自身最优解。
此外,使用动态共识跟踪和投影梯度的方法为聚合博弈开发了离散时间NE搜索算法,但随着玩家数量的增加,动作和状态空间呈指数级增长,极大限制了多玩家学习的可扩展性。MFG理论通过压缩问题空间,有助于大型复杂系统中智能体的优化决策,因此研究网络化平均场博弈中的NE搜索方法显得尤为重要。
为了实现局部交互下对全局信息的准确估计,通常采用分布式共识控制理论。然而,在实际场景中,相邻玩家之间的信号传输会消耗大量网络资源,尤其在玩家的传感和通信能力有限时。为此,有研究提出了事件触发采样并扩展至多智能体系中,设计了与网络大小无关的分布式自适应事件触发协议,以规避对邻居状态的持续监测,同时通过权衡自身与邻居间的误差,增强了玩家的适应性。
因此,将事件触发机制整合到玩家策略设计中更符合实际需求,尤其是在涉及大量玩家的场景中,以降低网络化平均场博弈的通信成本。
在分布式共识协议中,关联权重用于描述玩家对邻居的信任。实际情况中,权重的确定依赖于玩家的目标函数、通信网络拓扑和参与博弈的玩家数量等。为此,自适应学习增益被引入,以控制置信度分配失衡引起的估计误差。在此背景下,研究人员根据共识误差动态调整权重,从而形成更灵活的完全分布式协调控制架构。
实现思路