本技术提供的一种基于多智能体强化学习的TSN‑5G列车通信网络异步调度方法。该方法包括:基于列车TSN‑5G异构场景的拓扑结构利用图神经网络构建马尔可夫模型,定义马尔可夫模型的状态空间、动作空间和奖励函数,将TSN‑5G异构网络中的待处理的数据流信息输入到列车TSN‑5G多智能体强化学习异步调度算法中,列车TSN‑5G多智能体强化学习异步调度算法将每个基站与交换机作为独立智能体,通过迭代运算对马尔可夫模型中的状态空间、动作空间进行更新,输出待处理的数据流的调度方案。本发明提出了一种综合方案,结合TSN‑5G中有线与无线信道的利用率与端到端抖动性能,达到优化数据传输的目的,以实现对整车网络的端到端时延和抖动进行最优控制。
背景技术
交换机在入端口根据标识符等信息对帧进行识别与分类。得到不同优先级的流:TT流(Time-Triggerd)、AVB流(音视频流)和BE(Best Effort)。通过流整形限制流的速率。流调度和抢占决定流的调度顺序。最后在交换机出端口转发流量到目标设备或者下一个交换机。
整形目的减轻网络拥塞和降低分组丢包率。实现手段就是限制突发流量的速率并缓存,控制流以相对均匀的速率发出。目前常见的整形技术为时钟同步场景下的基于信用的整形(Credit-Based Shaper,CBS)和异步场景下的ATS(Asynchronous TrafficShaping,异步流量整形)。
流调度保证流转发时的有序性并降低网络拥塞,主要考察指标为时延和抖动。
(1)时间感知整形器(Time-Aware Shaper,TAS)
IEEE 802.1Qbv制定了TAS和门控列表技术。TAS给每个传输窗口分配不同的传输时隙,减少不同数据流之间的干扰。使用门控结构控制数据帧的传输。门控表记录某时刻所有队列门开门关的情况。
(2)循环排队和转发(Cyclic Queuing and Forwarding,CQF)
IEEE 802.1Qch引入了CQF机制。允许交换机以循环的方式实现帧的同步传输。以下简单介绍CQF过程:假设有两个传输队列和一个循环周期。在偶数周期中,队列1积累来自交换机接收端口的帧,队列2传输奇数周期积累的帧。在奇数周期中,队列1发送偶数周期积累的帧,队列2接收来自交换机接收端口的帧。只要循环周期设置合理,就保证任何对于时延敏感的数据流都能在循环周期内完成调度传输。
目前,现有技术中的流调度技术方案包括:根据是否时钟同步,分为同步和异步场景下的调度算法。
时钟同步场景下的调度算法
同步场景下有关调度算法的研究包括TSN和TSN-5G融合场景下的。
(1)交换机队列长度预测
使用增强长短期记忆网络(Long Short-Term Memory,LSTM)预测每个交换机中排队队列的长度。LSTM是循环神经网络(Recurrent Neural Network,RNN)的变体,可以有效处理时间、空间序列数据。相比于RNN,LSTM通过门控转置可以实现选择性的存储信息。
在此方案中,模型使用网络拓扑、流量类型和排队队列长度作为输入,排队队列长度作为输出,实现一个预测任务。即根据网络当前状况和交换机排队帧的个数预测未来排队帧的个数。以此作为网络拥塞情况的指标。再根据预测的结果调整路由策略,实现动态路由。然而,用排队队列长度作为网络拥塞情况的代表过于片面,并不能最大化减小端到端延迟和抖动。
(2)TSN-5G粒子群强化学习算法
提出集成的工业TSN-5G网络架构。提出双Q学习粒子群优化算法(Double Q-Learning Hierarchical Particular Swarm Optimization,DQHPSO)。粒子群优化算法,模拟一群粒子在多维空间中的搜索行为,每个粒子代表一个潜在的解决方案,通过粒子个体和群体的历史最佳位置来更新自己的位置和速度。
以调度成功率作为优化目标,每个交换机能在传输窗口内将数据传输出即为调度成功,即满足CQF循环周期。以此保证了最终的时延和抖动指标。
(3)TSN-5G联合调度考虑5G信道
此方法考虑5G时隙利用情况以及SINR信噪比也就是信号质量对数据传输的影响,使用强化学习算法去提升信号利用率。5G采用毫秒级时隙,此方法引入微小时隙,以提高信道利用率。
上述现有技术中的流调度技术方案的缺点包括:在现有的TSN-5G同步或异步网络联合调度方法中,部分研究关注抖动的影响,而另一些则着重于提升信道利用率以优化延迟性能。然而,单独考虑抖动可能导致延迟的显著增加,而仅关注信道利用率则可能引发较大的数据帧传输抖动。在实际的列车通信场景中,数据传输需要同时满足低延迟和低抖动的双重要求,以确保通信的效率与确定性。
现有针对TSN-5G异构场景的强化学习方法多基于单智能体架构,但在此类场景中,每个基站与每个交换机作为独立的调度单元,面临不同的调度任务,同时基站与基站、基站与交换机、交换机与交换机之间存在协同与制约关系。因此,本发明设计了一种基于多智能体强化学习的调度方法,适用于TSN-5G异构网络场景,旨在构建一个更加全面、协同的调度模型,从而提升系统整体性能。
现有的TSN-5G异构场景中强化学习方法在考虑网络拓扑相关性角度,往往仅通过强化学习加速优化算法的收敛过程,而未充分考虑网络拓扑对调度结果的潜在影响。由于网络拓扑结构的差异,会直接影响网络流量负载、调度决策和带宽资源的占用情况。针对这一问题,本发明引入了图神经网络,旨在构建更加精确的网络拓扑模型,从而提升调度方法在不同拓扑结构下的性能表现。
实现思路