本技术介绍了一种利用深度多用户DRQN实现动态频谱接入的方法。该方法首先构建DRQN网络,将信道作为用户可选动作,收集各用户状态值、奖励值和观察值作为经验样本存入记忆库,并创建时间序列存储状态值。随后,从记忆库抽取样本训练DRQN网络。训练完成后,将时间序列和用户动作输入网络,实现动态频谱接入。时间序列中的历史状态值使DRQN网络能准确估计用户状态,提高复杂环境下的适应性,同时减少大状态空间和部分可观测性带来的计算负担,实现大规模用户的高效动态频谱接入。
背景技术
伴随着科学技术的高速发展,导致了各种移动通信设备的爆炸式增长,致使越来越多的移动设备接入互联网,从而有效利用频谱资源变得越来越重要,频谱稀缺问题日益严重。对无线通信日益增长的需求以及频谱的稀缺,引发了针对新兴无线网络技术的高效动态频谱接入方案的发展。1999年,Joseph Mitola博士在其博士论文中引入了认知无线电的概念。自从采用认知无线电的概念以来,它受到了各国通信专家的高度重视,并不断受到深度研究。采取认知无线电为无线电服务提供了新的方向和领域,其主要任务是管理频谱资源和向用户提供高质量的服务。近年来,人们对开发分布式优化算法和学习算法以管理用户之间有效频谱接入的问题产生了相当大的兴趣。分布式强化学习是将强化学习的思想和算法应用到分布式环境中,早期的分布式算法是将Q-learning扩展到分布式系统中,该改进算法全称是independent Q-learning(IQL),该算法是将每个用户独立地执行一次Q-learning算法,该算法虽然适用于分布式决策上,但是稳定性却不好。在近几年,有研究员依托Q-learning,提出深度Q网络(Deep Q-Network,DQN)。
媒体访问控制(medium access control,MAC)设计的各种DSA模型的良好功能可以解决当局域网中共用信道的使用产生竞争时,如何分配信道的使用权的问题。深度强化学习(DRL)(或深度Q学习)近年来吸引了很多关注,因为它能够在处理非常大的状态和动作空间时提供目标值(称为Q值)的良好近似。与在小规模模型中表现良好但在大规模模型中表现不佳的Q学习方法相反,DRL将深度神经网络与Q学习相结合,称为深度Q网络(DQN),以克服这个问题。DQN用于在大规模模型中从州到行动的映射,以便最大化Qvalue。在DeepMind最近发表的《自然》论文中,开发了一种DRL算法,可以直接从屏幕像素上教计算机如何玩雅达利游戏,并且在许多测试游戏中表现出了强大的性能。接着不久,有学者开发了DRL算法,用于教多个玩家如何通信,以最大化共享效用,一些玩家在MNIST游戏和开关谜语中表现出色。近年来,人们越来越重视将DRL方法用于其他各种领域。由于无线连接设备中的大状态空间和部分观察到的频谱区域管理的性质,假设将DRL方法结合到DSA算法的设计中具有为现实世界的复杂频谱接入设置提供有效解决方案的巨大潜力。
现有的频谱接入方法通常不能有效地适应处理更复杂的现实世界模型。公开号为CN112672359A(公开日2021-04-16)提出的一种基于双向长短时记忆网络的动态频谱接入方法,该方案是通过采用双向长短时记忆网络优化DQN强化学习算法,形成DBRQN算法模型,将历史动作数据输入DBRQN算法模型预测动态频谱空洞,感知预测到的动态频谱空洞,获取最优信道接入策略,然后动态接入空闲频谱空洞,实现动态频谱共享。但该方案并没有构建时间序列来预测用户的真实状态,并不能使DQN网络能更好的处理大的状态空间和部分可观测性的情况。
实现思路