深度多用户DRQN动态频谱接入技术

123技术园

首页 / 技术内容

深度多用户DRQN动态频谱接入技术

2025-01-10 14:05

No.1327278597333065728

技术概要

PDF全文

本技术介绍了一种利用深度多用户DRQN实现动态频谱接入的方法。该方法首先构建DRQN网络，将信道作为用户可选动作，收集各用户状态值、奖励值和观察值作为经验样本存入记忆库，并创建时间序列存储状态值。随后，从记忆库抽取样本训练DRQN网络。训练完成后，将时间序列和用户动作输入网络，实现动态频谱接入。时间序列中的历史状态值使DRQN网络能准确估计用户状态，提高复杂环境下的适应性，同时减少大状态空间和部分可观测性带来的计算负担，实现大规模用户的高效动态频谱接入。

背景技术

伴随着科学技术的高速发展，导致了各种移动通信设备的爆炸式增长，致使越来越多的移动设备接入互联网，从而有效利用频谱资源变得越来越重要，频谱稀缺问题日益严重。对无线通信日益增长的需求以及频谱的稀缺，引发了针对新兴无线网络技术的高效动态频谱接入方案的发展。1999年，Joseph Mitola博士在其博士论文中引入了认知无线电的概念。自从采用认知无线电的概念以来，它受到了各国通信专家的高度重视，并不断受到深度研究。采取认知无线电为无线电服务提供了新的方向和领域，其主要任务是管理频谱资源和向用户提供高质量的服务。近年来，人们对开发分布式优化算法和学习算法以管理用户之间有效频谱接入的问题产生了相当大的兴趣。分布式强化学习是将强化学习的思想和算法应用到分布式环境中，早期的分布式算法是将Q-learning扩展到分布式系统中，该改进算法全称是independent Q-learning(IQL)，该算法是将每个用户独立地执行一次Q-learning算法，该算法虽然适用于分布式决策上，但是稳定性却不好。在近几年，有研究员依托Q-learning，提出深度Q网络(Deep Q-Network,DQN)。媒体访问控制(medium access control,MAC)设计的各种DSA模型的良好功能可以解决当局域网中共用信道的使用产生竞争时，如何分配信道的使用权的问题。深度强化学习(DRL)(或深度Q学习)近年来吸引了很多关注，因为它能够在处理非常大的状态和动作空间时提供目标值(称为Q值)的良好近似。与在小规模模型中表现良好但在大规模模型中表现不佳的Q学习方法相反，DRL将深度神经网络与Q学习相结合，称为深度Q网络(DQN)，以克服这个问题。DQN用于在大规模模型中从州到行动的映射，以便最大化Qvalue。在DeepMind最近发表的《自然》论文中，开发了一种DRL算法，可以直接从屏幕像素上教计算机如何玩雅达利游戏，并且在许多测试游戏中表现出了强大的性能。接着不久，有学者开发了DRL算法，用于教多个玩家如何通信，以最大化共享效用，一些玩家在MNIST游戏和开关谜语中表现出色。近年来，人们越来越重视将DRL方法用于其他各种领域。由于无线连接设备中的大状态空间和部分观察到的频谱区域管理的性质，假设将DRL方法结合到DSA算法的设计中具有为现实世界的复杂频谱接入设置提供有效解决方案的巨大潜力。现有的频谱接入方法通常不能有效地适应处理更复杂的现实世界模型。公开号为CN112672359A(公开日2021-04-16)提出的一种基于双向长短时记忆网络的动态频谱接入方法，该方案是通过采用双向长短时记忆网络优化DQN强化学习算法，形成DBRQN算法模型，将历史动作数据输入DBRQN算法模型预测动态频谱空洞，感知预测到的动态频谱空洞，获取最优信道接入策略，然后动态接入空闲频谱空洞，实现动态频谱共享。但该方案并没有构建时间序列来预测用户的真实状态，并不能使DQN网络能更好的处理大的状态空间和部分可观测性的情况。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

林得有刘德荣王永华刘骏王宇慧

技术所属：广东工业大学

相关技术

一种用于风场环境和地面圆形轨道的无人机中继通信方法  一种用于风场环境和地面圆形轨道的无人机中继通信方法 
 本发明公开了一种用于风场环境和地面圆形轨道的无人机中继通信方法。针对全双工放大转发固定翼无人中继通信系统，根据风场环境中的风速和其对应的水平风速角和垂直风速角，为无人机选择合适的飞行空速、仰角、飞行时间和地面圆形轨道半径，然后，确定无人机每个飞行时刻的航线角、地速和偏航角，通过无人机的航向改变角和滚转角的调整使得无人机能够沿着预定的地面圆形轨道飞行，在此基础上，给出适用于风场环境和地面圆形轨道的无人机中继通信方法，使得无人机中继能够以最小的能量消耗，为两个地面用户提供所需的数据转发服务。仿真实验表明，本发明方法能满足设计目标要求，并且正确性更高、能耗更低。
一种基于人员定位的智能巡检系统  一种基于人员定位的智能巡检系统 
 本发明公开了一种基于人员定位的智能巡检系统，包括就位信息确认模块、作业信息确认模块、风险分析模块、评估检验模块、预警提示模块，就位信息确认模块采集智能巡检系统的就位反馈信息，作业信息确认模块采集智能巡检系统的作业环境反馈信息，风险分析模块将就位反馈信息和作业环境反馈信息进行综合分析，建立巡检风险模型，运用逻辑回归方法计算智能巡检系统的延迟平衡指数，评估检验模块根据计算所得的延迟平衡指数与预设延迟平衡指数进行比对，根据比对结果对智能巡检系统的运行状态进行信号分类，预警提示模块根据智能巡检系统的信号类型进行预警处理，能够有效提高巡检效率，降低工作人员负担。
车载网关跨总线信号拆分和选择性转发方法及系统  车载网关跨总线信号拆分和选择性转发方法及系统 
 本发明公开了车载网关跨总线信号拆分和选择性转发方法及系统，涉及车载网络通信技术领域，包括:网关ECU接收网络信号消息，对网络信号消息进行解析，得到解析后的网络信号，其中，所述网络信号为通过从CAN网络或CAN‑XL网络获取得到的；对解析后的网络信号进行选择与拆分，选择需要转发的网络信号，对不需要转发的网络信号进行过滤拆分处理，得到处理后的网络信号；基于网络信号消息设定多个优先级梯度，基于多个优先级梯度生成多个队列，将处理后的网络信号输入至队列内；设定基于时间的触发条件，当队列中的信号达到基于时间的触发条件后，将队列中的信号打包成新的CAN消息或CAN‑XL消息，将新的CAN消息或CAN‑XL消息发送至网关ECU，并清空队列，从而实现信号拆分和选择性转发。
一种多天线无人机通信能耗最小化方法及系统  一种多天线无人机通信能耗最小化方法及系统 
 本发明涉及无人机通信技术领域，具体公开了一种多天线无人机通信能耗最小化方法及系统，首先构建基于多天线旋翼无人机的空中视频监控系统，允许多天线UAV(无人机)同时为多个GU(地面用户)提供服务，然后通过联合优化UAV的飞行轨迹、飞行时间和发射波束成形，在满足用户QoS要求的前提下，以最小化UAV的总能耗为优化目标构建优化问题，进一步对该优化问题进行求解。为了求解该优化问题，首先采用路径离散化方法结合黄金分割搜索法以确定UAV的飞行时间和飞行轨迹，从而最小化UAV的推进能耗，然后最小化UAV的通信能耗。仿真结果显示，该方法及系统在能耗方面显著优于现有基准方案，展现出较高的效率和实用性。
基于USB接口适配器的设备数据处理方法及相关装置  基于USB接口适配器的设备数据处理方法及相关装置 
 本申请涉及数据处理技术领域，公开了一种基于USB接口适配器的设备数据处理方法及相关装置。所述方法包括:通过USB Type‑C接口适配器进行设备发现，得到多个目标非鸿蒙OS设备；创建第一设备数据通信软总线框架；进行路由规划与分配，得到目标传输数据集以及路由状态监控数据集；计算数据传输性能特征向量和路由状态监控特征向量，并进行向量拼接，得到性能状态融合特征向量；通过双层规划模型和非支配排序遗传算法进行设备数据通信策略优化求解，得到目标设备数据通信优化策略并进行设备数据通信拓扑优化，得到第二设备数据通信软总线框架，本申请采用USB接口适配器实现了对非鸿蒙OS设备的兼容并提高设备数据处理的准确率。
一种基于多智能体强化学习的TSN-5G列车通信网络异步调度方法  一种基于多智能体强化学习的TSN-5G列车通信网络异步调度方法 
 本发明提供的一种基于多智能体强化学习的TSN‑5G列车通信网络异步调度方法。该方法包括:基于列车TSN‑5G异构场景的拓扑结构利用图神经网络构建马尔可夫模型，定义马尔可夫模型的状态空间、动作空间和奖励函数，将TSN‑5G异构网络中的待处理的数据流信息输入到列车TSN‑5G多智能体强化学习异步调度算法中，列车TSN‑5G多智能体强化学习异步调度算法将每个基站与交换机作为独立智能体，通过迭代运算对马尔可夫模型中的状态空间、动作空间进行更新，输出待处理的数据流的调度方案。本发明提出了一种综合方案，结合TSN‑5G中有线与无线信道的利用率与端到端抖动性能，达到优化数据传输的目的，以实现对整车网络的端到端时延和抖动进行最优控制。
一种基于强化学习的联合资源调度与传输置零化方法及系统  一种基于强化学习的联合资源调度与传输置零化方法及系统 
 本发明属于雷达信号处理领域，公开了一种基于强化学习的联合资源调度与传输置零化方法及系统。本发明考虑收发分置的MIMO雷达网络中，多个发射节点和多个接收节点协同执行目标跟踪任务的场景中，针对传统雷达资源配置方法缺乏动态实时调整能力以及缺乏对雷达系统资源长期性能综合考虑的问题，首先，考虑了传输置零和资源调度进行联合优化，以节点的发射波形、驻留时间和功率分配为优化变量，其次，同时考虑累积信噪比约束和整个任务的低截获概率，并提出一个最小化截获概率的优化模型，最后，针对上述的优化模型，采用了基于强化学习的算法进行求解，具体采用了PPO算法，最后提高低截获概率和资源管理效率。
患者体位监测方法、系统及介质  患者体位监测方法、系统及介质 
 本发明涉及一种患者体位监测方法、系统及介质，该方法包括:安装UWB定位基站和UWB定位标签；UWB定位标签在固定的时隙内发送超宽带信号，各UWB定位基站截获此信号后获得接收信号的时间差；通过LoRa技术将时间差以无线方式传送至数据集中器；由数据集中器通过以太网传输到定位服务器；由定位服务器调用优化TDOA定位算法对UWB定位标签进行精确定位；根据UWB定位标签的定位坐标，推算出UWB定位标签之间的角度信息。本发明可以避免通过病床角度间接了解患者体位的局限性，实现了体位的直接精准监测。
一种可检测女巫攻击的高效动态路边单元部署方法及系统  一种可检测女巫攻击的高效动态路边单元部署方法及系统 
 本发明公开了一种可检测女巫攻击的高效动态路边单元部署方法及系统，包括搜集地理信息，评估部署区域的路边单元服务覆盖、重叠范围与事故信息初始扩散速度，建立可检测女巫攻击的RSU部署约束；基于粒子群优化与改进模因算法构建RSU部署方案；获取运输与重建RSU开销，基于二分图匹配算法得到最小RSU调整成本；采集各RSU工作负载，基于帕累托最优原则构建启发式RSU最小成本调整方案。本发明在可检测女巫攻击的约束下，通过构建启发式的RSU高效部署与低成本调整方案，提高了RSU部署中服务有效覆盖范围、事故信息初始扩散速度，最小成本地实现RSU之间负载均衡并具备检测女巫攻击的能力，解决了传统RSU部署方案综合性能低、无法检测女巫攻击的问题。
基于多核卷积神经网络的卫星通信恶意干扰识别方法  基于多核卷积神经网络的卫星通信恶意干扰识别方法 
 本发明公开了基于多核卷积神经网络的卫星通信恶意干扰识别方法，属于卫星通信技术领域。其包括:对卫星通信传输链路的接收信号进行模数转换，得到待处理数据；从不同维度对数据进行变换处理，设定处理维度为；构建多核卷积神经网络干扰识别模型，并以有监督方式对模型进行迭代训练；使用训练好的多核卷积神经网络干扰识别模型进行卫星通信链路恶意干扰的识别，获得识别结果。该方法可在卫星通信链路的干信比和干噪比较低时，获得相对较高的干扰识别准确率，能够有力支撑天基电磁态势感知等应用。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工