在双通道环境下基于DQN算法的信道切换系统及方法技术方案

技术编号:28046718 阅读:23 留言:0更新日期:2021-04-09 23:33
本发明专利技术提供了一种在双通道环境下基于DQN算法的信道切换系统及方法。每个簇的次用户节点用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块。首先建网并寻找当前工作信道;进行信道切换的判决:每个感知时隙内频谱感知模块对当前工作信道进行频谱感知,如果当前工作信道空闲,则当前信道进行数据传输,强化学习模块初始化,频谱感知信息经过处理放入经验池作为训练样本集,强化学习模块实时调取样本进行学习并更新权重参数;如果忙碌,则当前信道参数作为强化学习模块输入并进行最优信道预测,上传优选信道至频谱管理器并进行信道切换决策。本发明专利技术提高了信道切换的实时性和所选信道的质量,保障了通信业务的持续进行。

【技术实现步骤摘要】
在双通道环境下基于DQN算法的信道切换系统及方法
本专利技术属于无线通信
,特别是一种在双通道环境下基于DQN算法的信道切换系统及方法。
技术介绍
现有的信道切换技术,其主要分为主动信道切换和被动信道切换两类。主动式信道切换是通过次用户对主用户过去的活动规律进行统计与总结,并进行归纳,从而预测当前环境下当前时刻主用户对信道的占用情况,在传输过程中每隔一定的周期就主动的发起信道切换。被动式频谱切换是次用户在主用户回归的时候才会发起切换,在每一次信道切换发生前对当前环境下的各个信道进行频谱感知,找到空闲信道之后,再执行切换,如果没有找到合适的空闲信道,将会导致次用户发生通信中断现象。基于现有的主动信道切换方法,有以下两方面的缺点:1)此方法需要当前工作信道的先验统计信息,需要进行不断的统计分析。先验信息不够好时容易导致预测不够准确。2)此方法对频谱感知的能力要求较高,并且周期性的频谱切换会对次用户的通信业务连续性造成一定的影响。基于现有的被动信道切换,有以下两方面的缺点:1)每次切换过程次用户和主用户的碰撞不可避免。2)寻找空闲信道时间不可估计,感知可用信道时间超过一定时间将会导致通信中断现象,严重影响次用户服务质量和系统性能。
技术实现思路
本专利技术的目的在于提供一种在双通道环境下基于DQN算法的信道切换系统及方法,提高信道切换的实时性和所选信道的质量,保障通信业务的持续进行。实现本专利技术目的的技术解决方案为:一种在双通道环境下基于DQN算法的信道切换系统,对于每个簇的次用户节点,用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块,具体如下:频谱任务处理器存在于整个簇中所有次用户节点,是一个控制实体,控制频谱感知模块,同时负责次用户节点各模块间的信息交流;频谱感知模块是物理层模块,负责空穴检测,以及信号类型、信号调制方式、信号强度、信号信噪比这些参数的检测,并提供数据给频谱任务处理器和强化学习模块使用;强化学习模块即RL模块为整个系统的主体模块,RL模块又分为经验池、DQN算法、预测三部分:经验池部分,用于存储训练样本集,为频谱感知模块提供样本数据,并提供给DQN算法部分用于训练神经网络;DQN算法部分,基于马尔科夫决策过程即MDP进行建模,包括两个神经网络结构,分别为Q神经网络和目标Q神经网络,使用DQN算法进行神经网络权值参数的更新;预测部分包括一个神经网络结构,该神经网络完全实时的复制DQN算法部分的Q神经网络,当需要进行信道切换时激活该部分,进行最优信道的预测,并将预测结果返还至频谱管理器,用于次用户进行信道切换。进一步地,当次用户节点为簇首时,信道切换系统还包括频谱管理器,频谱管理器位于簇首中的MAC层,是簇子网运行的关键,负责信道切换、管理信道以及整个簇中所有次用户节点的频谱协同;频谱任务处理器执行频谱管理器的命令。本专利技术一种在双通道环境下基于DQN算法的信道切换方法,步骤如下:步骤1,初始建网:整个网络所有次用户节点进行簇首选举,确定节点所属簇,以及节点是否为簇首;步骤2,寻找当前工作信道;步骤3,对是否需要信道切换进行判决:在确定工作信道后,根据帧结构设计,每个感知时隙内频谱感知模块首先对当前工作信道进行频谱感知,如果当前工作信道空闲,则不进行信道切换,跳转至步骤4;如果当前工作信道忙碌,则需要进行信道切换,跳转至步骤8;步骤4,当前信道进行数据传输;步骤5,强化学习模块初始化;步骤6,频谱感知信息经过处理放入经验池作为训练样本集;步骤7,强化学习模块在该时隙剩余时间内不断的实时调取样本进行学习并更新权重参数,实现模块中神经网络权重参数实时的随外界环境改变而智能的进行调整,当强化学习模块预测部分激活时提供此时最新权重参数实现最优信道的预测;步骤8,当前信道参数作为强化学习模块预测部分输入并进行最优信道预测;步骤9,上传优选信道至频谱管理器并进行信道切换决策;步骤10,信道切换完成,并返回步骤3。进一步地,步骤2所述寻找当前工作信道,具体如下:簇首中频谱管理器启动工作,进行网络初始化;读取本地的信道配置参数:如果存在备选信道,则使用备选信道作为工作信道;如果不存在备选信道,则初始化频谱任务处理器,进行信道感知:如果存在空闲可用信道,则选择空闲可用信道为工作信道;否则频谱感知模块重新进行感知,直到找到可用信道;簇首选择工作信道后下发信息,簇节点接收信息,工作在同一信道,此时该簇完成初始建网。进一步地,步骤5所述强化学习模块初始化,具体如下:强化学习模块初始化经验池容量为D,该容量根据具体硬件条件进行设置,用于存储神经网络的训练样本;初始化Q神经网络,并随机初始化该网络的权重参数θ;初始化目标Q神经网络,仍初始化对应的权重参数为θ;设定神经网络每次学习的最小样本量为M。进一步地,步骤6所述频谱感知信息经过处理放入经验池作为训练样本集,具体如下:在当前信道进行正常通信工作的同时,强化学习模块向频谱任务处理器发出进行实时学习更新的请求,节点的频谱感知模块在另一个通道上遵循频谱任务处理器指令对所有N个信道根据编号1~N进行感知;其中在一个时隙内频谱感知模块依次对所有信道进行检测,当一轮感知结束,当前时隙时间仍未结束,将会重复继续对所有信道依次进行感知,直到时隙结束;与此同时强化学习模块将频谱感知模块感知结果归一化并统一格式,作为强化学习模块的输入,统一输入格式为(st、Zi(t)、RSSIi、SNRi),采用贪心策略ε-greedy算法得到动作at:at=argmaxaQt(st,a;θ)1-ε的概率执行at=random(a)ε的概率执行其中st为所感知信道编号,Zi(t)表示信道的可用状态,即对当前工作信道进行频谱感知的能量检测结果;RSSIi为无线信号强度;SNRi是当前信道的信噪比;at为在当前状态st下将要采取的动作值;Qt(st,a;θ)为当前状态经过Q神经网络预测得出的Q值;a为所有动作的集合;ε为探索值;执行当前状态st下所选择的动作at,根据奖励计算公式和状态转移计算公式得到对应的奖励rt和下一状态st+1,重置st=st+1,用于下一次循环的输入状态,公式如下:rt=(1-Zi(t))×(RSSIi×ω1+SNRi×ω2)st+1=[N'],N'=at其中rt为当前状态st下执行动作at所获得的奖励;st+1为下一状态值;ω1为无线信号强度RSSIi的权重参数;ω2为当前信道信噪比SNRi的权重参数;将(st、at、rt、st+1)四个参数作为一个样本存入经验池中,因此每次感知一个信道即有一个样本存入经验池。进一步地,步骤7所述强化学习模块实时调取样本进行学习并更新权重参数,具体如下:通过步骤6经验池累积了样本,强化学习模块的DQN算法部分即开始进行实时的学习,通过本文档来自技高网...

【技术保护点】
1.一种在双通道环境下基于DQN算法的信道切换系统,其特征在于,对于每个簇的次用户节点,用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块,具体如下:/n频谱任务处理器存在于整个簇中所有次用户节点,是一个控制实体,控制频谱感知模块,同时负责次用户节点各模块间的信息交流;/n频谱感知模块是物理层模块,负责空穴检测,以及信号类型、信号调制方式、信号强度、信号信噪比这些参数的检测,并提供数据给频谱任务处理器和强化学习模块使用;/n强化学习模块即RL模块为整个系统的主体模块,RL模块又分为经验池、DQN算法、预测三部分:/n经验池部分,用于存储训练样本集,为频谱感知模块提供样本数据,并提供给DQN算法部分用于训练神经网络;/nDQN算法部分,基于马尔科夫决策过程即MDP进行建模,包括两个神经网络结构,分别为Q神经网络和目标Q神经网络,使用DQN算法进行神经网络权值参数的更新;/n预测部分包括一个神经网络结构,该神经网络完全实时的复制DQN算法部分的Q神经网络,当需要进行信道切换时激活该部分,进行最优信道的预测,并将预测结果返还至频谱管理器,用于次用户进行信道切换。/n

【技术特征摘要】
1.一种在双通道环境下基于DQN算法的信道切换系统,其特征在于,对于每个簇的次用户节点,用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块,具体如下:
频谱任务处理器存在于整个簇中所有次用户节点,是一个控制实体,控制频谱感知模块,同时负责次用户节点各模块间的信息交流;
频谱感知模块是物理层模块,负责空穴检测,以及信号类型、信号调制方式、信号强度、信号信噪比这些参数的检测,并提供数据给频谱任务处理器和强化学习模块使用;
强化学习模块即RL模块为整个系统的主体模块,RL模块又分为经验池、DQN算法、预测三部分:
经验池部分,用于存储训练样本集,为频谱感知模块提供样本数据,并提供给DQN算法部分用于训练神经网络;
DQN算法部分,基于马尔科夫决策过程即MDP进行建模,包括两个神经网络结构,分别为Q神经网络和目标Q神经网络,使用DQN算法进行神经网络权值参数的更新;
预测部分包括一个神经网络结构,该神经网络完全实时的复制DQN算法部分的Q神经网络,当需要进行信道切换时激活该部分,进行最优信道的预测,并将预测结果返还至频谱管理器,用于次用户进行信道切换。


2.根据权利要求1所述的在双通道环境下基于DQN算法的信道切换系统,其特征在于,当次用户节点为簇首时,信道切换系统还包括频谱管理器,频谱管理器位于簇首中的MAC层,是簇子网运行的关键,负责信道切换、管理信道以及整个簇中所有次用户节点的频谱协同;频谱任务处理器执行频谱管理器的命令。


3.一种在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤如下:
步骤1,初始建网:整个网络所有次用户节点进行簇首选举,确定节点所属簇,以及节点是否为簇首;
步骤2,寻找当前工作信道;
步骤3,对是否需要信道切换进行判决:在确定工作信道后,根据帧结构设计,每个感知时隙内频谱感知模块首先对当前工作信道进行频谱感知,如果当前工作信道空闲,则不进行信道切换,跳转至步骤4;如果当前工作信道忙碌,则需要进行信道切换,跳转至步骤8;
步骤4,当前信道进行数据传输;
步骤5,强化学习模块初始化;
步骤6,频谱感知信息经过处理放入经验池作为训练样本集;
步骤7,强化学习模块在该时隙剩余时间内不断的实时调取样本进行学习并更新权重参数,实现模块中神经网络权重参数实时的随外界环境改变而智能的进行调整,当强化学习模块预测部分激活时提供此时最新权重参数实现最优信道的预测;
步骤8,当前信道参数作为强化学习模块预测部分输入并进行最优信道预测;
步骤9,上传优选信道至频谱管理器并进行信道切换决策;
步骤10,信道切换完成,并返回步骤3。


4.根据权利要求3所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤2所述寻找当前工作信道,具体如下:
簇首中频谱管理器启动工作,进行网络初始化;读取本地的信道配置参数:
如果存在备选信道,则使用备选信道作为工作信道;
如果不存在备选信道,则初始化频谱任务处理器,进行信道感知:如果存在空闲可用信道,则选择空闲可用信道为工作信道;否则频谱感知模块重新进行感知,直到找到可用信道;
簇首选择工作信道后下发信息,簇节点接收信息,工作在同一信道,此时该簇完成初始建网。


5.根据权利要求3所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤5所述强化学习模块初始化,具体如下:
强化学习模块初始化经验池容量为D,该容量根据具体硬件条件进行设置,用于存储神经网络的训练样本;初始化Q神经网络,并随机初始化该网络的权重参数θ;初始化目标Q神经网络,仍初始化对应的权重参数为θ;设定神经网络每次学习的最小样本量为M。


6.根据权利要求5所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤6所述频谱感知信息经过处理放入经验池作为训练样本集,具体如下:
在当前信道进行正常通信工作的同时,强化学习模块向频谱任务处理器发出进行实时学习更新的请求,节点的频谱感知模块在另一个通道上遵循频谱任务处理器指令对所有N个信道根据编号1~N进行感知;其中在一个时隙内频谱感知模块依次对所有信道进行检测,当一轮感知结束,当前时隙时间仍未结束,...

【专利技术属性】
技术研发人员:张周赵润森秦伟闫野桂健钧郄志鹏王彤彤谢佳
申请(专利权)人:天津滨海人工智能军民融合创新中心中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1