一种无线网络动态多信道接入方法技术

技术编号:23450458 阅读:23 留言:0更新日期:2020-02-28 23:39
本发明专利技术公开了一种无线网络动态多信道接入方法,针对无线传感网络中信道的高度相关建立遵循马尔科夫联合分布条件下的动态多信道问题模型,从而解决外部干扰对动态多信道接入的影响,针对指数级计算量问题将动态多信道问题模型通过深度强化学习方法进行求解,把DQN算法中的神经网络看作逼近函数来近似Q值,由此避免了庞大的Q表格带来的指数级计算量;通过双控制器在不同维度层级上提取特征值,近似出不同Q值,再通过两者之间的相互制约以及它们与环境的交互不断训练神经网络,以达到最优的接入信道策略。本发明专利技术信道遵循马尔科夫联合分布,在保障主用户通信质量的前提下,考虑信道之间的相关度,提高频谱的利用率。

A dynamic multichannel access method for wireless networks

【技术实现步骤摘要】
一种无线网络动态多信道接入方法
本专利技术属于本无线网络中动态频谱接入
,具体涉及一种无线网络动态多信道接入方法。
技术介绍
在认知无线电研究的背景下,一个标准的假设是次用户可能搜索和使用没有被主用户使用的空闲频道。为了提高无线网络频谱利用率、满足日益增长的容量需求,针对作为认知无线电关键技术之一的动态频谱接入技术的研究正在展开。信道独立且同分布的情况下,短视策略(Myopicpolicy)具有简单、鲁棒的循环结构,除了正相关和负相关外,不需要知道转移概率。信道独立,但遵循不同分布时,动态多信道问题也可以建模为RestlessMulti-armedbandit(RMAB)问题,目标是随着时间的推移使总期望奖励最大化。信道相同分布但不独立的情况下,WhittleIndex策略具有与短视策略相同的简单半通用结构和最优性结果。虽然现有的许多研究都集中在动态频谱接入技术的算法设计和实现上,但是仍然存在以下问题:1)现有的研究大多是在信道相互独立的前提下进行的,忽略了外部干扰会导致无线传感器网络中的信道高度相关;(N个相关信道,联合分布);2)由于用户只能在每个时隙中观察所选的信道,所以问题可以看作为一个部分可观察的马尔科夫决策过程(POMDP),但是找到精确的解需要指数计算,复杂度高;从而导致频谱资源利用率低,降低了主用户通信质量。
技术实现思路
本专利技术的目的在于提供一种无线网络动态多信道接入方法,以克服现有技术频谱资源利用率低、主用户通信质量差的问题,本专利技术能够在保障主用户通信质量的前提下,考虑信道之间的相关度,提高频谱的利用率,在没有先验知识和状态维度极大情况下,实现良好的动态多信道接入。为达到上述目的,本专利技术采用如下技术方案:一种无线网络动态多信道接入方法,包括以下步骤:步骤1),建立遵循马尔科夫联合分布条件下的动态多信道问题模型,动态多信道问题模型包括信道环境中的多个信道状态信息;步骤2)、基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息,以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道,从而实现动态网络接入最优信道。进一步的,针对无线传感网络中信道的高度相关问题,建立遵循马尔科夫联合分布条件下的动态多信道问题模型;遵循马尔科夫联合分布条件下的动态多信道问题模型为:C2:Si=[Si1,...,Sik,...,SiN]C3:C4:C5:C6:其中,C1为马尔科夫链的状态空间,C2是长度为N的向量,Sik是信道k状态的二进制表示:好的(1)或坏的(0);C3为信念向量,是包含历史信息的状态条件概率,P为马尔科夫链的转移矩阵;C4为信念向量的更新,C5为预期累计折扣回报,π(Ω(t))为当前时隙t信念向量为Ω(t)时的策略,Rπ(Ω(t))为策略的相应奖励,γ为折扣因子,C6为最大预期累计折扣回报。进一步的,双控制器包括元控制器和子控制器。进一步的,元控制器通过估计值函数获取信道编号信息,元控制器获取的信道编号信息作为子控制器的输入,子控制器通过估计值函数获取新的信道编号信息作为输出,若子控制器获取新的信道编号信息输出满足目标要求,则完成目标的多信道接入,若子控制器获取新的信道编号信息输出不满足目标要求,则重复上述步骤:通过元控制器重新获取信道编号信息,直至子控制器获取新的信道编号信息输出满足目标要求。进一步的,具体包括以下步骤:1)、首先初始化子控制器和元控制器的经验缓存{d1,d2}、深度神经网络{Q1,Q2}、搜索概率{ε1,ε2}、折扣因子γ、迭代次数和信道环境;2)、通过元控制器从信道环境中随机获取一个信道的初始状态S,同时生成一个随机数εi2,如果随机数εi2小于元控制器初始化后的搜索概率ε2,则从元控制器的动作集中随机获取一个目标动作g做为子控制器的输入,如果随机数εi大于等于元控制器初始化后的搜索概率ε2,则通过元控制器神经网络给出的最大θ2(s,g;θ2,i)值得到的目标动作g做为子控制器的输入;3)、元控制器将获取的初始状态S赋值给子控制器,子控制器同时生成一个随机数εi1,如果随机数εi1小于子控制器初始化后的搜索概率ε1,则从子控制器的动作集中随机获取一个目标动作a做为子控制器的输出,如果随机数εi1大于等于子控制器初始化后的搜索概率ε1,则通过子控制器神经网络给出的最大Q1(s,a;θ1,i,g)值得到子控制器的输出a;4)、如果子控制器的输出a得到的信道良好,则完成目标的多信道接入,如果子控制器的输出a得到的信道占用,则返回步骤2),直至子控制器的输出a得到的信道良好,完成目标的多信道接入。进一步的,步骤4)中,根据子控制器的输出a,从信道环境中获取下一个非子控制器输出信道信息的下一个信道状态s',获取内部奖励r,将{s,a,r,s'}存入子控制器经验缓存d1中;同时更新元控制器神经网络的参数θ2和子控制器神经网络的参数θ1;同时从环境获得外部奖励f,累加外部奖励f为得到累加奖励F',将{s0,g,F',s'}存入元控制器经验缓存d2中,完成一次信道信息选择;获取内部奖励r具体为:如果子控制器的输出a得到的信道良好,则传输成功,内部奖励为正奖励,如果子控制器的输出a得到的信道占用,则传输失败,内部奖励为负奖励。进一步的,元控制器通过估计值函数获取信道编号信息具体如下式:C11:C12:L2(θ2,i)=E[(y2,i-Q2(s,g;θ2,i))2]C11为元控制器的实际输出值,C12为元控制器的损失函数,g为元控制器输出的目标动作,θ2元控制器神经网络的参数,y1,i为依据子控制器下一时隙的估计Q值得出的实际Q值,y2,i为依据元控制器下一时隙的估计Q值得出的实际Q值。进一步的,步骤4)中,同时更新元控制器神经网络的参数θ2和子控制器神经网络的参数θ1;元控制器神经网络的参数θ2和子控制器神经网络的参数θ1分别通过式13和式16更新:C13:C16:L1(θ1,i)为子控制器实际Q值和估计Q值之间的误差期望,C16是对C15的梯度下降;L2(θ2,i)为元控制器实际Q值和估计Q值之间的误差期望,C13是对C12的梯度下降。进一步的,子控制器通过估计值函数获取信道编号信息如下式:C14:C15:L1(θ1,i)=E[(y1,i-Q1(s,a;θ1,i,g))2]C14为子控制器的实际输出值,C15为控制器的损失函数。与现有技术相比,本专利技术具有以下有益的技术效果:本专利技术一种无线网络动态多信道接入方法,通过建立遵循马尔科夫联合分布条件下的动态多信道问题模型,动态多信道问题模型包括信道环境中的多个信道状态信息;基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息,以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道,从而实现动态网络接本文档来自技高网...

【技术保护点】
1.一种无线网络动态多信道接入方法,其特征在于,包括以下步骤:/n步骤1),建立遵循马尔科夫联合分布条件下的动态多信道问题模型,动态多信道问题模型包括信道环境中的多个信道状态信息;/n步骤2)、基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息,以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道,从而实现动态网络接入最优信道。/n

【技术特征摘要】
1.一种无线网络动态多信道接入方法,其特征在于,包括以下步骤:
步骤1),建立遵循马尔科夫联合分布条件下的动态多信道问题模型,动态多信道问题模型包括信道环境中的多个信道状态信息;
步骤2)、基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息,以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道,从而实现动态网络接入最优信道。


2.根据权利要求1所述的一种无线网络动态多信道接入方法,其特征在于,针对无线传感网络中信道的高度相关问题,建立遵循马尔科夫联合分布条件下的动态多信道问题模型;
遵循马尔科夫联合分布条件下的动态多信道问题模型为:
C1:
C2:Si=[Si1,...,Sik,...,SiN]
C3:
C4:
C5:
C6:
其中,C1为马尔科夫链的状态空间,C2是长度为N的向量,Sik是信道k状态的二进制表示:好的(1)或坏的(0);C3为信念向量,是包含历史信息的状态条件概率,P为马尔科夫链的转移矩阵;C4为信念向量的更新,C5为预期累计折扣回报,π(Ω(t))为当前时隙t信念向量为Ω(t)时的策略,Rπ(Ω(t))为策略的相应奖励,γ为折扣因子,C6为最大预期累计折扣回报。


3.根据权利要求1所述的一种无线网络动态多信道接入方法,其特征在于,双控制器包括元控制器和子控制器。


4.根据权利要求3所述的一种无线网络动态多信道接入方法,其特征在于,元控制器通过估计值函数获取信道编号信息,元控制器获取的信道编号信息作为子控制器的输入,子控制器通过估计值函数获取新的信道编号信息作为输出,若子控制器获取新的信道编号信息输出满足目标要求,则完成目标的多信道接入,若子控制器获取新的信道编号信息输出不满足目标要求,则重复上述步骤:通过元控制器重新获取信道编号信息,直至子控制器获取新的信道编号信息输出满足目标要求。


5.根据权利要求4所述的一种无线网络动态多信道接入方法,其特征在于,具体包括以下步骤:
1)、首先初始化子控制器和元控制器的经验缓存{d1,d2}、深度神经网络{Q1,Q2}、搜索概率{ε1,ε2}、折扣因子γ、迭代次数和信道环境;
2)、通过元控制器从信道环境中随机获取一个信道的初始状态S,同时生成一个随机数εi2,如果随机数εi2小于元控制器初始化后的搜索概率ε2,则从元控制器的动作集中随机获取一个目标动作g做为子控制器的输入,如果随机数εi大于等于元控制器初始化后的搜索概率ε2,则通过元控制器神经网络给出的最大Q2(s,g;θ2,i)值得到的目标动作g做为子控制器的输入;
3)、元控制器将获取的初始状态S赋值给子控制器,子控制器同时生成一个随机数εi1,如果随机数εi1小...

【专利技术属性】
技术研发人员:刘帅吴佳韵张尧洪彩霞吴吉鑫肖温何静
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1