基于决斗深度循环Q网络的动态多信道接入方法和装置制造方法及图纸

技术编号:34753524 阅读:18 留言:0更新日期:2022-08-31 18:49
本申请涉及一基于决斗深度循环Q网络的动态多信道接入方法和装置。所述方法包括:构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点分时隙的多信道异构无线网络;根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。采用本方法不需要获取系统先验信息,通过与环境的不断交互来学习和预测信道状态的变化规律,从而实现智能节点合理高效的信道接入。而实现智能节点合理高效的信道接入。而实现智能节点合理高效的信道接入。

【技术实现步骤摘要】
基于决斗深度循环Q网络的动态多信道接入方法和装置


[0001]本申请涉及无线通信
,特别是涉及一种基于决斗深度循环Q网络的动态多信道接入方法和装置。

技术介绍

[0002]一方面,近年来新兴的网络类型以及不同制式网络设备的爆发式增长使得现代无线网络呈现网络异构化,频谱复杂化等诸多特征;另一方面,随着海量的无线设备接入无线网络,迅猛增长的无线业务需求同紧缺的无线频谱资源之间的矛盾日益突出。在各种异构无线网络并存的电磁空间中,频谱资源的封闭式静态管理和条块分割使用进一步加剧了这种矛盾。因此如何对频谱资源进行高效的智能化管理,在满足通信业务的服务质量(Quality of Service, QoS)要求下,提高频谱资源的利用效率,是未来无线通信亟待解决的一个难题。
[0003]动态多信道接入被认为是提高无线网络吞吐量,缓解频谱短缺问题的关键技术之一,但是在异构无线网络场景下的多信道接入面临两个严峻的挑战。第一,在异构网络中,不同网络的网络行为、接入方式各不相同,无法获取关于整个网络的系统先验信息。第二,由于获取全局的频谱状态信息需要大量的通信开销和处理成本,因此在实际网络场景中,节点通常只能获得关于网络频谱状态的局部观测信息。这使得异构无线网络中的多信道接入问题变得十分复杂。
[0004]传统的多信道接入方法,例如近视(Myopic)接入策略和惠特尔指数(Whittle index)接入策略,都是基于模型的方法,这些方法需要获取完整的系统先验信息以建立准确系统模型,然后根据系统模型求解最优的信道接入策略。一旦系统先验信息无法获取时,这些方法的性能就会大打折扣。另外,在传统的方法中,通常都假设信道状态遵循两状态马尔可夫变化,并且需要预先知道每个信道确切的状态转移概率。而在实际系统中,准确获取每个信道的状态转移概率是十分困难的。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够有效的提高多信道接入成功率和网络频谱利用效率的基于决斗深度循环Q网络的动态多信道接入方法和装置。
[0006]一种基于决斗深度循环Q网络的动态多信道接入方法,所述方法包括:构建分时隙的多信道异构无线网络,多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值;
根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;将待接入智能节点的状态输入训练好的决斗深度循环Q网络模型,输出信道接入结果,智能节点根据信道接入结果进行信道接入。
[0007]在其中一个实施例中,构建分时隙的多信道异构无线网络,包括:构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;中心基站将整个频谱划分为多条正交的信道,并将信道分配给多个不同类型的无线网络;其中,每个无线网络包括不同类型的网络节点;不同类型的网络节点通过采用不同的信道接入策略接入对应的信道,根据对应的信道与中心基站进行通信;智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
[0008]在其中一个实施例中,根据部分可观测马尔可夫过程对智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,包括:将智能节点的动作、状态、奖励和状态转移概率描述为部分可观测马尔可夫过程;根据部分可观测马尔可夫过程智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。
[0009]在其中一个实施例中,评价Q网络和目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,包括:根据输入层输入智能节点的状态,其中,输入层的神经元个数与智能节点的状态向量的长度一致;根据长短时记忆网络层中的遗忘门、输入门和输出门分别对智能节点所有时隙的状态进行加权和偏置处理,得到长短时记忆网络层的输出;根据全连接层对长短时记忆网络层的输出进行融合,得到全连接层的输出;根据决斗层对全连接层的输出进行采样,得到决斗层的输出;根据输出层对决斗层的输出进行汇总,输出Q值,其中,Q值包括评价Q值和目标Q值。
[0010]在其中一个实施例中,根据决斗层对全连接层的输出进行采样,得到决斗层的输出,包括:决斗层的输出表示为其中,为在状态下采取动作的Q值,为神经网络参数,
为执行动作带来的预期状态价值,表示在状态下采取动作的动作价值函数,表示在状态下采取其他动作的平均动作价值,为所有动作空间,且。
[0011]在其中一个实施例中,将智能节点当前时隙的状态输入评价Q网络进行处理,输出评价Q值之前,还包括:根据经验重放策略建立经验重放池,对经验重放池中进行随机采样,得到组数据集,其中,表示每组数据集中智能节点当前时隙的状态,表示每组数据集中智能节点当前时隙的信道接入动作,表示每组数据集中智能节点当前时隙执行信道接入动作后获得的奖励,表示每组数据集中智能节点下一时隙的状态;将每组数据集中智能节点当前时隙的状态输入评价Q网络进行处理,得到每组数据的评价Q值,表示为,其中,为到的一个映射,即,为评价Q网络的神经网络参数。
[0012]在其中一个实施例中,根据经验重放策略建立经验重放池,包括:将智能节点当前时隙的状态输入评价Q网络,输出状态下所有动作的Q值集合;设定探索概率为,通过自适应策略选择信道接入动作;根据信道接入动作计算观测向量和智能节点当前时隙执行信道接入动作后获得的奖励,根据智能节点当前时隙的状态计算智能节点下一时隙的状态;将、、和进行联合,得到一组数据集;将数据集保存至经验重放池中,直至达到经验重放池的容量阈值。
[0013]在其中一个实施例中,将智能节点下一时隙的状态输入目标Q网络进行处理,输出目标Q值,包括:将每组数据集中智能节点下一时隙的状态输入目标Q网络进行处理,得到目标Q值,表示为,其中,为目标
Q网络的神经网络参数,为折扣因子且,表示每组数据集中智能节点下一时隙的信道接入动作。
[0014]在其中一个实施例中,根据评价Q值和目标Q值计算损失函数,根据损失函数训练决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型,包括:根据评价Q值和目标Q值计算均方误差损失函数,表示为其中,为期望运算符;根据均方误差损失函数训练决斗深度循环Q网络模型中的评价Q网络,并根据更新评价Q网络中的神经网络参数,其中,为时隙时的神经网络参数,为时隙时的神经网络参数,为学习率,且,表示对求梯度;重复迭代K次训练直至均方误差损失函数收敛时,将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于决斗深度循环Q网络的动态多信道接入方法,其特征在于,所述方法包括:构建分时隙的多信道异构无线网络,所述多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;将所述智能节点当前时隙的状态输入所述评价Q网络进行处理,输出评价Q值,将所述智能节点下一时隙的状态输入所述目标Q网络进行处理,输出目标Q值;根据所述评价Q值和目标Q值计算损失函数,根据所述损失函数训练所述决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;将待接入智能节点的状态输入所述训练好的决斗深度循环Q网络模型,输出信道接入结果,所述智能节点根据所述信道接入结果进行信道接入。2.根据权利要求1所述的方法,其特征在于,构建分时隙的多信道异构无线网络,包括:构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;所述中心基站将整个频谱划分为多条正交的信道,并将所述信道分配给多个不同类型的无线网络;其中,每个所述无线网络包括不同类型的网络节点;不同类型的所述网络节点通过采用不同的信道接入策略接入对应的信道,根据对应的信道与所述中心基站进行通信;所述智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。3.根据权利要求2所述的方法,其特征在于,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,包括:将所述智能节点的动作、状态、奖励和状态转移概率描述为所述部分可观测马尔可夫过程;根据所述部分可观测马尔可夫过程所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。4.根据权利要求1所述的方法,其特征在于,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,包括:根据所述输入层输入所述智能节点的状态,其中,所述输入层的神经元个数与所述智能节点的状态向量的长度一致;根据所述长短时记忆网络层中的遗忘门、输入门和输出门分别对所述智能节点所有时隙的状态进行加权和偏置处理,得到所述长短时记忆网络层的输出;根据所述全连接层对所述长短时记忆网络层的输出进行融合,得到所述全连接层的输出;根据所述决斗层对所述全连接层的输出进行采样,得到所述决斗层的输出;根据所述输出层对所述决斗层的输出进行汇总,输出Q值,其中,所述Q值包括评价Q值
和目标Q值。5.根据权利要求4所述的方法,其特征在于,根据所述决斗层对所述全连接层的输出进行采样,得到所述决斗层的输出,包括:所述决斗层的输出表示为其中,为在状态下采取动作的Q值,为神经网络参数,为执行动作带来的预期状态价值,表示在状态下采取动作的动作价值函数,表示在状态下采取其他动作的平均动作价值,为所有动作空间,且。6.根据权利要求1至5任意一项所述的方法,其特征在于,将所述智能节点当前时隙的状态输入所述评价Q网...

【专利技术属性】
技术研发人员:赵海涛陈海涛魏急波张姣靳增源刘兴光雷婵
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1