【技术实现步骤摘要】
基于决斗深度循环Q网络的动态多信道接入方法和装置
[0001]本申请涉及无线通信
,特别是涉及一种基于决斗深度循环Q网络的动态多信道接入方法和装置。
技术介绍
[0002]一方面,近年来新兴的网络类型以及不同制式网络设备的爆发式增长使得现代无线网络呈现网络异构化,频谱复杂化等诸多特征;另一方面,随着海量的无线设备接入无线网络,迅猛增长的无线业务需求同紧缺的无线频谱资源之间的矛盾日益突出。在各种异构无线网络并存的电磁空间中,频谱资源的封闭式静态管理和条块分割使用进一步加剧了这种矛盾。因此如何对频谱资源进行高效的智能化管理,在满足通信业务的服务质量(Quality of Service, QoS)要求下,提高频谱资源的利用效率,是未来无线通信亟待解决的一个难题。
[0003]动态多信道接入被认为是提高无线网络吞吐量,缓解频谱短缺问题的关键技术之一,但是在异构无线网络场景下的多信道接入面临两个严峻的挑战。第一,在异构网络中,不同网络的网络行为、接入方式各不相同,无法获取关于整个网络的系统先验信息。第二,由于获取全局的频谱状态信息需要大量的通信开销和处理成本,因此在实际网络场景中,节点通常只能获得关于网络频谱状态的局部观测信息。这使得异构无线网络中的多信道接入问题变得十分复杂。
[0004]传统的多信道接入方法,例如近视(Myopic)接入策略和惠特尔指数(Whittle index)接入策略,都是基于模型的方法,这些方法需要获取完整的系统先验信息以建立准确系统模型,然后根据系统模型求解最优的信道接入策 ...
【技术保护点】
【技术特征摘要】
1.一种基于决斗深度循环Q网络的动态多信道接入方法,其特征在于,所述方法包括:构建分时隙的多信道异构无线网络,所述多信道异构无线网络包括一个中心基站、多个不同类型的无线网络以及一个智能节点;根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型;其中,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层;将所述智能节点当前时隙的状态输入所述评价Q网络进行处理,输出评价Q值,将所述智能节点下一时隙的状态输入所述目标Q网络进行处理,输出目标Q值;根据所述评价Q值和目标Q值计算损失函数,根据所述损失函数训练所述决斗深度循环Q网络模型,得到训练好的决斗深度循环Q网络模型;将待接入智能节点的状态输入所述训练好的决斗深度循环Q网络模型,输出信道接入结果,所述智能节点根据所述信道接入结果进行信道接入。2.根据权利要求1所述的方法,其特征在于,构建分时隙的多信道异构无线网络,包括:构建包括一个中心基站、多个不同类型的无线网络以及一个智能节点的分时隙的多信道异构无线网络;所述中心基站将整个频谱划分为多条正交的信道,并将所述信道分配给多个不同类型的无线网络;其中,每个所述无线网络包括不同类型的网络节点;不同类型的所述网络节点通过采用不同的信道接入策略接入对应的信道,根据对应的信道与所述中心基站进行通信;所述智能节点对整个频谱中的空闲频谱进行信道接入,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。3.根据权利要求2所述的方法,其特征在于,根据部分可观测马尔可夫过程对所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型,包括:将所述智能节点的动作、状态、奖励和状态转移概率描述为所述部分可观测马尔可夫过程;根据所述部分可观测马尔可夫过程所述智能节点的信道接入问题进行建模,建立包括评价Q网络和目标Q网络的决斗深度循环Q网络模型。4.根据权利要求1所述的方法,其特征在于,所述评价Q网络和所述目标Q网络包括结构相同的输入层、长短时记忆网络层、全连接层、决斗层和输出层,包括:根据所述输入层输入所述智能节点的状态,其中,所述输入层的神经元个数与所述智能节点的状态向量的长度一致;根据所述长短时记忆网络层中的遗忘门、输入门和输出门分别对所述智能节点所有时隙的状态进行加权和偏置处理,得到所述长短时记忆网络层的输出;根据所述全连接层对所述长短时记忆网络层的输出进行融合,得到所述全连接层的输出;根据所述决斗层对所述全连接层的输出进行采样,得到所述决斗层的输出;根据所述输出层对所述决斗层的输出进行汇总,输出Q值,其中,所述Q值包括评价Q值
和目标Q值。5.根据权利要求4所述的方法,其特征在于,根据所述决斗层对所述全连接层的输出进行采样,得到所述决斗层的输出,包括:所述决斗层的输出表示为其中,为在状态下采取动作的Q值,为神经网络参数,为执行动作带来的预期状态价值,表示在状态下采取动作的动作价值函数,表示在状态下采取其他动作的平均动作价值,为所有动作空间,且。6.根据权利要求1至5任意一项所述的方法,其特征在于,将所述智能节点当前时隙的状态输入所述评价Q网...
【专利技术属性】
技术研发人员:赵海涛,陈海涛,魏急波,张姣,靳增源,刘兴光,雷婵,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。