当前位置: 首页 > 专利查询>中山大学专利>正文

一种非授权频段公平共存接入方法及系统技术方案

技术编号:33730867 阅读:22 留言:0更新日期:2022-06-08 21:26
本发明专利技术公开了一种非授权频段公平共存接入方法及系统,该方法包括:将新接入非授权频段的节点定义为智能体,并进行网络初始化;智能体根据当前状态决策并执行动作,得到对应的经验;将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;生成虚拟经验并对智能体进行训练更新;按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;循环更新步骤。该系统包括:初始化模块、执行动作模块、第一更新模块、第二更新模块、第三更新模块和循环模块。通过使用本发明专利技术,能够使新接入非授权频段的节点根据环境调整接入策略,从而更加快速且平稳地实现在非授权频段中的公平共存。本发明专利技术可广泛应用于无线通信领域。通信领域。通信领域。

【技术实现步骤摘要】
一种非授权频段公平共存接入方法及系统


[0001]本专利技术涉及无线通信领域,尤其涉及一种非授权频段公平共存接入方法及系统。

技术介绍

[0002]在无线通信领域中,非授权频段作为授权频段的补充,允许4G、5G等蜂窝网络设备接入到非授权频段中进行传输。考虑到新接入节点需要与非授权频段中原本存在的其他MAC节点(如WiFi节点)共存,因此如何保证非授权频段中不同MAC节点之间的公平性接入成为了当前的一个研究热点。
[0003]目前基于数据驱动的无模型强化学习算法是解决多址接入问题的热门方法,但是受限于其边训练边执行的方式,数据量不足将导致算法收敛速度慢或者无法在有限时间内收敛到最优解。尤其是在当前以及未来的无线网络中,网络环境往往变化较快,同时网络中有着大量的数据传输,这就要求接入算法能够快速有效地收敛到最优接入策略。因此如何充分利用有限的真实数据,或者如何快速扩充智能体训练所需的数据样本,从而提高智能体的拟合速度,成为了目前急需解决的技术问题。

技术实现思路

[0004]为了解决上述技术问题,本专利技术的目的是提供一种非授权频段公平共存接入方法及系统,能够快速产生大量的虚拟数据,使智能体的收敛效果得到有效提升。
[0005]本专利技术所采用的第一技术方案是:一种非授权频段公平共存接入方法,包括以下步骤:
[0006]S1、将新接入非授权频段的节点定义为智能体,并进行网络初始化;
[0007]S2、智能体根据当前状态决策并执行动作,得到对应的经验;
[0008]S3、将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;
[0009]S4、生成虚拟经验并对智能体进行训练更新;
[0010]S5、按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;
[0011]S6、循环步骤S2

S5直至达到预设的迭代步数。
[0012]进一步,所述网络初始化包括智能体的深度Q网络初始化和虚拟多址接入环境模型的深度神经网络初始化,所述深度Q网络包括策略网络和目标网络,所述虚拟多址接入环境模型包括状态模型和奖励模型。
[0013]进一步,所述智能体根据当前状态决策并执行动作中决策策略的公式表示如下:
[0014][0015]上式中,f
α
表示α公平性局部效用函数,1

∈表示选择一个当前策略下的最优动作
的概率,∈表示选择一个随机动作的概率,N表示节点数量,Q
(i)
(s
t
,a)表示节点i所对应的“状态

动作对”的价值,s
t
表示环境状态,a表示动作,random action表示随机动作。
[0016]进一步,所述得到对应的经验的表达式如下:
[0017]e
t
={c
t
,a
t
,r
t
,c
t+1
}
[0018]上式中,e
t
表示经验,c
t
表示在时间步t时的信道状态,a
t
表示智能体选择的动作,r
t
表示智能体所获得的奖励,c
t+1
表示智能体在信道状态c
t
执行动作a
t
后转移到的下一个信道状态。
[0019]进一步,深度Q网络的更新公式表示如下:
[0020][0021]上式中,γ表示折扣因子,θ和θ

表示深度Q网络的参数,N表示节点数量,E表示经验池中经验样本,a

表示环境状态为s
t+1
时智能体在当前策略下的最优动作。
[0022]进一步,所述生成虚拟经验并对智能体进行训练更新这一步骤,其具体包括:
[0023]基于虚拟多址接入环境模型从经验池中选择输入状态,并以对应动作的相反动作为输入动作,生成输出值,得到虚拟经验;
[0024]基于虚拟经验对智能体的深度Q网络进行训练更新。
[0025]进一步,所述按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新这一步骤,其具体包括:
[0026]按照预设时间间隔从经验池取出经验,以经验中的状态和动作作为输入,以对应下一个信道状态和奖励分别作为状态模型和奖励模型的标签,训练虚拟多址接入环境模型并更新神经网络参数。
[0027]本专利技术所采用的第二技术方案是:一种非授权频段公平共存接入系统,包括:
[0028]初始化模块,用于将新接入非授权频段的节点定义为智能体,并进行网络初始化;
[0029]执行动作模块,智能体根据当前状态决策并执行动作,得到对应的经验;
[0030]第一更新模块,用于将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;
[0031]第二更新模块,用于生成虚拟经验并对智能体进行训练更新;
[0032]第三更新模块,用于按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;
[0033]循环模块,用于执行循环步骤。
[0034]本专利技术方法及系统的有益效果是:本专利技术将基于模型的Dyna框架应用到无线通信领域来解决多址接入问题。通过搭建虚拟多址接入环境模型,使其可以产生大量虚拟经验辅助智能体的训练,解决了无模型深度强化学习算法中因为数据量缺乏而无法有效收敛的问题,同时在虚拟网络环境进行虚拟经验采样时,通过设计一定的采样策略,选择与智能体相反的动作,达到了帮助智能体进行状态空间探索的目的,也加快了智能体收敛的速度,使得本方案更加适用于对算法收敛延迟要求较高的无线通信场景。
附图说明
[0035]图1是本专利技术一种非授权频段公平共存接入方法的步骤流程图;
[0036]图2是本专利技术具体实施例方法框架图;
[0037]图3是本专利技术一种非授权频段公平共存接入系统的结构框图;
[0038]图4是本专利技术具体实施例通信场景示意图;
[0039]图5是本专利技术具体实施例智能体的深度Q网络结构图;
[0040]图6是本专利技术具体实施例虚拟多址接入环境模型中状态模型的DNN结构图;
[0041]图7是本专利技术具体实施例虚拟多址接入环境模型中奖励模型的DNN结构图;
[0042]图8是具体实施例仿真实验结果图。
具体实施方式
[0043]下面结合附图和具体实施例对本专利技术做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0044]图4为本专利技术所考虑的非授权频段多址接入系统,系统中包括运行于非授权频段的若干个WiFi节点,以及新接入该频段的其他通信节点。该通信场景的优化目标是达到系统中所有节点之间的α公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非授权频段公平共存接入方法,其特征在于,包括以下步骤:S1、将新接入非授权频段的节点定义为智能体,并进行网络初始化;S2、智能体根据当前状态决策并执行动作,得到对应的经验;S3、将经验存入经验池,并基于经验回放机制对智能体的深度Q网络进行训练更新;S4、生成虚拟经验并对智能体进行训练更新;S5、按照预设时间间隔从经验池取出经验对虚拟多址接入环境模型进行训练更新;S6、循环步骤S2

S5直至达到预设的迭代步数。2.根据权利要求1所述一种非授权频段公平共存接入方法,其特征在于,所述网络初始化包括智能体的深度Q网络初始化和虚拟多址接入环境模型的深度神经网络初始化,所述深度Q网络包括策略网络和目标网络,所述虚拟多址接入环境模型包括状态模型和奖励模型。3.根据权利要求2所述一种非授权频段公平共存接入方法,其特征在于,所述智能体根据当前状态决策并执行动作中决策策略的公式表示如下:上式中,f
α
表示α公平性局部效用函数,1

∈表示选择一个当前策略下的最优动作的概率,∈表示选择一个随机动作的概率,N表示节点数量,Q
(i)
(s
t
,a)表示节点i所对应的“状态

动作对”的价值,s
t
表示环境状态,a表示动作,random action表示随机动作。4.根据权利要求3所述一种非授权频段公平共存接入方法,其特征在于,所述得到对应的经验的表达式如下:e
t
={c
t
,a
t
,r
t
,c
t+1
}上式中,e
t
表示经验,c
t
表示在时间步t时的信道状态,a
...

【专利技术属性】
技术研发人员:孙兴华许浩维詹文王玺钧
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1