一种蜂窝物联网上行资源分配方法及电子设备组成比例

技术编号:29413066 阅读:13 留言:0更新日期:2021-07-23 22:55
本说明书一个或多个实施例提供一种蜂窝物联网上行资源分配方法及电子设备,所述方法包括:将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体,智能体根据当前系统状态采用探索‑利用策略选取动作空间A

【技术实现步骤摘要】
一种蜂窝物联网上行资源分配方法及电子设备
本说明书一个或多个实施例涉及无线通信
,尤其涉及一种蜂窝物联网上行资源分配方法及电子设备。
技术介绍
作为5G的三大应用场景之一,海量机器类型通信(mMTC)旨在为大规模的物联网(IoT)设备提供连接。mMTC每平方公里支持100万个以上具有各种QoS要求的设备的连接,在为万物互联带来机遇的同时,也对频谱利用率、传输延迟和数据吞吐量等方面提出了新的挑战。非正交多址技术(Non-orthogonalmultipleaccess,NOMA)被视为是一项可以有效应对这些挑战的关键技术。与传统正交多址技术相比,NOMA通过利用新的功率和编码域对设备之间的有限资源进行非正交资源分配,可以提高频谱效率,减少访问延迟和信令开销,在支持海量连接时更具有优势。NOMA的基本思想是在发送端采用非正交传输,主动引入干扰信息,在接收端通过连续干扰消除(SIC)技术进行解调。SIC可以很好地提高频谱效率,有效增强上行链路和下行链路的网络容量。鉴于NOMA的独特优势,目前3GPP已将NOMA纳入5GmMTC标准的技术部分,NOMA中的资源管理也成为了无线通信领域的热点研究问题。目前,由于大规模蜂窝物联网应用场景中物联网设备性能普遍较差,无法完成NOMA传输中的连续干扰消除(SIC)技术,使用于转发的中继节点和基站不能进行有效通信;同时NOMA频谱资源共享会出现复杂干扰情况,导致无法对蜂窝物联网上行资源进行有效的资源分配。
技术实现思路
有鉴于此,本说明书一个或多个实施例的目的在于提出一种蜂窝物联网上行资源分配方法及电子设备,以解决无法对蜂窝物联网上行资源进行有效的资源分配的问题。基于上述目的,本说明书一个或多个实施例提供了一种蜂窝物联网上行资源分配方法,包括:将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体,对所述智能体执行如下操作,直至达到预设迭代次数:所述智能体根据所述智能体当前系统状态采用探索-利用策略选取动作空间Ai中的动作ai并执行所述动作ai;根据执行的所述动作ai通过奖励函数计算每个所述智能体的奖励值;以及根据所述智能体的Q函数确定所述智能体当前系统状态下的Q函数,且所述智能体从当前系统状态进入下一系统状态;基于所述智能体的估计策略、平均估计策略确定所述智能体执行所述动作ai时的平均估计策略和估计策略;以及响应于确定所述智能体执行所述动作ai时的估计策略值大于平均估计策略值,利用学习速率δw调整当前的估计策略,否则利用学习速率δl调整当前的估计策略,其中δl>δw;所述智能体执行的以上操作达到所述预设迭代次数,得到最优的所述估计策略;根据最优的所述估计策略,对所述蜂窝物联网的上行资源进行资源分配。进一步,所述将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体,对所述智能体执行如下操作,直至达到预设迭代次数,之前还包括:将所述智能体初始的Q函数初始值记作0,确定用于记录系统状态S出现次数的计数器Xi(S),以及所述智能体初始的估计策略π(S,ai)、平均估计策略其中,初始的估计策略初始的平均估计策略进一步,所述系统状态S由所述直传节点的状态sw和所述边缘节点的状态sn构成,其中,S={sw,sn,w∈W,n∈N};具体的,所述直传节点的状态sw包括所述直传节点的信道分配系数λw,c,所述边缘节点的状态sn包括所述边缘节点n的信道分配系数ηn,r,c和传输功率控制系数θn,其中,λw,c={0,1},sw={λw,c,w∈W,c∈C},ηn,r,c={0,1},θn={0.0,0.2,0.4,0.6,0.8,1.0},sn={ηn,r,c,θn,n∈N,r∈R,c∈C}。进一步,将所述奖励函数记作rew(S,ai),若所述智能体为边缘节点,则所述奖励函数rew(S,ai)的算法为:若所述智能体为直传节点,则所述奖励函数rew(S,ai)的算法为:进一步,所述确定所述智能体当前系统状态下的Q函数计算方法为:将所述Q函数的记作Qi(S,ai),其中,δq表示Q函数学习速率,β表示累计奖励折扣系数,分别为下一次到达的系统状态和执行的动作。进一步,所述探索-利用策略具体为贪心策略ε-greedy,所述贪心策略的计算方法为:在给定系统状态S下,智能体i的选择动作ai的概率分布记作p(ai|S),p(ai|S)的算法如下:其中,ε表示动作选择概率,且0<ε<1,Qi(S,ai)表示Q函数,Ai(S)表示智能体i在系统状态S下可执行动作的数量。进一步,所述确定所述智能体执行动作ai时的平均估计策略的计算方法为:所述确定所述智能体执行动作ai时的估计策略的计算方法为:其中,表示估计策略更新的步长,其计算方法为:其中,δ为学习速率,δ根据以下两种情况进行取不同的值,进一步,所述方法之前还包括:基于非正交多址接入NOMA技术和开放移动联盟OMA技术,确定所述边缘节点、所述直传节点以及中继节点与基站之间进行通信的信号传输模型,所述信号传输模型具体包括:确定所述基站下的N个边缘节点,R个中继节点,W个直传节点,C条信道,其中,N={1,2,3,…,N},R={1,2,3,…,R},W={1,2,3,…,W},C={1,2,3,…,C};所述中继节点接收所述边缘节点通过NOMA技术发出的信号,得到第一信号yr,所述第一信号yr的算法为:其中,Hn,r表示边缘节点n的到中继节点r的信道增益,θn表示边缘节点n的传输功率控制系数,Pn表示边缘节点n的最大发射功率,Sn表示边缘节点n发出的信号,ηn,r,c表示信道分配系数,ξ表示加性高斯白噪声信号,且σ2表示加性高斯白噪声功率,n∈N,r∈R;进一步,Hn,r的算法为:其中,表示边缘节点n的到中继节点r的信道的小规模衰落且满足高斯分布dn,r表示从边缘节点n的到中继节点r的距离,λ为路径损耗指数;所述基站接收所述由所述中继节点通过OMA技术发出的第一信号和所述直传节点通过NOMA技术发出的信号,利用连续干扰消除技术SIC解码得到第二信号yBS,所述第二信号yBS的算法为:其中,Hw,BS表示从直传节点w到基站的信道增益,Hr,BS表示从中继节点r到基站的信道增益,Pw表示直传节点的发射功率,Sw表示直传节点发出的信号,λw,c表示信道分配系数,μr为中继增益系数;Hw,BS的算法为:其中,表示直传节点w到基站的信道的小规模衰落并满足高斯分布dw,BS表示从直传节点w到基站的距离;Hr,BS的算法为:其中,表示中继节点到基站的信道的小规模衰落并满足高斯分布dr,BS表示从中继节点r到基站的距离;基于香农定理,计算所述基站接收所述第二信号的接收速率Rs本文档来自技高网...

【技术保护点】
1.一种蜂窝物联网上行资源分配方法,其特征在于,包括:/n将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体,对所述智能体执行如下操作,直至达到预设迭代次数:/n所述智能体根据所述智能体当前系统状态采用探索-利用策略选取动作空间A

【技术特征摘要】
1.一种蜂窝物联网上行资源分配方法,其特征在于,包括:
将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体,对所述智能体执行如下操作,直至达到预设迭代次数:
所述智能体根据所述智能体当前系统状态采用探索-利用策略选取动作空间Ai中的动作ai并执行所述动作ai;
根据执行的所述动作ai通过奖励函数计算每个所述智能体的奖励值;以及
根据所述智能体的Q函数确定所述智能体当前系统状态下的Q函数,且所述智能体从当前系统状态进入下一系统状态;
基于所述智能体的估计策略、平均估计策略确定所述智能体执行所述动作ai时的平均估计策略和估计策略;以及
响应于确定所述智能体执行所述动作ai时的估计策略值大于平均估计策略值,利用学习速率δw调整当前的估计策略,否则利用学习速率δl调整当前的估计策略,其中δl>δw;
所述智能体执行的以上操作达到所述预设迭代次数,得到最优的所述估计策略;
根据最优的所述估计策略,对所述蜂窝物联网的上行资源进行资源分配。


2.根据权利要求1所述的方法,其特征在于,所述将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体,对所述智能体执行如下操作,直至达到预设迭代次数,之前还包括:
将所述智能体初始的Q函数初始值记作0,确定用于记录系统状态S出现次数的计数器Xi(S),以及所述智能体初始的估计策略π(S,ai)、平均估计策略其中,初始的估计策略初始的平均估计策略


3.根据权利要求2所述的方法,其特征在于,所述系统状态S由所述直传节点的状态sw和所述边缘节点的状态sn构成,其中,S={sw,sn,w∈W,n∈N};
具体的,所述直传节点的状态sw包括所述直传节点的信道分配系数λw,c,所述边缘节点的状态sn包括所述边缘节点n的信道分配系数ηn,r,c和传输功率控制系数θn,其中,λw,c={0,1},sw={λw,c,w∈W,c∈C},ηn,r,c={0,1},θn={0.0,0.2,0.4,0.6,0.8,1.0},sn={ηn,r,c,θn,n∈N,r∈R,c∈C}。


4.根据权利要求3所述的方法,其特征在于,将所述奖励函数记作rew(S,ai),若所述智能体为边缘节点,则所述奖励函数rew(S,ai)的算法为:



若所述智能体为直传节点,则所述奖励函数rew(S,ai)的算法为:





5.根据权利要求4所述的方法,其特征在于,所述确定所述智能体当前系统状态下的Q函数计算方法为:
将所述Q函数的记作Qi(S,ai),



其中,δq表示Q函数学习速率,β表示累计奖励折扣系数,分别为下一次到达的系统状态和执行的动作。


6.根据权利要求5所述的方法,其特征在于,所述探索-利用策略具体为贪心策略ε-greedy,所述贪心策略的计算方法为:
在给定系统状态S下,智能体i的选择动作ai的概率分布记作p(ai|S),p(ai|S)的算法如下:



其中,ε表示动作选择概率,且0<ε<1,Qi(S,ai)表示Q函数,Ai(S)表示智能体i在系统状态S下可执行动作的数量。


7.根据权利要求6所述的方法,其特征在于,所述确定所述智能体执行动作ai时的平均估计策略的计算方法为:



所述确定所述智能体执行动作ai时的估计策略的计算方法为:



其中,表示估计策略更新的步长,其计算方法为:



其中,δ为学习速率,δ根据以下两种情况进行取不同的值,





...

【专利技术属性】
技术研发人员:孙德栋欧清海张宁池姚贤炯王艳茹刘椿枫李温静丰雷刘卉马文洁张洁陈毅龙郭丹丹佘蕊杨志祥王志强贺军
申请(专利权)人:北京中电飞华通信有限公司国网信息通信产业集团有限公司国网上海市电力公司北京邮电大学国网陕西省电力公司国家电网有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1