一种蜂窝物联网上行资源分配方法及电子设备组成比例

技术编号：29413066 阅读：13 留言：0更新日期：2021-07-23 22:55

本说明书一个或多个实施例提供一种蜂窝物联网上行资源分配方法及电子设备，所述方法包括：将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体，智能体根据当前系统状态采用探索‑利用策略选取动作空间A

全部详细技术资料下载

【技术实现步骤摘要】
一种蜂窝物联网上行资源分配方法及电子设备
本说明书一个或多个实施例涉及无线通信
，尤其涉及一种蜂窝物联网上行资源分配方法及电子设备。
技术介绍
作为5G的三大应用场景之一，海量机器类型通信(mMTC)旨在为大规模的物联网(IoT)设备提供连接。mMTC每平方公里支持100万个以上具有各种QoS要求的设备的连接，在为万物互联带来机遇的同时，也对频谱利用率、传输延迟和数据吞吐量等方面提出了新的挑战。非正交多址技术(Non-orthogonalmultipleaccess，NOMA)被视为是一项可以有效应对这些挑战的关键技术。与传统正交多址技术相比，NOMA通过利用新的功率和编码域对设备之间的有限资源进行非正交资源分配，可以提高频谱效率，减少访问延迟和信令开销，在支持海量连接时更具有优势。NOMA的基本思想是在发送端采用非正交传输，主动引入干扰信息，在接收端通过连续干扰消除(SIC)技术进行解调。SIC可以很好地提高频谱效率，有效增强上行链路和下行链路的网络容量。鉴于NOMA的独特优势，目前3GPP已将NOMA纳入5GmMTC标准的技术部分，NOMA中的资源管理也成为了无线通信领域的热点研究问题。目前，由于大规模蜂窝物联网应用场景中物联网设备性能普遍较差，无法完成NOMA传输中的连续干扰消除(SIC)技术，使用于转发的中继节点和基站不能进行有效通信；同时NOMA频谱资源共享会出现复杂干扰情况，导致无法对蜂窝物联网上行资源进行有效的资源分配。
技术实现思路
有鉴于此，本说明书一个或多个实施例...

【技术保护点】
1.一种蜂窝物联网上行资源分配方法，其特征在于，包括：/n将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体，对所述智能体执行如下操作，直至达到预设迭代次数：/n所述智能体根据所述智能体当前系统状态采用探索-利用策略选取动作空间A

【技术特征摘要】
1.一种蜂窝物联网上行资源分配方法，其特征在于，包括：
将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体，对所述智能体执行如下操作，直至达到预设迭代次数：
所述智能体根据所述智能体当前系统状态采用探索-利用策略选取动作空间Ai中的动作ai并执行所述动作ai；
根据执行的所述动作ai通过奖励函数计算每个所述智能体的奖励值；以及
根据所述智能体的Q函数确定所述智能体当前系统状态下的Q函数，且所述智能体从当前系统状态进入下一系统状态；
基于所述智能体的估计策略、平均估计策略确定所述智能体执行所述动作ai时的平均估计策略和估计策略；以及
响应于确定所述智能体执行所述动作ai时的估计策略值大于平均估计策略值，利用学习速率δw调整当前的估计策略，否则利用学习速率δl调整当前的估计策略，其中δl>δw；
所述智能体执行的以上操作达到所述预设迭代次数，得到最优的所述估计策略；
根据最优的所述估计策略，对所述蜂窝物联网的上行资源进行资源分配。

2.根据权利要求1所述的方法，其特征在于，所述将蜂窝物联网的每个边缘节点和每个直传节点均作为智能体，对所述智能体执行如下操作，直至达到预设迭代次数，之前还包括：
将所述智能体初始的Q函数初始值记作0，确定用于记录系统状态S出现次数的计数器Xi(S)，以及所述智能体初始的估计策略π(S,ai)、平均估计策略其中，初始的估计策略初始的平均估计策略

3.根据权利要求2所述的方法，其特征在于，所述系统状态S由所述直传节点的状态sw和所述边缘节点的状态sn构成，其中，S＝{sw,sn,w∈W,n∈N}；
具体的，所述直传节点的状态sw包括所述直传节点的信道分配系数λw,c，所述边缘节点的状态sn包括所述边缘节点n的信道分配系数ηn,r,c和传输功率控制系数θn，其中，λw,c＝{0,1}，sw＝{λw,c,w∈W,c∈C}，ηn,r,c＝{0,1}，θn＝{0.0,0.2,0.4,0.6,0.8,1.0}，sn＝{ηn,r,c,θn,n∈N,r∈R,c∈C}。

4.根据权利要求3所述的方法，其特征在于，将所述奖励函数记作rew(S,ai)，若所述智能体为边缘节点，则所述奖励函数rew(S,ai)的算法为：

若所述智能体为直传节点，则所述奖励函数rew(S,ai)的算法为：

5.根据权利要求4所述的方法，其特征在于，所述确定所述智能体当前系统状态下的Q函数计算方法为：
将所述Q函数的记作Qi(S,ai)，

其中，δq表示Q函数学习速率，β表示累计奖励折扣系数，分别为下一次到达的系统状态和执行的动作。

6.根据权利要求5所述的方法，其特征在于，所述探索-利用策略具体为贪心策略ε-greedy，所述贪心策略的计算方法为：
在给定系统状态S下，智能体i的选择动作ai的概率分布记作p(ai|S)，p(ai|S)的算法如下：

其中，ε表示动作选择概率，且0<ε<1，Qi(S,ai)表示Q函数，Ai(S)表示智能体i在系统状态S下可执行动作的数量。

7.根据权利要求6所述的方法，其特征在于，所述确定所述智能体执行动作ai时的平均估计策略的计算方法为：

所述确定所述智能体执行动作ai时的估计策略的计算方法为：

其中，表示估计策略更新的步长，其计算方法为：

其中，δ为学习速率，δ根据以下两种情况进行取不同的值，

...

【专利技术属性】
技术研发人员：孙德栋，欧清海，张宁池，姚贤炯，王艳茹，刘椿枫，李温静，丰雷，刘卉，马文洁，张洁，陈毅龙，郭丹丹，佘蕊，杨志祥，王志强，贺军，
申请(专利权)人：北京中电飞华通信有限公司，国网信息通信产业集团有限公司，国网上海市电力公司，北京邮电大学，国网陕西省电力公司，国家电网有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人