一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法组成比例

技术编号：36905550 阅读：17 留言：0更新日期：2023-03-18 09:24

本发明专利技术公开了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，属于无线通信技术领域。构建信道分配神经网络，在发射机智能体上分布式执行，其输入为发射机智能体收集到的所有信道的本地信息集、输出为信道分配方案；构建信道功率控制神经网络，在发射机智能体上分布式执行，其输入为由信道分配神经网络输出的信道分配方案所确定的一组本地信息集、输出为优化的信道功率；利用深度强化学习和深度无监督学习分别对信道分配神经网络和信道功率控制神经网络进行集中式训练；训练完成后对发射机智能体上的网络进行更新并继续分布式执行。本发明专利技术与传统的集中式和分布式算法相比，能够有效地提高收敛速度，并最大化传输速率。化传输速率。化传输速率。

全部详细技术资料下载

【技术实现步骤摘要】
一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法

[0001]本专利技术涉及一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，属于无线通信

技术介绍

[0002]在当今的无线网络中，随着移动设备的日益增多，用户对高数据传输服务需求不断增加。大量的数据流量需要通过网络传输，导致无线网络出现了流量过载等问题。为了提高无线网络的性能，运营商通常在多频段部署更多基站，以缓解移动通信阻塞问题，但这也导致了巨大的成本支出。Device
‑
to
‑
device(D2D)技术的提出，实现了设备之间的直接通信，以低成本为基站卸载繁重的移动通信量。通常，D2D用户可以在覆盖模式下共享蜂窝网络的频谱资源，虽然D2D用户不会对蜂窝设备造成干扰，但D2D用户对之间会造成严重的干扰。
[0003]为了降低D2D用户对信道间的相互干扰，研究者对基于信道的选择和功率分配问题开展了广泛的研究。通过获取全局信道状态信息(CSI)的不同，可以分为集中式与分布式的两类模型。集中式模型需要瞬时全局的CSI，而分布式只需要少部分的CSI。在诸多集中式与分布式模型方法中，由于深度学习技术较传统算法计算复杂度较低，已被广泛用于解决D2D网络中的资源分配问题。
[0004]当前D2D网络无线资源分配研究现状如下：
[0005](1)集中式模型：目前集中式D2D网络无线资源分配已提出了诸多算法和理论，其中最先进的优化算法有分数规划算法(FP)、加权最小均方误差(WMMSE)算...

【技术保护点】

【技术特征摘要】
1.一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，其特征在于，所述深度强化学习联合无监督学习的D2D网络分布式资源分配方法包括以下步骤：S100、构建信道分配神经网络，在发射机智能体上分布式执行；所述信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集，所述信道分配神经网络的输出为M个适应值，将最大适应值所对应的信道确定为信道分配方案；S200、构建信道功率控制神经网络，在发射机智能体上分布式执行；根据S100的信道分配方案，确定此信道分配方案所对应的一组本地信息集；所述信道功率控制神经网络的输入为所述确定的一组本地信息集，通过对所述信道功率控制神经网络输出层的输出进行约束，得到功率控制方案；S300、对S100中所述的信道分配神经网络进行基于深度强化学习的集中式训练，将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络，对各个发射机中的信道分配神经网络的参数进行更新，使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行；S400、对S200中所述的信道功率控制神经网络进行基于深度无监督学习的集中式训练，将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络，对各个发射机中的信道功率控制神经网络的参数进行更新，使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行。2.根据权利要求1所述的一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，其特征在于，在S100中，所述信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层，所述一个输入层、多个全连接隐层和一个输出层依次连接，其中，所述输入层的维度为M
×
Q，其中M为D2D用户对所共享的正交信道数量，Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数；所述的本地信息集包括t时隙所有M个信道的信道增益和t
‑
1时隙发射机在所有M个信道对其所有干扰邻居的干扰等，共有M
×
Q个元素；每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层；所述输出层的输出维度为M。3.根据权利要求1所述的一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，其特征在于，在S200中，所述信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层，所述一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接，其中，所述一个输入层的维度为Q；所述的输入层的输入是由S100中所述信道分配神经网络所决定的信道分配方案而确定的一组本地信息集，包含Q个元素；每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层；所述信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层；所述输出层的输出维度为1；所述约束层，用于对所述输出层的输出进行处理以满足约束；所述的将输出进行约束处理的方法为，用P
max
乘以信道功率控制神经网络输出层的输出，最后得到约束处理后的功率控制。
4.根据权利要求1所述的一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法，其特征在于，在S300中，所述信道分配神经网络采用基于深度强化学习的集中式训练，具体的，首先为信道分配神经网络设定经验池，假设回程占用一个时隙延迟，则经验池将存放t
‑
1时隙发射机智能体所收集到的所有M个信道的本地信息集s
t
‑1、t
‑
1时隙信道分配神经网络...

【专利技术属性】
技术研发人员：孙明，金彦辉，王淑梅，梅二壮，蔚丽杰，
申请(专利权)人：齐齐哈尔大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人