一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法组成比例

技术编号:36905550 阅读:17 留言:0更新日期:2023-03-18 09:24
本发明专利技术公开了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,属于无线通信技术领域。构建信道分配神经网络,在发射机智能体上分布式执行,其输入为发射机智能体收集到的所有信道的本地信息集、输出为信道分配方案;构建信道功率控制神经网络,在发射机智能体上分布式执行,其输入为由信道分配神经网络输出的信道分配方案所确定的一组本地信息集、输出为优化的信道功率;利用深度强化学习和深度无监督学习分别对信道分配神经网络和信道功率控制神经网络进行集中式训练;训练完成后对发射机智能体上的网络进行更新并继续分布式执行。本发明专利技术与传统的集中式和分布式算法相比,能够有效地提高收敛速度,并最大化传输速率。化传输速率。化传输速率。

【技术实现步骤摘要】
一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法


[0001]本专利技术涉及一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,属于无线通信


技术介绍

[0002]在当今的无线网络中,随着移动设备的日益增多,用户对高数据传输服务需求不断增加。大量的数据流量需要通过网络传输,导致无线网络出现了流量过载等问题。为了提高无线网络的性能,运营商通常在多频段部署更多基站,以缓解移动通信阻塞问题,但这也导致了巨大的成本支出。Device

to

device(D2D)技术的提出,实现了设备之间的直接通信,以低成本为基站卸载繁重的移动通信量。通常,D2D用户可以在覆盖模式下共享蜂窝网络的频谱资源,虽然D2D用户不会对蜂窝设备造成干扰,但D2D用户对之间会造成严重的干扰。
[0003]为了降低D2D用户对信道间的相互干扰,研究者对基于信道的选择和功率分配问题开展了广泛的研究。通过获取全局信道状态信息(CSI)的不同,可以分为集中式与分布式的两类模型。集中式模型需要瞬时全局的CSI,而分布式只需要少部分的CSI。在诸多集中式与分布式模型方法中,由于深度学习技术较传统算法计算复杂度较低,已被广泛用于解决D2D网络中的资源分配问题。
[0004]当前D2D网络无线资源分配研究现状如下:
[0005](1)集中式模型:目前集中式D2D网络无线资源分配已提出了诸多算法和理论,其中最先进的优化算法有分数规划算法(FP)、加权最小均方误差(WMMSE)算法和基于深度学习的无线资源分配优化算法。但在实际中,信道状态信息是实时改变的,获取完整的瞬时全局状态信息需要实施大规模的信息交换,对于当前的设备而言是一个巨大的挑战。故集中式模型中的大多数算法都不适用于实际的大型网络场景中。
[0006](2)分布式模型:分布式模型的提出能够更好的考虑实际无线网络信息中的及时性和相关性。在分布式模型中,令每一个发射机为一个智能体,通过智能体与智能体之间的信息交互,做出决策。在强化学习中,状态、行为和奖励都需要满足马尔可夫决策过程,状态会根据奖励回报迭代更新。在当前基于深度强化学习的分布式D2D网络无线资源分配中,一般会将信道分配和功率控制作为行为,将智能体之间交互的信息例如信道增益、干扰等作为状态,将优化的目标作为奖励。在当前应用场景中通常会使用强化学习方法深度Q

learning(DQN)或者深度确定性策略梯度(DDPG)。在使用DQN在信道选择和功率控制中,DQN很难适用于既包含离散变量又包含连续变量的问题。而使用DDPG在信道选择和功率控制中,DDPG的确定性策略高度依赖于Q值预估的准确性,当神经网络开始学习时,由于网络权重初始化,导致Q值的预估值不理想,并且随着神经网络规模的增加,DDPG训练效果变差。以上两方面的缺陷降低了DDPG的确定性策略在动作探索上的效率,从而在采用DDPG进行物理层的连续功率分配中,无法有效和快速地提高频谱利用率。
[0007]综上所述,在实现D2D网络最大化传输速率上,现有的集中式与分布式方法不能够有效的降低D2D用户对之间的干扰,提高网络性能。

技术实现思路

[0008]本专利技术提出了一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,通过使用强化学习进行信道分配,深度无监督学习进行信道功率控制,以最大化传输速率、有效增加网络容量、提升D2D网络性能,从而解决现有技术中收敛速度低、传输速率小的问题。
[0009]一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,深度强化学习联合无监督学习的D2D网络分布式资源分配方法包括以下步骤:
[0010]S100、构建信道分配神经网络,在发射机智能体上分布式执行;信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集,信道分配神经网络的输出为M个适应值,将最大适应值所对应的信道确定为信道分配方案;
[0011]S200、构建信道功率控制神经网络,在发射机智能体上分布式执行;根据S100的信道分配方案,确定此信道分配方案所对应的一组本地信息集;信道功率控制神经网络的输入为确定的一组本地信息集,通过对信道功率控制神经网络输出层的输出进行约束,得到功率控制方案;
[0012]S300、对S100中信道分配神经网络进行基于深度强化学习的集中式训练,将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络,对各个发射机中的信道分配神经网络的参数进行更新,使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行;
[0013]S400、对S200中信道功率控制神经网络进行基于深度无监督学习的集中式训练,将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络,对各个发射机中的信道功率控制神经网络的参数进行更新,使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行。
[0014]进一步的,在S100中,信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层,一个输入层、多个全连接隐层和一个输出层依次连接,其中,
[0015]输入层的维度为M
×
Q,其中M为D2D用户对所共享的正交信道数量,Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数;本地信息集包括t时隙所有M个信道的信道增益和t

1时隙发射机在所有M个信道对其所有干扰邻居的干扰等,共有M
×
Q个元素;
[0016]每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;
[0017]输出层的输出维度为M。
[0018]进一步的,在S200中,信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层,一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接,其中,
[0019]一个输入层的维度为Q;输入层的输入是由S100中信道分配神经网络所决定的信道分配方案而确定的一组本地信息集,包含Q个元素;
[0020]每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;
[0021]信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层;
[0022]输出层的输出维度为1;
[0023]约束层,用于对输出层的输出进行处理以满足约束;将输出进行约束处理的方法为,用P
max
乘以信道功率控制神经网络输出层的输出,最后得到约束处理后的功率控制。
[0024]进一步的,在S300中,信道分配神经网络采用基于深度强化学习的集中式训练,具体的,
[0025]首先为信道分配神经网络设定经验池,假设回程占用一个时隙延迟,则经验池将存放t

1时隙发射机智能体所收集到的所有M个信道的本地信息集s
t
‑1、t

1时隙信道分配神经网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,其特征在于,所述深度强化学习联合无监督学习的D2D网络分布式资源分配方法包括以下步骤:S100、构建信道分配神经网络,在发射机智能体上分布式执行;所述信道分配神经网络的输入为发射机智能体所收集到的所有M个信道的本地信息集,所述信道分配神经网络的输出为M个适应值,将最大适应值所对应的信道确定为信道分配方案;S200、构建信道功率控制神经网络,在发射机智能体上分布式执行;根据S100的信道分配方案,确定此信道分配方案所对应的一组本地信息集;所述信道功率控制神经网络的输入为所述确定的一组本地信息集,通过对所述信道功率控制神经网络输出层的输出进行约束,得到功率控制方案;S300、对S100中所述的信道分配神经网络进行基于深度强化学习的集中式训练,将集中训练后的信道分配神经网络参数传递给各个发射机中的信道分配神经网络,对各个发射机中的信道分配神经网络的参数进行更新,使更新后的信道分配神经网络继续在各个发射机智能体上分布式执行;S400、对S200中所述的信道功率控制神经网络进行基于深度无监督学习的集中式训练,将集中训练后的信道功率控制神经网络参数传递给各个发射机中的信道功率控制神经网络,对各个发射机中的信道功率控制神经网络的参数进行更新,使更新后的信道功率控制神经网络继续在各个发射机智能体上分布式执行。2.根据权利要求1所述的一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,其特征在于,在S100中,所述信道分配神经网络包括一个输入层、多个全连接隐层和一个输出层,所述一个输入层、多个全连接隐层和一个输出层依次连接,其中,所述输入层的维度为M
×
Q,其中M为D2D用户对所共享的正交信道数量,Q为在每个信道上与发射机智能体有关的本地信息集合中的元素个数;所述的本地信息集包括t时隙所有M个信道的信道增益和t

1时隙发射机在所有M个信道对其所有干扰邻居的干扰等,共有M
×
Q个元素;每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;所述输出层的输出维度为M。3.根据权利要求1所述的一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,其特征在于,在S200中,所述信道功率控制神经网络包括一个输入层、多个全连接隐层、一个输出层和一个约束层,所述一个输入层、多个全连接隐层、一个输出层和一个约束层依次连接,其中,所述一个输入层的维度为Q;所述的输入层的输入是由S100中所述信道分配神经网络所决定的信道分配方案而确定的一组本地信息集,包含Q个元素;每个全连接隐层包括一个全连接层、一个标准化层和一个RELU激活层;所述信道功率控制神经网络的输出层包括一个全连接层、一个标准化层和一个Sigmoid激活层;所述输出层的输出维度为1;所述约束层,用于对所述输出层的输出进行处理以满足约束;所述的将输出进行约束处理的方法为,用P
max
乘以信道功率控制神经网络输出层的输出,最后得到约束处理后的功率控制。
4.根据权利要求1所述的一种深度强化学习联合无监督学习的D2D网络分布式资源分配方法,其特征在于,在S300中,所述信道分配神经网络采用基于深度强化学习的集中式训练,具体的,首先为信道分配神经网络设定经验池,假设回程占用一个时隙延迟,则经验池将存放t

1时隙发射机智能体所收集到的所有M个信道的本地信息集s
t
‑1、t

1时隙信道分配神经网络...

【专利技术属性】
技术研发人员:孙明金彦辉王淑梅梅二壮蔚丽杰
申请(专利权)人:齐齐哈尔大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1