【技术实现步骤摘要】
一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法
[0001]本专利技术涉及无线通信
,特别涉及一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法。
技术介绍
[0002]当前,5G网络已经成为数字社会发展不可缺少的关键一环,与4G网络相比,其提供的海量服务可以满足我们更广泛的需求,而其中大多数都是4G所不能实现的。
[0003]ITU为5G定义了三个主要应用场景:增强移动带宽(enhance mobile broadband,eMBB),大规模机器类通信(massive machine
‑
type communication,mMTC),超高可靠低时延通信(ultra
‑
reliable low
‑
latency communication,URLLC)。其中eMBB凭借其高带宽主要应用于AR/VR等业务,mMTC则因为连接密度大而应用于物联网、智能家居等业务,而低时延和可靠性高的URLLC则可应用于自动驾驶、远程手术等业务。 >[0004]然而,本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法,其特征在于,包括如下步骤:S1、算法网络结构G和目标网络搭建以及初始化;S11、将算法网络结构G分为状态向量编码网络Embed、长短期记忆网络LSTM、图注意力机制网络GAT和深度Q网络DQN;S12、其中状态向量编码网络Embed由多层全连接网络构成,记作,其中、是该层的权重矩阵,是激活函数,将多主体强化学习中的N维状态向量输入到状态向量编码网络Embed中,输出K维经过编码的向量;S13、将当前主体m及其在有向图中相邻节点上的主体经过编码后的向量和作为图注意力机制网络GAT的输入向量,计算注意力影响系数,并对注意力影响系数进行归一化处理,其中表示当前主体m在有向图中的相邻节点上的主体集合;将归一化后的注意力影响系数与输入向量相乘,计算图注意力机制网络GAT的第一层输出;将所述注意力影响系数、归一化处理、第一层输出进行分装表示,,所述图注意力机制网络GAT的第二层输出为;S14、对于当前主体m,将直至当前的T个连续时间歩的图注意力机制网络GAT的第一层输出组合成序列={},将直至当前的T个连续时间歩的图注意力机制网络GAT的第二层输出组合成序列={},将和作为长短期记忆网络LSTM的输入向量序列,整合序列的时间特征;所述长短期记忆网络LSTM由多个单元组成,一个单元包含记忆门、遗忘门和输出门三个结构,将前一个单元的输出向量和,以及当前时刻的向量作为输入,输出综合信息和;以记忆门、遗忘门和输出门作为核心进行数据处理,长短期记忆网络LSTM最终输出向量以及;其中,代表前t
‑
1个时刻的所有向量的综合信息,代表t
‑
1时刻的向量中与当前时刻相关的信息;S15、深度Q网络DQN是由多层全连接网络组成的,将通过图注意力机制网络GAT的第一层输出、第二层输出和长短期记忆网络LSTM处理过后的输出向量和作为深度Q网络DQN的输入,输出当前状态下执行不同动作的回报值,选取并执行回报最高的动作与环境交互;S16、明确网络结构后,通过高斯分布随机初始化算法网络中的权重矩阵,同时构建一个目标网络,其网络结构与上述算法网络结构完全相同,并通过复制权重参数的方法完成自身权重初始化;S2、执行资源分配;S3、重复执行步骤S2的资源分配次,训练算法网络结构G;S4、每完成步骤S3中算法网络结构G训练X次,将算法网络结构G权重参数赋值给目标网
络,实现目标网络的更新;S5、步骤S3执行次后,完成算法网络结构G的训练过程。2.如权利要求1所述的一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法,其特征在于:所述子步骤S13中注意力影响系数的的计算公式为,对注意力影响系数进行归一化处理的公式为,计算图注意力机制网络的第一层输出的公式为,其中,、、 是该层的权重矩阵,是待训练的网络参数。3.如权利要求1所述的一种基于时空特征提取强化学习的多基站协同无线网络资源分配方法,其特征在于:所述步骤S14中记忆门的计算公式;遗忘门的计算公式为;输出门的计算公式为 ;综合信息计算的相关公式为,;其中,、、、、、、、是该层的权重矩阵,是待训练的网络参数,t...
【专利技术属性】
技术研发人员:李荣鹏,肖柏狄,郭荣斌,赵志峰,张宏纲,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。