一种基于深度增强学习的无线网络资源分配方法组成比例

技术编号:20593308 阅读:35 留言:0更新日期:2019-03-16 09:23
本发明专利技术提供一种基于深度增强学习的无线网络资源分配方法,能够以较低复杂度最大限度地提高时变信道环境中的能量效率。所述方法包括:建立深度增强学习模型;将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波;根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定回报函数,并将回报函数反馈回深度增强学习模型;根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,确定时变信道环境下功率局部最优分配。本发明专利技术涉及无线通信以及人工智能决策领域。

A Wireless Network Resource Allocation Method Based on Deep Enhanced Learning

The invention provides a wireless network resource allocation method based on deep enhanced learning, which can maximize energy efficiency in time-varying channel environment with low complexity. The method includes: establishing a deep enhanced learning model; modeling the time-varying channel environment between the base station and the user terminal as a time-varying Markov channel with finite state, determining the normalized channel coefficients, and inputting the convolutional neural network qeval, selecting the action with the largest output return as the decision-making action, assigning subcarriers to the user; assigning subcarriers according to the results of subcarriers, based on the channel The inverse ratio of the coefficients is to allocate downlink power to the multiplexed users on each subcarrier. The return function is determined based on the allocated downlink power, and the return function is fed back to the depth-enhanced learning model. According to the determined return function, the convolutional neural networks qeval and qtarget in the depth-enhanced learning model are trained to determine the local optimal power allocation in the time-varying channel environment. The invention relates to the field of wireless communication and artificial intelligence decision-making.

【技术实现步骤摘要】
一种基于深度增强学习的无线网络资源分配方法
本专利技术涉及无线通信以及人工智能决策领域,特别是指一种基于深度增强学习的无线网络资源分配方法。
技术介绍
长期演进(LongTermEvolution,LTE)时代开始,建网架构从宏网络向宏微协同转变,宏蜂窝(MacroCell)可持续发展面临着诸多挑战,例如,不可预期的业务增长需求、泛在接入需求、随机的热点部署以及宏蜂窝自身较大的成本压力。因此,微蜂窝、家庭基站等小基站(SmallCell)精准覆盖,补充盲区的优点得以体现,并逐渐成为网络部署中与宏基站协同工作,分摊宏基站服务压力的重要环节。第五代移动通信,是继4G之后的延伸,5G并不是一个单一的无线接入技术,而是多种新型无线接入技术和现有无线接入技术演进集成后的解决方案的总称。如今5G网络又开始进入人们的视线,业界普遍认为用户体验速率是5G最重要的性能指标。5G的技术特点可以用几个数字来概括:1000x的容量提升、1000亿+的连接支持、10GB/s的最高速度、1ms以下的延迟。5G中主要技术包括超大规模多天线,新型多址接入技术以及超密集网络,其中,小基站的部署与宏基站构成了超密集异构网络,为用户提供泛在业务。随着移动用户数量的剧增,小基站的布设也趋于超密集化,无线通信领域带来的能源消耗是非常巨大的,针对我国环境污染严重以及能源日益紧缺的国情,绿色通信必然是值得研究与探索的方向,因此,在保证满足用户数据需求以及服务质量的基础上,通过合理的资源分配方式实现更高的能量效率是一个重要的研究方向,但是,现有技术中,还没有有效的优化方法能够考虑时变信道的影响,模拟实际时变信道环境,以较低计算复杂度分配网络资源并得到较高能量效率的优化方法。
技术实现思路
本专利技术要解决的技术问题是提供一种基于深度增强学习的无线网络资源分配方法,以解决现有技术所存在的无法有效地实现时变信道环境中无线资源分配的问题。为解决上述技术问题,本专利技术实施例提供一种基于深度增强学习的无线网络资源分配方法,包括:S101,建立由两张相同参数的卷积神经网络qeval、qtarget构成深度增强学习模型;S102,将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波;S103,根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;S104,根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配。进一步地,所述归一化信道系数表示为:其中,Hn,k为归一化信道系数,表示基站与用户终端n在子载波k上的归一化信道增益;hn,k表示基站与用户终端n在子载波k上的信道增益;表示在子载波k上的噪声功率。进一步地,所述输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波包括:将所述归一化信道系数输入卷积神经网络qeval,卷积神经网络qeval通过决策公式选择输出回报值最大的动作作为决策动作,为用户分配子载波;其中,θeval表示卷积神经网络qeval的权值参数,Q函数Q(s,a′;θeval)表示权值为θeval的卷积神经网络qeval在状态s时执行动作a′所获得的回报值,所述状态s为输入的归一化信道系数;a表示深度增强学习模型的决策动作,即最优子载波分配结果,其中,依据回报值最大的动作的索引获取最优子载波分配结果。进一步地,为用户分配的下行功率表示为:其中,pn,k表示基站在子载波k上为用户终端n分配的下行发射功率;p’k表示基站在子载波k上分配的下行发射功率;a表示衰减因子;Kmax表示在非正交多址接入网络中,当前串行干扰消除器能承受的复杂度下,每个子载波上复用的最大用户数。进一步地,所述基于分配的下行功率确定系统能量效率包括:确定基站子载波k到用户终端n的最大无失真信息传输速率rn,k;根据确定的基站与用户之间的归一化信道系数,子载波分配结果和分配的下行功率,确定系统功率消耗UP(X);根据确定的rn,k和UP(X),确定系统能量效率。进一步地,基站子载波k到用户终端n的最大无失真信息传输速率rn,k表示为:rn,k=log2(1+γn,k)其中,γn,k表示用户终端n从子载波k获得的信号信噪比,γn,k表示用户终端n从子载波k获得的信号信噪比;系统功率消耗UP(X)表示为:其中,pk表示电路消耗功率,ψ表示基站能量回收系数,xn,k表示用户终端n是否使用子载波k。进一步地,系统能量效率表示为:其中,een,k表示子载波k到用户终端n的能量效率,表示子载波k信道带宽,N表示用户终端的集合,K表示当前基站下可使用的子载波的集合。进一步地,所述基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型包括:对不符合预设的建模约束条件的系统能量效率,以基于值回报的弱监督算法,按照不符合建模约束条件的种类对该系统能量效率做惩罚,得到深度增强学习模型做出决策动作后的回报函数,并将所述回报函数反馈回深度增强学习模型;其中,所述回报函数表示为:其中,rewardt表示第t次训练时计算的回报函数;Rmin表示用户服务质量最低标准,即最低下行传输速率;Hinnter表示工作于相同子载波频率的最近基站与当前优化的基站之间最短距离对应的归一化信道系数;Ik表示第k个子载波频段能承受的跨层干扰上限;ξcase1~ξcase3表示三种不符合建模约束的情况对系统能量效率的惩罚系数。进一步地,所述根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配包括:将回报函数、信道环境、决策动作和转移到的次态作为四元组存入深度增强学习模型的记忆回放单元memory,其中,所述memory表示为:memory:D(t)={e(1),...,e(t)}e(t)=(s(t),a(t),r(t),s(t+1))其中,s(t)表示第t次训练深度增强学习模型时输入的状态;a(t)表示第t次训练深度增强学习模型时,深度增强学习模型做出的决策动作;r(t)表示第t次训练深度增强学习模型时,深度增强学习模型在动作a(t)做出后,得到的回报函数rewardt;s(t+1)表示t+1次训练深度增强学习模型时,根据有限状态的时变马尔科夫信道更新后的次态;从深度增强学习模型的记忆回放单元随机选取记忆数据用于两张卷积神经网络的学习以及梯度下降更新,其中,梯度下降只更新卷积神经网络qeval的参数,在深度增强学习模型训练过程中每隔固定次数,更新qtarget参数θtarget为qeval参数θeval;若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变本文档来自技高网
...

【技术保护点】
1.一种基于深度增强学习的无线网络资源分配方法,其特征在于,包括:S101,建立由两张相同参数的卷积神经网络qeval、qtarget构成深度增强学习模型;S102,将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波;S103,根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;S104,根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配。

【技术特征摘要】
1.一种基于深度增强学习的无线网络资源分配方法,其特征在于,包括:S101,建立由两张相同参数的卷积神经网络qeval、qtarget构成深度增强学习模型;S102,将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波;S103,根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;S104,根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配。2.根据权利要求1所述的基于深度增强学习的无线网络资源分配方法,其特征在于,所述归一化信道系数表示为:其中,Hn,k为归一化信道系数,表示基站与用户终端n在子载波k上的归一化信道增益;hn,k表示基站与用户终端n在子载波k上的信道增益;表示在子载波k上的噪声功率。3.根据权利要求2所述的基于深度增强学习的无线网络资源分配方法,其特征在于,所述输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波包括:将所述归一化信道系数输入卷积神经网络qeval,卷积神经网络qeval通过决策公式选择输出回报值最大的动作作为决策动作,为用户分配子载波;其中,θeval表示卷积神经网络qeval的权值参数,Q函数Q(s,a′;θeval)表示权值为θeval的卷积神经网络qeval在状态s时执行动作a′所获得的回报值,所述状态s为输入的归一化信道系数;a表示深度增强学习模型的决策动作,即最优子载波分配结果,其中,依据回报值最大的动作的索引获取最优子载波分配结果。4.根据权利要求3所述的基于深度增强学习的无线网络资源分配方法,其特征在于,为用户分配的下行功率表示为:其中,pn,k表示基站在子载波k上为用户终端n分配的下行发射功率;p’k表示基站在子载波k上分配的下行发射功率;a表示衰减因子;Kmax表示在非正交多址接入网络中,当前串行干扰消除器能承受的复杂度下,每个子载波上复用的最大用户数。5.根据权利要求4所述的基于深度增强学习的无线网络资源分配方法,其特征在于,所述基于分配的下行功率确定系统能量效率包括:确定基站子载波k到用户终端n的最大无失真信息传输速率rn,k;根据确定的基站与用户之间的归一化信道系数,子载波分配结果和分配的下行功率,确定系统功率消耗UP(X);根据确定的rn,k和UP(X),确定系统能量效率。6.根据权利要求5所述的基于深度增强学习的无线网络资源分配方法,其特征在于,基站子载波k到用户终端n的最大无失真信息传输速率rn,k表示为:rn,k=log2(1+γn,k)其中,γn,k表示用户终端n从子载波k获得的信号信噪比,γn,k表示用户终端n从子载波k获得的信号信噪比;系统功率消耗UP(X)表示为:其中,pk表示电路消耗功率,ψ表示基站能量回收系数,xn,k表示用户终端n是否使...

【专利技术属性】
技术研发人员:张海君刘启瑞皇甫伟董江波隆克平
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1