The invention provides a wireless network resource allocation method based on deep enhanced learning, which can maximize energy efficiency in time-varying channel environment with low complexity. The method includes: establishing a deep enhanced learning model; modeling the time-varying channel environment between the base station and the user terminal as a time-varying Markov channel with finite state, determining the normalized channel coefficients, and inputting the convolutional neural network qeval, selecting the action with the largest output return as the decision-making action, assigning subcarriers to the user; assigning subcarriers according to the results of subcarriers, based on the channel The inverse ratio of the coefficients is to allocate downlink power to the multiplexed users on each subcarrier. The return function is determined based on the allocated downlink power, and the return function is fed back to the depth-enhanced learning model. According to the determined return function, the convolutional neural networks qeval and qtarget in the depth-enhanced learning model are trained to determine the local optimal power allocation in the time-varying channel environment. The invention relates to the field of wireless communication and artificial intelligence decision-making.
【技术实现步骤摘要】
一种基于深度增强学习的无线网络资源分配方法
本专利技术涉及无线通信以及人工智能决策领域,特别是指一种基于深度增强学习的无线网络资源分配方法。
技术介绍
长期演进(LongTermEvolution,LTE)时代开始,建网架构从宏网络向宏微协同转变,宏蜂窝(MacroCell)可持续发展面临着诸多挑战,例如,不可预期的业务增长需求、泛在接入需求、随机的热点部署以及宏蜂窝自身较大的成本压力。因此,微蜂窝、家庭基站等小基站(SmallCell)精准覆盖,补充盲区的优点得以体现,并逐渐成为网络部署中与宏基站协同工作,分摊宏基站服务压力的重要环节。第五代移动通信,是继4G之后的延伸,5G并不是一个单一的无线接入技术,而是多种新型无线接入技术和现有无线接入技术演进集成后的解决方案的总称。如今5G网络又开始进入人们的视线,业界普遍认为用户体验速率是5G最重要的性能指标。5G的技术特点可以用几个数字来概括:1000x的容量提升、1000亿+的连接支持、10GB/s的最高速度、1ms以下的延迟。5G中主要技术包括超大规模多天线,新型多址接入技术以及超密集网络,其中,小基站的部署与宏基站构成了超密集异构网络,为用户提供泛在业务。随着移动用户数量的剧增,小基站的布设也趋于超密集化,无线通信领域带来的能源消耗是非常巨大的,针对我国环境污染严重以及能源日益紧缺的国情,绿色通信必然是值得研究与探索的方向,因此,在保证满足用户数据需求以及服务质量的基础上,通过合理的资源分配方式实现更高的能量效率是一个重要的研究方向,但是,现有技术中,还没有有效的优化方法能够考虑时变信道的影响,模拟实际 ...
【技术保护点】
1.一种基于深度增强学习的无线网络资源分配方法,其特征在于,包括:S101,建立由两张相同参数的卷积神经网络qeval、qtarget构成深度增强学习模型;S102,将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波;S103,根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;S104,根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配。
【技术特征摘要】
1.一种基于深度增强学习的无线网络资源分配方法,其特征在于,包括:S101,建立由两张相同参数的卷积神经网络qeval、qtarget构成深度增强学习模型;S102,将基站与用户终端之间的时变信道环境建模为有限状态的时变马尔科夫信道,确定基站与用户之间的归一化信道系数,并输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波;S103,根据子载波分配结果,基于信道系数的反比为每个子载波上复用的用户分配下行功率,基于分配的下行功率确定系统能量效率,基于所述系统能量效率确定回报函数,并将回报函数反馈回深度增强学习模型;S104,根据确定的回报函数,训练深度增强学习模型中的卷积神经网络qeval、qtarget,若连续多次所得的系统能量效率值与预设阈值之间的差值在预设的范围内或高于预设阈值,则当前分配的下行功率为时变信道环境下功率局部最优分配。2.根据权利要求1所述的基于深度增强学习的无线网络资源分配方法,其特征在于,所述归一化信道系数表示为:其中,Hn,k为归一化信道系数,表示基站与用户终端n在子载波k上的归一化信道增益;hn,k表示基站与用户终端n在子载波k上的信道增益;表示在子载波k上的噪声功率。3.根据权利要求2所述的基于深度增强学习的无线网络资源分配方法,其特征在于,所述输入卷积神经网络qeval,选择输出回报值最大的动作作为决策动作,为用户分配子载波包括:将所述归一化信道系数输入卷积神经网络qeval,卷积神经网络qeval通过决策公式选择输出回报值最大的动作作为决策动作,为用户分配子载波;其中,θeval表示卷积神经网络qeval的权值参数,Q函数Q(s,a′;θeval)表示权值为θeval的卷积神经网络qeval在状态s时执行动作a′所获得的回报值,所述状态s为输入的归一化信道系数;a表示深度增强学习模型的决策动作,即最优子载波分配结果,其中,依据回报值最大的动作的索引获取最优子载波分配结果。4.根据权利要求3所述的基于深度增强学习的无线网络资源分配方法,其特征在于,为用户分配的下行功率表示为:其中,pn,k表示基站在子载波k上为用户终端n分配的下行发射功率;p’k表示基站在子载波k上分配的下行发射功率;a表示衰减因子;Kmax表示在非正交多址接入网络中,当前串行干扰消除器能承受的复杂度下,每个子载波上复用的最大用户数。5.根据权利要求4所述的基于深度增强学习的无线网络资源分配方法,其特征在于,所述基于分配的下行功率确定系统能量效率包括:确定基站子载波k到用户终端n的最大无失真信息传输速率rn,k;根据确定的基站与用户之间的归一化信道系数,子载波分配结果和分配的下行功率,确定系统功率消耗UP(X);根据确定的rn,k和UP(X),确定系统能量效率。6.根据权利要求5所述的基于深度增强学习的无线网络资源分配方法,其特征在于,基站子载波k到用户终端n的最大无失真信息传输速率rn,k表示为:rn,k=log2(1+γn,k)其中,γn,k表示用户终端n从子载波k获得的信号信噪比,γn,k表示用户终端n从子载波k获得的信号信噪比;系统功率消耗UP(X)表示为:其中,pk表示电路消耗功率,ψ表示基站能量回收系数,xn,k表示用户终端n是否使...
【专利技术属性】
技术研发人员:张海君,刘启瑞,皇甫伟,董江波,隆克平,
申请(专利权)人:北京科技大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。