一种基于深度强化学习的URLLC和eMBB的资源复用方法技术

技术编号:20751872 阅读:179 留言:0更新日期:2019-04-03 11:36
本发明专利技术公开了一种基于深度强化学习的URLLC和eMBB的资源复用方法:采集M个mini‑slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用训练数据对模型参数进行训练;对训练好的模型进行性能评估直至满足性能需求;收集当前mini‑slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入训练好的模型,获得资源复用决策结果;根据资源复用决策结果,对当前mini‑slot的eMBB和URLLC数据包进行资源分配。能够满足eMBB与URLLC数据包传输要求下对时频资源以及功率的合理分配利用。

【技术实现步骤摘要】
一种基于深度强化学习的URLLC和eMBB的资源复用方法
本专利技术涉及无线通信
,特别涉及一种基于深度强化学习的URLLC和eMBB的资源复用方法。
技术介绍
为了满足未来不同场景业务对延时、可靠性、移动性等的要求,2015年ITU正式定义了未来5G网络的三大场景:增强移动宽带(eMBB)、海量机器类通信(mMTC)和超可靠低时延(uRLLC)。其中,eMBB场景是指在现有移动宽带业务场景的基础上,对于用户体验等性能的进一步提升,主要还是追求人与人之间极致的通信体验。mMTC和eMTC则是物联网的应用场景,但各自侧重点不同:mMTC主要是人与物之间的信息交互,eMTC主要体现物与物之间的通信需求。5GNR(NewRadio,新空口)设计的其中一个重要目标就是使三大场景下的不同模型的业务能够有效地复用在同一频段上。URLLC/eMBB场景为目前5GNR最为迫切需求的场景,其中又以eMBB业务为基本需求,URLLC业务能够尽量保证eMBB业务频谱效率的情况下与eMBB业务共存。为了能够满足URLLC低时延的要求,一种方式为采用60KHz的子载波间隔实现时隙(slot)长度为原来的1/4(较LTE),为了进一步减小slot长度,ULRLLC采用了将4个符号作为一个微时隙(mini-slot),减小为LTE一个slot长度的1/14。为了节约资源提高频谱效率,基站可以为随机到达的URLLC业务分配已经分配给eMBB业务的资源。这种动态资源复用的方法可以在资源复用时最大程度避免资源浪费,当然也会造成eMBB业务数据的解调失败,引发额外的HARQ反馈。因此如何能够在有限的资源中对eMBB和URLLC业务进行分配、实现资源的高效利用是一个亟待解决的问题。
技术实现思路
本专利技术的目的在于提供一种基于深度强化学习的URLLC和eMBB的资源复用方法,能够实现在满足eMBB与URLLC数据包传输要求下对时频资源以及功率的合理分配利用。为实现上述专利技术目的,本专利技术提供了一种基于深度强化学习的URLLC和eMBB的资源复用方法,该方法包括:采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;对训练好的模型进行性能评估直至满足性能需求;收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果;根据所述资源复用决策结果,对当前mini-slot的eMBB和URLLC数据包进行资源分配。综上所述,本专利技术是一种基于深度强化学习的URLLC和eMBB的资源复用方法,它是通过深度强化学习的方法对eMBB和URLLC数据包信息、信道信息以及队列信息进行训练,得到eMBB和URLLC数据包复用资源决策结果,根据决策结果合理分配复用资源,有效地解决了功率和时频资源浪费问题。附图说明图1是本专利技术提出的eMBB与URLLC时频资源复用的帧结构与复用方式示意图。图2是本专利技术基于深度强化学习的URLLC和eMBB的资源复用方法的流程示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本专利技术所述方案作进一步地详细说明。本专利技术的核心思想在于,首先,采集URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据,接下来建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用训练数据对模型参数进行训练更新模型参数θ。对所得深度强化学习的URLLC与eMBB资源复用模型进行性能评估,如果满足URLLC可靠性的要求,且使得eMBB数据包具有较低的重传率,则完成训练过程;如果不能满足上述性能要求,则继续对模型进行训练直至损失函数收敛。然后收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,并将上述信息输入训练完成的深度强化学习模型,获得资源复用的决策结果。进而根据资源复用的决策结果对eMBB和URLLC数据包进行资源分配,实现有限复用资源的高效利用,有效地解决了功率和时频资源浪费问题。参见图1,具体描述本专利技术提出的eMBB与URLLC复用的帧结构与复用方式。具体地,为了能够满足URLLC低时延的要求采用60KHz的子载波间隔实现slot长度为原来的1/4(较LTE),为了进一步减小slot长度,ULRLLC采用了将4个符号作为一个mini-slot,减小为LTE一个TTI长度的1/14,并以一个mini-slot作为一个TTI进行传输。为了节约资源提高频谱效率,基站可以为随机到达的URLLC业务分配已经分配给eMBB业务的资源。并采用动态调度的方法,配置下行DCI信令PI(Pre-emptionIndication)即时告知用户eMBB业务数据被URLLC业务数据抢占的信息,系统通过RRC子层信令通知eMBB用户周期性地检测PI完成对eMBB被抢占资源的正确解调。实现时频资源的充分利用。图2为本专利技术基于深度强化学习的URLLC和eMBB资源复用方法的流程示意图。步骤1、采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;步骤101、以M中的第k个mini-slot为例,通过UE周期上传的信道质量指示(CQI)信息,获取不同子载波的下行信道增益gk=[g1,g2,…,gi],其中i为mini-slot中子载波的数量;并获取eMBB数据包比特数URLLC数据包比特数RkUR,eMBB数据包队列长度URLLC数据包队列长度QkUR,k∈M;步骤102、将所获取的信息封装为状态向量作为训练数据。步骤2、建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;步骤201、建立基于深度强化学习的URLLC与eMBB资源复用模型,所包含的具体步骤如下:(1)设定动作向量a=[PeM,PUR,neM,nur],其中PeM表示当前mini-slot传输时间内分配给eMBB数据包的发射功率,PUR表示当前mini-slot传输时间内分配给URLLC数据包的发射功率,neM表示当前mini-slot传输时间内分配给eMBB数据包的子载波数,nur表示当前mini-slot传输时间内分配给URLLC数据包的子载波数,并初始化eMBB数据包的队列长度QeM,以及URLLC数据包的队列长度QUR均为零;(2)构建eval和next两个相同的神经网络,其中eval神经网络用于获得当前状态的动作估值函数Q以及选择动作向量a;next神经网络通过选择下一个状态最大的动作估值函数argmaxaQ’计算目标动作估值函数Qtarget,用以完成对eval神经网络参数的更新;(3)设定eval神经网络的参数C=[n,nh,nin,nout,θ,activate];n表示神经网络的隐含层数的个数,nh=[nh1,nh2,...,nhn]表示每个隐含层所包含的神经元的个数,nin表示输入层神经元的个数且等于状态向量s的长度,nout表示输出层神经元个数且等于动作向量a所有可能的取值,θ本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的超可靠低时延URLLC和增强移动宽带eMBB的资源复用方法,其特征在于,该方法包括:采集M个微时隙mini‑slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;对训练好的模型进行性能评估直至满足性能需求;收集当前mini‑slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果;根据所述资源复用决策结果,对当前mini‑slot的eMBB和URLLC数据包进行资源分配。

【技术特征摘要】
1.一种基于深度强化学习的超可靠低时延URLLC和增强移动宽带eMBB的资源复用方法,其特征在于,该方法包括:采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;对训练好的模型进行性能评估直至满足性能需求;收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果;根据所述资源复用决策结果,对当前mini-slot的eMBB和URLLC数据包进行资源分配。2.如权利要求1所述的方法,其特征在于,所述采集M个mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据的方法包括:对于M中的第k个mini-slot,获取不同子载波的下行信道增益gk=[g1,g2,…,gi],其中i为mini-slot中子载波的数量;并获取eMBB数据包比特数RkeM,URLLC数据包比特数RkUR,eMBB数据包队列长度QkeM,URLLC数据包队列长度QkUR,k∈M;将所获取的信息封装为状态向量sk=[RkeM,RkUR,gk,QkeM,QkUR]作为训练数据。3.如权利要求2所述的方法,其特征在于,所述建立基于深度强化学习的URLLC与eMBB资源复用模型包括:设定动作向量a=[PeM,PUR,neM,nur],其中PeM表示当前mini-slot传输时间内分配给eMBB数据包的发射功率,PUR表示当前mini-slot传输时间内分配给URLLC数据包的发射功率,neM表示当前mini-slot传输时间内分配给eMBB数据包的子载波数,nur表示当前mini-slot传输时间内分配给URLLC数据包的子载波数,并初始化eMBB数据包的队列长度QeM,以及URLLC数据包的队列长度QUR均为零;构建eval和next两个相同的神经网络,其中eval神经网络用于获得当前状态的动作估值函数Q以及选择动作向量a;next神经网络通过选择下一个状态最大的动作估值函数argmaxaQ’计算目标动作估值函数Qtarget,用以完成对eval神经网络参数的更新;设定eval神经网络的参数C=[n,nh,nin,nout,θ,activate];n表示神经网络的隐含层数的个数,nh=[nh1,nh2,...,nhn]表示每个隐含层所包含的神经元的个数,nin表示输入层神经元的个数且等于状态向量s的长度,nout表示输出层神经元个数且等于动作向量a所有可能的取值,θ=[weight,bias],weight表示权重并随机初始化为0~w,bias表示偏置并初始化为b,activate表示激活函数并采用ReLU;初始化next神经网络参数C’=C。4.如权利要求3所述的方法,其特征在于,所述利用所述训练数据对模型参数进行训练的方法包括:A、将第k个mini-slot的状态向量sk=[RkeM,RkUR,gk,QkeM,QkUR]输入eval神经网络;选择动作向量ak;根据所述动作向量ak计算所获得的奖励rk以及动作估值函数Q;获取到达的下一个状态向量sk+1;存储(sk,ak,rk,sk+1)作为一个样本;将sk+1输入next神经网络获得最大的动作估值函数argmaxak+1Q’;根据argmaxak+1Q’以及rk得到其中γ表示折扣因子,θ’为当前next神经网络的参数;随机取出F个样本,得到每个样本的Qtarget和动作估值函数Q,F为自然数;根据代入每个样本的Qtarget和动作估值函数Q得到损失函数Loss(θ),θ为当前eval神经网络的参数;采用梯度下降的方法计算出梯度,选择梯度下降最快...

【专利技术属性】
技术研发人员:赵中原李阳王君高慧慧
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1