【技术实现步骤摘要】
一种基于深度强化学习的URLLC和eMBB的资源复用方法
本专利技术涉及无线通信
,特别涉及一种基于深度强化学习的URLLC和eMBB的资源复用方法。
技术介绍
为了满足未来不同场景业务对延时、可靠性、移动性等的要求,2015年ITU正式定义了未来5G网络的三大场景:增强移动宽带(eMBB)、海量机器类通信(mMTC)和超可靠低时延(uRLLC)。其中,eMBB场景是指在现有移动宽带业务场景的基础上,对于用户体验等性能的进一步提升,主要还是追求人与人之间极致的通信体验。mMTC和eMTC则是物联网的应用场景,但各自侧重点不同:mMTC主要是人与物之间的信息交互,eMTC主要体现物与物之间的通信需求。5GNR(NewRadio,新空口)设计的其中一个重要目标就是使三大场景下的不同模型的业务能够有效地复用在同一频段上。URLLC/eMBB场景为目前5GNR最为迫切需求的场景,其中又以eMBB业务为基本需求,URLLC业务能够尽量保证eMBB业务频谱效率的情况下与eMBB业务共存。为了能够满足URLLC低时延的要求,一种方式为采用60KHz的子载波间隔实现时隙(slot)长度为原来的1/4(较LTE),为了进一步减小slot长度,ULRLLC采用了将4个符号作为一个微时隙(mini-slot),减小为LTE一个slot长度的1/14。为了节约资源提高频谱效率,基站可以为随机到达的URLLC业务分配已经分配给eMBB业务的资源。这种动态资源复用的方法可以在资源复用时最大程度避免资源浪费,当然也会造成eMBB业务数据的解调失败,引发额外的HARQ反馈。因此如何 ...
【技术保护点】
1.一种基于深度强化学习的超可靠低时延URLLC和增强移动宽带eMBB的资源复用方法,其特征在于,该方法包括:采集M个微时隙mini‑slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;对训练好的模型进行性能评估直至满足性能需求;收集当前mini‑slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果;根据所述资源复用决策结果,对当前mini‑slot的eMBB和URLLC数据包进行资源分配。
【技术特征摘要】
1.一种基于深度强化学习的超可靠低时延URLLC和增强移动宽带eMBB的资源复用方法,其特征在于,该方法包括:采集M个微时隙mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据;M为自然数;建立基于深度强化学习的URLLC与eMBB资源复用模型,并利用所述训练数据对模型参数进行训练;对训练好的模型进行性能评估直至满足性能需求;收集当前mini-slot的URLLC与eMBB数据包信息、信道信息以及队列信息,将所收集信息输入所述训练好的模型,获得资源复用决策结果;根据所述资源复用决策结果,对当前mini-slot的eMBB和URLLC数据包进行资源分配。2.如权利要求1所述的方法,其特征在于,所述采集M个mini-slot的URLLC与eMBB的数据包信息、信道信息以及队列信息作为训练数据的方法包括:对于M中的第k个mini-slot,获取不同子载波的下行信道增益gk=[g1,g2,…,gi],其中i为mini-slot中子载波的数量;并获取eMBB数据包比特数RkeM,URLLC数据包比特数RkUR,eMBB数据包队列长度QkeM,URLLC数据包队列长度QkUR,k∈M;将所获取的信息封装为状态向量sk=[RkeM,RkUR,gk,QkeM,QkUR]作为训练数据。3.如权利要求2所述的方法,其特征在于,所述建立基于深度强化学习的URLLC与eMBB资源复用模型包括:设定动作向量a=[PeM,PUR,neM,nur],其中PeM表示当前mini-slot传输时间内分配给eMBB数据包的发射功率,PUR表示当前mini-slot传输时间内分配给URLLC数据包的发射功率,neM表示当前mini-slot传输时间内分配给eMBB数据包的子载波数,nur表示当前mini-slot传输时间内分配给URLLC数据包的子载波数,并初始化eMBB数据包的队列长度QeM,以及URLLC数据包的队列长度QUR均为零;构建eval和next两个相同的神经网络,其中eval神经网络用于获得当前状态的动作估值函数Q以及选择动作向量a;next神经网络通过选择下一个状态最大的动作估值函数argmaxaQ’计算目标动作估值函数Qtarget,用以完成对eval神经网络参数的更新;设定eval神经网络的参数C=[n,nh,nin,nout,θ,activate];n表示神经网络的隐含层数的个数,nh=[nh1,nh2,...,nhn]表示每个隐含层所包含的神经元的个数,nin表示输入层神经元的个数且等于状态向量s的长度,nout表示输出层神经元个数且等于动作向量a所有可能的取值,θ=[weight,bias],weight表示权重并随机初始化为0~w,bias表示偏置并初始化为b,activate表示激活函数并采用ReLU;初始化next神经网络参数C’=C。4.如权利要求3所述的方法,其特征在于,所述利用所述训练数据对模型参数进行训练的方法包括:A、将第k个mini-slot的状态向量sk=[RkeM,RkUR,gk,QkeM,QkUR]输入eval神经网络;选择动作向量ak;根据所述动作向量ak计算所获得的奖励rk以及动作估值函数Q;获取到达的下一个状态向量sk+1;存储(sk,ak,rk,sk+1)作为一个样本;将sk+1输入next神经网络获得最大的动作估值函数argmaxak+1Q’;根据argmaxak+1Q’以及rk得到其中γ表示折扣因子,θ’为当前next神经网络的参数;随机取出F个样本,得到每个样本的Qtarget和动作估值函数Q,F为自然数;根据代入每个样本的Qtarget和动作估值函数Q得到损失函数Loss(θ),θ为当前eval神经网络的参数;采用梯度下降的方法计算出梯度,选择梯度下降最快...
【专利技术属性】
技术研发人员:赵中原,李阳,王君,高慧慧,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。