基于深度增强学习的动态波束调度方法技术

技术编号:19705053 阅读:24 留言:0更新日期:2018-12-08 15:04
本发明专利技术提供了一种基于深度增强学习的动态波束调度方法,属于多波束卫星通信系统领域。本方法首先将动态波束调度问题建模为马尔科夫决策过程,每个时隙的状态包括卫星缓存器中的数据矩阵、时延矩阵和信道容量矩阵,动作表示动态波束调度策略,目标是长期减小所有数据包的累计等待时延,然后利用深度增强学习算法求解最佳动作策略,建立CNN+DNN结构的Q网络,训练Q网络,利用训练好的Q网络来进行动作决策,获得最佳动作策略。本发明专利技术通过大量的自主学习,使得卫星根据此刻的环境状态直接输出当前的波束调度结果,长期最大化系统的综合性能,在保持系统吞吐量几乎不变的同时,大大减小数据包的传输等待时延。

【技术实现步骤摘要】
基于深度增强学习的动态波束调度方法
本专利技术属于多波束卫星通信系统领域,涉及一种基于深度增强学习的动态波束调度方法。
技术介绍
卫星通信系统作为对地面通信网络基础结构的一种补充,以其全球覆盖能力强、通信距离远、系统容量高、抗重大自然灾害能力强、可提供固定及移动通信业务等优点,受到了研究人员的重视及国家的支持。随着对其容量需求的不断增加以及频谱资源的持续消耗,多波束卫星通信系统被提了出来,它采用了多个高增益的窄波束共同覆盖较大的区域,能有效提高系统性能。然而,一个卫星提供的点波束越多,所需的发射机就越多,而配备星载发射机的代价是十分昂贵的,如一个需要覆盖美国的GEO(地球同步轨道,geostationaryearthorbit)卫星需要的波束个数多达5200个[1,2],这显然是不可能的。对于上述问题,以时分复用的方式利用少量波束覆盖多个小区可以有效解决,但在每一时刻需要调度所有波束到指定小区,而不同的调度策略会影响数据传输时延、系统公平性及吞吐量等,因此,亟需一种动态波束调度技术提高系统的整体性能。针对多波束卫星通信系统中的动态波束调度问题,大多数研究者根据此刻的队长分布[3,4]或场景快照[5-9]进行动态波束调度,这些贪心类的算法均忽略了决策之间内在的相关性,得到的仅仅是当前时刻的最优结果,以至于系统吞吐量、传输时延及公平性等仍有很大的优化空间。因而在多波束卫星通信系统中,动态波束调度应综合考虑信道容量大小、星上缓存分布、以及当前波束调度结果对后一种波束调度策略的影响等,如何准确建模这种相关性,并通过波束调度长期最大限度的提高系统性能,一直以来都是研究的难点。因此,多波束卫星通信系统的动态波束调度问题是处于复杂环境中的序贯决策问题。参考文献如下:[1]R.C.Johnson,AntennaEngineeringHandbook,3rded.McGraw-Hill,1993.[2]J.Goodman,IntroductiontoFourierOptics,3rded.Roberts&Company,2005.[3]NeelyMJ,ModianoE,RohrsCE.Powerandserverallocationinamulti-beamsatellitewithtimevaryingchannels[C]//JointConferenceoftheIEEEComputerandCommunicationsSocietiesIEEE,2002:1451-1460vol.3.[4]NeelyMJ,ModianoE,RohrsCE.Powerallocationandroutinginmultibeamsatelliteswithtime-varyingchannels[J].IEEE/ACMTransactionsonNetworking,2003,11(1):138-152.[5]ChoiJP,ChanVWS.Satellitemultibeamallocationandcongestioncontrolwithdelayconstraints[C]//IEEEInternationalConferenceonCommunications,2004:3309-3315Vol.6.[6]ChoiJP,ChanVWS.Resourcemanagementforadvancedtransmissionantennasatellites[J].IEEETransactionsonWirelessCommunications,2009,8(3):1308-1321.[7]LiuH,YangZ,CaoZ.Max-MinRateControlonTrafficinBroadbandMultibeamSatelliteCommunicationsSystems[J].IEEECommunicationsLetters,2013,17(7):1396-1399.[8]MontesinosJ,BessonO,TournemineCLD.Adaptivebeamformingforlargearraysinsatellitecommunicationssystemswithdispersedcoverage[J].IetCommunications,2011,5(3):350-361.[9]HanH,YingL,LlK.Anefficientbeamschedulingpolicyinsatellitecommunicationsystem[C]//IEEEInternationalConferenceonAdvancedInfocommTechnology,2015:245-251.
技术实现思路
本专利技术针对多波束卫星通信系统的动态波束调度问题,设计了一种基于深度增强学习的动态波束调度方法(DeepReinforcementLearningDynamicBeamScheduling,DRL-DBS),它利用深度学习的感知能力及强化学习的决策特点,通过大量的自主学习,使得卫星根据此刻的环境状态直接输出当前的波束调度结果,长期最大化系统的综合性能,如吞吐量、数据传输时延和公平性。本专利技术的一种基于深度增强学习的动态波束调度方法,实现步骤包括:首先,将动态波束调度问题建模为马尔科夫决策过程,具体如下:时隙t的状态st=(D,W,C);其中,D为对应时隙卫星缓存器中的数据矩阵,矩阵中的每行对应一个小区,对应小区请求的数据记录在对应的行中,矩阵中每个元素的取值代表数据长度;W为对应矩阵D的时延矩阵,矩阵W中元素的取值为矩阵D中对应数据的等待时延;C为信道容量矩阵;时隙t的动作表示为at,表示在时隙t的动态波束调度策略;状态st的奖励值rt,取值是将执行at后的状态的矩阵D和W对应元素相乘后再对矩阵中相乘后的所有元素累加得到;目标是长期减小所有数据包的累计等待时延,表示为:找到一个最佳动作策略π*来最大化Q值,如下:其中,为状态集合,为动作集合;γ是折扣因子,γ∈[0,1];π为一个动作策略。然后,利用深度增强学习算法求解最佳动作策略π*,具体如下:设计Q网络为CNN+DNN的结构,先利用卷积神经网络CNN提取数据矩阵D与时延矩阵W的特征,再利用深度神经网络DNN拟合出从输入状态到输出动作的Q值的函数;训练Q网络:利用权值为θ的Q(s,a;θ)网络将输入状态映射到输出动作的Q值,在每个时隙生成一个由当前状态st,动作at,奖励值rt及下一个状态st+1组成的四元组存储到经验池U中;设计具有权值θ-的目标网络Q-(s,a;θ-),目标网络与Q网络结构相同,每G步从Q(s,a;θ)网络中拷贝所有参数;从经验池U中随机抽取一批数据,利用目标网络Q-计算出标签值后,通过随机梯度下降算法Adam训练Q网络;利用训练好的Q网络来进行动作决策,获得最佳动作策略π*。所述的利用目标网络Q-计算出标签值yt,如下:其中,at+1为时隙t+1的动作,st+1为时隙t+1的状态。通过随机梯度下降算法Adam训练Q网络,目的是最小化损失函数L(θ),损失函数L(θ)采用最小均方误差计算,如下:L(θ)=E[(yt-Q(st,at;θ))2]。本文档来自技高网
...

【技术保护点】
1.一种基于深度增强学习的动态波束调度方法,其特征在于,包括:首先,将动态波束调度问题建模为马尔科夫决策过程,具体如下:时隙t的状态st=(D,W,C);其中,D为对应时隙卫星缓存器中的数据矩阵,矩阵中的每行对应一个小区,对应小区请求的数据记录在对应的行中,矩阵中每个元素的取值代表数据长度;W为对应矩阵D的时延矩阵,矩阵W中元素的取值为矩阵D中对应数据的等待时延;C为信道容量矩阵;时隙t的动作表示为at,表示在时隙t的动态波束调度策略;状态st的奖励值rt,是将状态st中矩阵D和W对应元素相乘后再对相乘后的所有元素累加得到;目标是长期减小所有数据包的累计等待时延,表示为:找到一个最佳动作策略π*来最大化Q值,如下:

【技术特征摘要】
1.一种基于深度增强学习的动态波束调度方法,其特征在于,包括:首先,将动态波束调度问题建模为马尔科夫决策过程,具体如下:时隙t的状态st=(D,W,C);其中,D为对应时隙卫星缓存器中的数据矩阵,矩阵中的每行对应一个小区,对应小区请求的数据记录在对应的行中,矩阵中每个元素的取值代表数据长度;W为对应矩阵D的时延矩阵,矩阵W中元素的取值为矩阵D中对应数据的等待时延;C为信道容量矩阵;时隙t的动作表示为at,表示在时隙t的动态波束调度策略;状态st的奖励值rt,是将状态st中矩阵D和W对应元素相乘后再对相乘后的所有元素累加得到;目标是长期减小所有数据包的累计等待时延,表示为:找到一个最佳动作策略π*来最大化Q值,如下:其中,为状态集合,为动作集合;γ是折扣因子,γ∈[0,1];π为一个动作策略;然后,利用深度增强学习算法求解最佳动作策略π*,具体如下:设计Q网络为CNN+DNN的结构,先利用卷积神经网络CNN提取数据矩阵D与时延矩阵W的特征,再利用深度神经网络DNN拟合出从输入状态到输出动作的Q值的函数;训练Q网络:利用权值为θ的Q(s,a;θ)网络将输入状态映射到输出动作的Q值,在每个时隙生成一个由当前状态st,动作at,奖励值rt及下一个状态st+1组成的四元组存储到经验池U中;设计具有权值θ-的目标网络Q-(s,a;θ-),目标网络与Q网络结构相同,每G步从Q(s,a;θ)网络中拷贝所有参数;从经验池U中随机抽取一批数据,利用目标网络Q-计算出标签值后,通过随机梯度下降算法Adam训练Q网络;利用训练好的Q网络来进行动作决策,获得最佳动作策略π*。2.根据权利要求1所述的基于深度增强学习的动态波束调度方法,其特征在于,所述的Q网络中,通过CNN对矩阵D和W进行特征提取,然后展开为全连接层,再与信道容量矩阵C合并一起,再经过深度神经网络,最后输出动作的Q值。3.根据权利要求1所述的基于深度增强学习的动态波束调度方法,其特征在于,所述的训练Q网络时,从经验池U中随机抽取一批数据,利用目标网络Q-计算出标签值yt,如下:其中,at+1为时隙t+1的动作,st+1为时隙t+1的状态。4.根据权利要求1或3所述的基于深度增强学习的...

【专利技术属性】
技术研发人员:胡欣王艺鹏李秀华王卫东刘帅军张雨晨
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1