当前位置: 首页 > 专利查询>中南大学专利>正文

基于Q学习的通信网络任务资源调度方法技术

技术编号:29412953 阅读:21 留言:0更新日期:2021-07-23 22:54
本发明专利技术公开了一种基于Q学习的通信网络任务资源调度方法,包括获取通信网络的实时通信状态和通信参数并初始化R表;通信网络的每一个任务调度节点进行自身Q表的训练;通信网络的每一个任务调度节点进行自身Q表的决策;通信网络根据每一个任务调度节点在步骤S3得到的Q表进行后续的任务资源调度;通信网络的每一个任务调度节点进行自身R表的更新;重复上述步骤进行持续的通信网络任务资源调度。本发明专利技术利用Q学习的特点,为在具有不确定性的高动态网络环境下建模任务存活率与资源利用率之间的相互影响关系问题找到了突破口,通过创新性的算法研究和实施,实现了复杂情况下的通信网络的任务资源调度和平衡,而且可靠性高、稳定性好且简单方便。

【技术实现步骤摘要】
基于Q学习的通信网络任务资源调度方法
本专利技术属于分散计算领域,具体涉及一种基于Q学习的通信网络任务资源调度方法。
技术介绍
在恶劣无线通信环境下,特别是面向网络吞吐量严重受限而用户应用又要求近乎实时响应的环境下,为解决计算任务复杂多变与节点资源严重受限的矛盾,基于分散计算的应用模式是一种值得探究的解决方案。在分散计算环境下,为保障已被调度的任务能在恶劣的战场环境下生存下来,顺利完成如军事应用等工作,需要研究跨节点计算任务的抗毁接替模式。在节点计算任务的抗毁接替模式中,一个关键问题是需要在确定被调度的任务数量时,明确任务完成期内资源的可用量与任务数量的合理匹配关系。若偏离合理值太远,要么资源利用率太低,要么任务存活率不高,这都会加剧恶劣的战场环境下资源严重受限与任务量巨大之间的矛盾。在计算节点物理损毁情况下,要使其上执行的任务仍能得以存活,一个简单有效的手段是将该任务重调度到其它计算点上执行。因此,在一个特定时期内,被调度执行的总任务数与可用的资源总量的匹配关系直接影响这批任务的存活率。从充分利用资源的角度考虑被调度的任务数,可能会使同样的资源服务更多的任务,但计算节点物理损毁导致任务执行失败的概率会更大(如因缺乏抗毁接替资源而导致),这时任务存活率并不会很高。反之,若过于降低同期被调度的任务总数,则计算节点物理损毁导致任务执行失败的概率将会降低很多。这主要是因重调度时有更多可选择的接替计算节点。然而,同期的资源利用率将会很低。这时,尽管任务存活率可能很高,但以严重降低资源利用率换得的任务高存活率没有意义,尤其在资源受限的战场环境下。因此,需要探讨任务存活率与资源利用率之间的相互影响关系,力求找到两者之间的一个合理平衡点。但是,目前针对两者之间的合理平衡点的研究和技术方案,往往都可靠性不搞,而且方法极为复杂。
技术实现思路
本专利技术的目的在于提供一种可靠性高、稳定性好且简单方便的基于Q学习的通信网络任务资源调度方法。本专利技术提供的这种基于Q学习的通信网络任务资源调度方法,包括如下步骤:S1.获取通信网络的实时通信状态和通信参数,并初始化R表;S2.通信网络的每一个任务调度节点进行自身Q表的训练;S3.通信网络的每一个任务调度节点进行自身Q表的决策;S4.通信网络根据每一个任务调度节点在步骤S3得到的Q表进行后续的任务资源调度;S5.通信网络的每一个任务调度节点进行自身R表的更新;S6.重复步骤S2~S5,进行持续的通信网络任务资源调度。步骤S1所述的初始化R表,具体为采用如下步骤进行初始化:前提:每个初始状态中资源项的值不超过所有节点初始化资源量之和;Ⅰ.对于每一个均重复进行如下步骤Ⅱ~步骤Ⅷ;其中为任务调度节点i在时刻0的状态;Si为任务调度节点i的状态空间集合;Ⅱ.对于每一个均重复进行如下步骤Ⅲ~步骤Ⅷ;为任务调度节点i在时刻0采取的行动;Ai为任务调度节点i的行动集合;Ⅲ.根据初始行动估算拟调度任务量;Ⅳ.根据拟调度任务量估算任务需要的资源量;Ⅴ.根据拟调度任务所需资源量与初始状态中资源项的值估算资源利用率Ⅵ.根据每个节点初始化的损毁概率估算所有节点损毁概率的均值;Ⅶ.进行判断:若初始状态中任务项的值不大于资源项的值,则将节点损毁概率的均值作为初始任务成功率否则,将初始任务成功率设置为0;Ⅷ.初始化任务调度节点i在时刻0获得的回报值ri0:ε2为权重因子,且取值范围为0~1。步骤S2所述的通信网络的每一个任务调度节点进行自身Q表的训练,具体为采用如下步骤进行训练:重复如下步骤A~步骤F直至重复次数达到设定的次数K:A.随机选择一个初始状态为任务调度节点i在时刻t的状态;Si为任务调度节点i的状态空间集合;B.设定第一变量Qmax的值为0;C.对于每一个均进行如下步骤a~步骤c;为任务调度节点i在时刻t采取的行动;Ai为任务调度节点i的行动集合:a.采用如下算式计算任务调度节点i在t+1时刻的Q值:式中为任务调度节点i在t+1时刻的Q值;α为学习因子,取值范围为[0,1],且α值越大表明行动的执行者越看重当前的回报;为任务调度节点i在时刻t的Q值;为任务调度节点i在时刻t+1获得的回报值;β为折扣因子,取值范围为[0,1),β取值越大表明行动的执行者更重视未来的回报;为任务调度节点i在时刻t采取行动后从状态转变而来的新状态;为任务调度节点i在新状态下能获得最大Q值的行动;为任务调度节点i在时刻t+1在新状态下采取行动的Q值;b.更新Qi中相应的元素;Qi为任务调度节点i的Q表;c.对更新后的Qi中的元素进行判断:若则将Qmax的值更新为同时将amax的值更新为amax为任务调度节点i在时刻t+1在状态下能获得最大Q值的行动;否则,Qmax和amax不变;D.设置探测概率E.产生随机数ε,ε的取值范围为0~1;F.对探测概率和产生的随机数ε进行判断:若则再次进行判断:若行动amax能够将状态转换到下一个状态则将的值赋值给并跳转回步骤B;否则,跳转回步骤A;否则,从集合Ai中随机选择一个除amax之外的行动,并再次进行判断:若被选择的行动能够将状态转换到下一个状态则将将的值赋值给并跳转回步骤B;否则,跳转回步骤A。步骤S3所述的通信网络的每一个任务调度节点进行自身Q表的决策,具体为采用如下步骤进行决策:(1)初始设定和第二变量V=0;(2)对于每一个均进行如下操作:根据从Qi中查到进行判断:若则将赋值给V,同时将赋值给a0,a0为任务调度节点i在时刻t在状态下能获得最大Q值的行动;否则,V和a0不变;(3)进行判断:若行动a0能够将状态转换到下一个状态则采用如下算式计算(4)更新Qi中相应的元素;(5)将的值赋值给并回到步骤(2)。步骤S5所述的通信网络的每一个任务调度节点进行自身R表的更新,具体为采用如下步骤进行更新:1)统计从lt到lt+τt期间资源视图中的资源总量,并记为fit;lt为任务调度与执行虚拟时间t;τt为任务调度与执行周期;资源视图为当前调度期内调度节点i的可见执行节点集合;2)统计从lt到lt+τt期间已调度执行的任务的任务量并记为并统计所占用的资源总量;3)根据步骤1)和步骤2)的统计结果,估算资源利用率并记为资源利用率的定义为实际占用资源量与资源总量的比值;4)根据从lt到lt+τt期间每个执行任务的节点的损毁率,估算任务执行的成功率;5)基于步骤4)得到的每个任务的成功率,统计所有任务的平均成功率并记为6)采用如下算式计算任务调度节点i在时刻t获得的回报值式中ε1为权重因子,且取值范围为0~1;为任务调度节点i在时刻t统计的所有任务的平均成功率;为任务调度节点i在时刻t统计的资本文档来自技高网
...

【技术保护点】
1.一种基于Q学习的通信网络任务资源调度方法,包括如下步骤:/nS1.获取通信网络的实时通信状态和通信参数,并初始化R表;/nS2.通信网络的每一个任务调度节点进行自身Q表的训练;/nS3.通信网络的每一个任务调度节点进行自身Q表的决策;/nS4.通信网络根据每一个任务调度节点在步骤S3得到的Q表进行后续的任务资源调度;/nS5.通信网络的每一个任务调度节点进行自身R表的更新;/nS6.重复步骤S2~S5,进行持续的通信网络任务资源调度。/n

【技术特征摘要】
1.一种基于Q学习的通信网络任务资源调度方法,包括如下步骤:
S1.获取通信网络的实时通信状态和通信参数,并初始化R表;
S2.通信网络的每一个任务调度节点进行自身Q表的训练;
S3.通信网络的每一个任务调度节点进行自身Q表的决策;
S4.通信网络根据每一个任务调度节点在步骤S3得到的Q表进行后续的任务资源调度;
S5.通信网络的每一个任务调度节点进行自身R表的更新;
S6.重复步骤S2~S5,进行持续的通信网络任务资源调度。


2.根据权利要求1所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S1所述的初始化R表,具体为采用如下步骤进行初始化:
前提:每个初始状态中资源项的值不超过所有节点初始化资源量之和;
Ⅰ.对于每一个均重复进行如下步骤Ⅱ~步骤Ⅷ;其中为任务调度节点i在时刻0的状态;Si为任务调度节点i的状态空间集合;
Ⅱ.对于每一个均重复进行如下步骤Ⅲ~步骤Ⅷ;为任务调度节点i在时刻0采取的行动;Ai为任务调度节点i的行动集合;
Ⅲ.根据初始行动估算拟调度任务量;
Ⅳ.根据拟调度任务量估算任务需要的资源量;
Ⅴ.根据拟调度任务所需资源量与初始状态中资源项的值估算资源利用率
Ⅵ.根据每个节点初始化的损毁概率估算所有节点损毁概率的均值;
Ⅶ.进行判断:若初始状态中任务项的值不大于资源项的值,则将节点损毁概率的均值作为初始任务成功率否则,将初始任务成功率设置为0;
Ⅷ.初始化任务调度节点i在时刻0获得的回报值ε2为权重因子,且取值范围为0~1。


3.根据权利要求1或2所述的基于Q学习的通信网络任务资源调度方法,其特征在于步骤S2所述的通信网络的每一个任务调度节点进行自身Q表的训练,具体为采用如下步骤进行训练:
重复如下步骤A~步骤F直至重复次数达到设定的次数K:
A.随机选择一个初始状态为任务调度节点i在时刻t的状态;Si为任务调度节点i的状态空间集合;
B.设定第一变量Qmax的值为0;
C.对于每一个均进行如下步骤a~步骤c;为任务调度节点i在时刻t采取的行动;Ai为任务调度节点i的行动集合:
a.采用如下算式计算任务调度节点i在t+1时刻的Q值:



式中为任务调度节点i在t+1时刻的Q值;α为学习因子,取值范围为[0,1],且α值越大表明行动的执行者越看重当前的回报;为任务调度节点i在时刻t的Q值;为任务调度节点i在时刻t+1获得的回报值;β为折扣因子,取值范围为[0,1),β取值越大表明行动的执行者更重视未来的回报;为任务调度节点i在时刻t采取行动后从状态转变而来的新状态;为任务调度节点i在新状态下能获得最大Q值的行动;为任务调度节点i在时刻t+1在新状态下采取行动的Q值;<...

【专利技术属性】
技术研发人员:桂劲松刘尧
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1