【技术实现步骤摘要】
无线网络系统的资源调度方法、装置、终端及存储介质
[0001]本申请属于资源调度
,尤其涉及一种无线网络系统的资源调度方法、装置、终端及存储介质。
技术介绍
[0002]如今,无线通信使人们之间的联系沟通变得愈发的简单快捷,并出现了越来越多依赖于无线通信的终端设备。面对有限的无线网络资源,为了更好的满足对无线网络资源的需求,需要对无线网络资源进行合理的调度。
[0003]例如,许多研究工作关注了强化学习在无线网络资源调度的应用。强化学习是一种通过与环境互动来学习的机器学习方法,在无线网络资源调度中,可以在与环境交互的过程中学习无线网络资源调度方案,使资源合理分配,提升无线网络的整体效率。
[0004]然而,强化学习只关注目标最大化,例如,在无线网络资源分配中,强化学习只专注于最小化网络资源的消耗量,因而在基于最小化网络资源消耗量的调度过程中容易出现因资源分配过少而导致的任务超时的问题,偏离了对无线网络资源进行调度的本意。
技术实现思路
[0005]本申请实施例提供了一种无线网络系统的资源 ...
【技术保护点】
【技术特征摘要】
1.一种无线网络系统的资源调度方法,其特征在于,所述资源调度方法,包括:获取基于无线网络系统的状态信息生成的状态空间向量;所述无线网络系统的状态信息包括待处理任务的任务属性和无线网络系统的可调度资源;将所述状态空间向量输入预设强化学习奖励网络和预设强化学习成本网络,得到由所述预设强化学习奖励网络输出的多种调度方式中每一种调度方式的估算奖励值,以及所述预设强化学习成本网络输出的多种调度方式中每一种调度方式的估算成本值;所述多种调度方式中每一种调度方式均包括分配给所述待处理任务的处理资源;基于预设成本权重,对于属于同一种调度方式的估算奖励值和估算成本值进行加权,得到成本奖励加权值;将取值最大的成本奖励加权值对应的调度方式作为所述无线网络系统的目标调度方式。2.如权利要求1所述的资源调度方法,其特征在于,所述无线网络系统包括本地终端、基站、无人机,所述无线网络系统的状态信息,包括:本地终端待处理任务的任务属性,以及本地终端、基站、无人机的可调度资源信息;其中,所述本地终端待处理任务的任务属性包括任务数据量、任务所需计算量和预设时长阈值;所述本地终端、基站、无人机的可调度资源信息包括本地终端的可用计算资源、基站的可用带宽资源、无人机的可用带宽资源,以及基站与本地终端之间的无线传播信道增益和无人机与本地终端之间的无线传播信道增益。3.如权利要求1所述的资源调度方法,其特征在于,所述预设成本权重、所述预设强化学习奖励网络和所述预设强化学习成本网络基于以下训练方式得到:获取待训练的强化学习奖励网络和待训练的强化学习成本网络;获取成本权重初始值和初始状态空间向量;确定与所述初始状态空间向量对应的初始目标调度方式,以及所述初始目标调度方式对应的初始奖励值、初始成本值和下一状态空间向量,并得到所述初始状态空间向量对应的包含所述初始状态空间向量、所述初始目标调度方式、所述初始奖励值、所述初始成本值和所述下一状态空间向量的样本向量;确定与所述下一状态空间向量对应的下一目标调度方式,以及所述下一目标调度方式对应的下一奖励值、下一成本值和再下一状态空间向量,得到所述下一状态空间向量对应的包含所述下一状态空间向量、所述下一目标调度方式、所述下一奖励值、所述下一成本值和所述再下一状态空间向量的样本向量;依此类推,得到N个样本向量;获取样本目标超时率c0;基于所述N个样本向量以及所述样本目标超时率c0对所述成本权重初始值进行更新,得到更新后的成本权重,并基于所述N个样本向量对所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络进行参数更新;再次获取N个样本向量,得到2N个样本向量,并基于所述2N个样本向量以及所述样本目标超时率c0对所述更新后的成本权重进行更新,重新得到更新后的成本权重,并基于所述2N个样本向量中随机抽取的N个样本向量对所述待训练的强化学习奖励网络和所述待训练
的强化学习成本网络进行参数更新,依此类推,直至所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络的参数的变化率小于预设变化率阈值,或者所述参数更新的次数达到预设次数时,完成对所述待训练的强化学习奖励网络和所述待训练的强化学习成本网络的训练,得到所述预设成本权重、所述预设强化学习奖励网络和所述预设强化学习成本网络。4.如权利要求3所述资源调度方法,其特征在于,在训练得到所述预设强化学习奖励网络和预设强化学习成本网络的过程中,各样本向量中的状态空间向量包括样本任务的任务属性和样本无线网络系统的可调度资源,所述样本任务的任务属性包括样本任务的预设时长阈值,各样本向量中的奖励值基于以下方式确定;基于样本向量中的目标调度方式和所述样本向量中的目标调度方式对应的状态空间向量确定完成所述样本任务的预估时长;若所述预估时长小于或等于所述样本任务的预设时长阈值,则:当样本向量中的目标调度方式为本地计算时,确定奖励值为完成所述样本任务所需的理论计算资源和实际计算资源的比值与预设值d的乘积;当样本向量中的目标调度方式为基站处理时,则奖励值为完成所述样本任务所需的理论的带宽资源和实际基站带宽资源的比值与预设值d的乘积;当样本向量中的目标调度方式为卸载到无人机时,则奖励值为完成所述样本任务所需的理论带宽资源和实际无人机带宽资源的比值与预设值d的乘积;若所述预估时长大于所述样本任务的预设时长阈值,则奖励值为预设值d的负值。5.如权利要求3所述的资源调度方法,其特征在于,在训练得到所述预设强化学习奖励网络和预设强化学习成本网络的过程中,各样本向量中的状态空间向量包括样本任务的任务属性,所述样本任务的任务属性包括样本任务的预设时长阈值,各样本向量中的成本值基于以下方式确定:基于样本向量中的目标调度方式和所述样本向量中的目标调度方式对应的状态空间向量确定完成所述样本任务的预估时长;若所述预估时...
【专利技术属性】
技术研发人员:庄燊,贺颖,王宇航,潘微科,明仲,
申请(专利权)人:深圳大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。