一种基于深度强化学习的资源分配方法及装置制造方法及图纸

技术编号:24995428 阅读:61 留言:0更新日期:2020-07-24 17:58
本发明专利技术实施例提供了一种基于深度强化学习的资源分配方法及装置,方法包括:确定用户的应用程序请求中包含的多种待分配资源的服务,以及各服务的分配优先级;确定当前边缘微云系统的状态参数,状态参数包括资源均衡度评估参数,响应延迟评估参数,以及每个微云中各个计算节点的资源剩余量;将状态参数输入预先训练完成的资源均衡优化模型,得到第一服务的第一目标计算节点;资源均衡优化模型是基于深度强化学习训练完成的,将第一服务部署于第一目标计算节点;更新状态参数,返回参数输入步骤,直到应用程序请求中包含的每种待分配资源的服务均完成资源分配。相比于传统的资源分配方法,既能够满足通信延迟需求,又能达到较高的资源利用均衡度。

【技术实现步骤摘要】
一种基于深度强化学习的资源分配方法及装置
本专利技术涉及无线通信
,特别是涉及一种基于深度强化学习的资源分配方法及装置。
技术介绍
近年来,随着信息化、网络化的不断发展,信息系统在军事、救灾等领域发挥着越来越重要的作用。在这种高度动态的环境中,任务计划及设备构成可能频繁变化,网络连通能力也会出现波动。基于单机设备的服务资源十分有限,无法应对复杂的计算任务。云计算技术是应对这种场景的有效手段。云计算技术中,能够根据任务需求,自定义进行资源配置,从而为大规模应用程序提供方便灵活的管理服务,然而,传统的云平台通常部署在距离用户较远的地区,通信延迟较高,且在网络不稳定的环境中,很难提供持续可靠的服务。为了解决上述问题,产生了边缘微云平台。边缘微云平台是一种新兴的云计算模型,有多个分布式部署的边缘微云组成,每个边缘微云包含若干小型服务器,边缘微云平台的规模可以随着任务需求进行调整。边缘微云大都部署在移动车辆上,根据任务需求进行移动,以提供更高质量的云服务。随着微服务技术的发展,一个应用程序通常由多个相互通信的组合服务构成,每个组合服务对不同本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的资源分配方法,其特征在于,应用于边缘微云系统的控制平台,所述边缘微云系统还包括多个微云,每个微云包括多个计算节点,所述方法包括:/n确定用户的应用程序请求中包含的多种待分配资源的服务,以及各服务的分配优先级;/n确定当前边缘微云系统的状态参数,所述状态参数包括资源均衡度评估参数,响应延迟评估参数,以及每个微云中各个计算节点的资源剩余量;/n将所述状态参数输入预先训练完成的资源均衡优化模型,得到第一服务的第一目标计算节点;所述第一服务为当前分配优先级最高的服务;所述资源均衡优化模型是基于深度强化学习训练完成的,其中,深度强化学习的训练集包括:边缘微云系统的样本状态参数;...

【技术特征摘要】
1.一种基于深度强化学习的资源分配方法,其特征在于,应用于边缘微云系统的控制平台,所述边缘微云系统还包括多个微云,每个微云包括多个计算节点,所述方法包括:
确定用户的应用程序请求中包含的多种待分配资源的服务,以及各服务的分配优先级;
确定当前边缘微云系统的状态参数,所述状态参数包括资源均衡度评估参数,响应延迟评估参数,以及每个微云中各个计算节点的资源剩余量;
将所述状态参数输入预先训练完成的资源均衡优化模型,得到第一服务的第一目标计算节点;所述第一服务为当前分配优先级最高的服务;所述资源均衡优化模型是基于深度强化学习训练完成的,其中,深度强化学习的训练集包括:边缘微云系统的样本状态参数;
将所述第一服务部署于所述第一目标计算节点;
更新所述状态参数,并返回将所述状态参数输入预先训练完成的资源均衡优化模型的步骤,直到所述应用程序请求中包含的每种待分配资源的服务均完成资源分配。


2.根据权利要求1所述的方法,其特征在于,基于如下公式计算所述资源均衡度评估参数:















其中,RUVij表示第i个微云中第j个计算节点的资源利用方差,D表示资源的种类数,表示第i个微云中第j个计算节点中第d类资源的资源利用率,表示第i个微云中第j个计算节点中所有种类资源的资源利用率的平均值,X表示资源分配策略,表示第i个微云中第j个计算节点的资源均衡率,RUBDi表示第i个微云的资源利用均衡度,Li表示第i个微云中计算节点的总数,RUBDTotal表示所述边缘微云系统的资源均衡度评估参数,K表示所述边缘微云系统中微云的总数;
基于如下公式计算所述响应延迟评估参数:
tTotal=TComp(X)+TTR(X)
tTotal表示响应延迟评估参数,TComp(X)表示计算延迟,TTR(X)表示传输延迟。


3.根据权利要求1所述的方法,其特征在于,所述资源均衡优化模型按照如下步骤进行训练:
获取预设的神经网络模型和所述训练集;
将所述样本状态参数输入所述神经网络模型,得到服务放置动作;所述服务放置动作表示为样本服务确定所放置的目标计算节点;
基于所述服务放置动作,对所述样本状态参数进行更新,得到更新后的样本状态参数;
基于所述样本状态参数中包含的资源均衡度评估参数,响应延迟评估参数,以及所述更新后的样本状态参数中包含的资源均衡度评估参数,响应延迟评估参数,计算本次服务放置动作的奖励值;
将所述样本状态参数,所述更新后的样本状态参数,本次服务放置动作,以及所述本次服务放置动作的奖励值,代入预设的损失函数,计算本次服务放置动作的损失值;
根据所述损失值确定所述神经网络模型是否收敛;
若否,则调整所述神经网络模型中的参数值,并返回将更新后的样本状态参数输入所述神经网络模型,得到服务放置动作的步骤;
若是,则将当前的神经网络模型确定为资源均衡优化模型。


4.根据权利要求3所述的方法,其特征在于,所述损失函数为:






其中,L表示损失函数,E[]表示数学期望,n表示每次迭代所参考的历史迭代数据的组数,t表示时刻,表示t时刻之后n组历史迭代数据的优先级权重,rt(n)表示t时刻后n次迭代的奖励值之和,表示针对t时刻后n次迭代奖励值的衰减因子,Qtarget表示目标网络,Qeva表示估计网络,st表示时刻t的样本状态参数,at表示时刻t的服务放置动作,st+n表示迭代n次后的样本状态参数,a′表示使估计网络输出最大值的服务放置动作,k表示迭代序号,表示针对t时刻后第k次迭代奖励值的衰减因子,rt+k+1表示t时刻后第k次迭代的奖励值。


5.一种基于深度强化学习的资源分配装置,其特征在于,应用于边缘微云系统的控制平台,所述边缘微云系统还包括多个微云,每个微云包括多个计算节点,所述装置包括:
第一确定模块,用于确定用户的应用程序请求中包含的多种待分配资源的服务,以及各服务的分配优先级;
第二确定...

【专利技术属性】
技术研发人员:张海涛郭彤宇郭建立黄瀚何晨泽
申请(专利权)人:北京邮电大学中国电子科技集团公司第五十四研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1