一种深度强化学习的云服务并发请求调度方法及系统技术方案

技术编号:36965812 阅读:22 留言:0更新日期:2023-03-22 19:26
本发明专利技术提供的一种深度强化学习的云服务并发请求调度方法及系统,方法包括以下步骤:获取物理设备的服务请求,根据所述服务请求对应的调度序列以及所述服务请求的关键字确定输入序列;将所述输入序列输入至调度模型,通过所述调度模型输出得到输出序列;根据所述输出序列将所述服务请求分配至对应的服务,执行所述服务请求;本申请技术方案使用的深度学习模型,相对于以往基于迭代的方法具有更高的时间效率,能够更快速的得到调度序列,使用了强化学习的方法;方案使得模型训练无需大量带有标注的数据集,减少了人工标注所需要的时间成本,且模型可以根据问题的不同快速修改,提高模型的可扩展性,可广泛应用于计算机技术领域。域。域。

【技术实现步骤摘要】
一种深度强化学习的云服务并发请求调度方法及系统


[0001]本专利技术涉及计算机
,尤其是一种深度强化学习的云服务并发请求调度方法及系统。

技术介绍

[0002]近年来,工业互联网的兴起,改变了传统的制造行业。工业互联网平台作为工业云平台,旨在推进制造业的数字化、网络化、智能化。通过新型的分布式微服务架构,构建面向服务的开发环境。
[0003]不过,将工业设备入网应对的问题为服务延迟问题。一般情况下,云计算的供需双方追求的都是在提交请求后尽可能在最短的时间内响应。但对于云计算资源的多样性,以及请求对于时间敏感度的不同,如何综合考虑以减少响应时间成为了一个值得研究的问题。此问题本质上类似于组合优化问题
[0004]随着人工智能技术的发展,相对于以往的求解组合优化问题的方法,使用深度学习、强化学习等机器学习算法成为解决此类问题的一个突破口。目前,基于深度强化学习解决组合优化问题已经取得了一定的进展,因此可以利用深度强化学习的方法,来设计一个速度更快、可扩展性更强的模型来实现服务调度问题。
[0005]一方面,部分相关技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种深度强化学习的云服务并发请求调度方法,其特征在于,包括以下步骤:获取物理设备的服务请求,根据所述服务请求对应的调度序列以及所述服务请求的关键字确定输入序列;将所述输入序列输入至调度模型,通过所述调度模型输出得到输出序列;根据所述输出序列将所述服务请求分配至对应的服务,执行所述服务请求;其中,所述将所述输入序列输入至调度模型,通过所述调度模型输出得到输出序列的过程包括:将所述输入序列进行编码得到高维向量;根据已被选择的输入,获取每个输出时间步骤中的第一状态;通过计算所述高维向量与所述第一状态的相似度,得到相似度序列;将所述相似度序列进行归一化为所述输入序列上的条件概率分布,根据所述条件概率分布确定输出元素,整合所述输出元素得到所述输出序列。2.根据权利要求1所述的一种深度强化学习的云服务并发请求调度方法,其特征在于,所述调度模型的训练过程,包括:构建Critic网络模型,根据所述调度模型构建Actor网络模型;将历史请求的训练序列输入至Actor网络模型,通过所述Critic网络模型确定所述Actor网络模型输出调度决策后的第一加权响应时间和的第一期望;在所述Actor网络模型输出调度决策后,通过所述Critic网络模型确定未被调度请求通过Actor网络模型输出后得到的第二加权响应时间和的第二期望;根据所述第一期望和所述第二期望对所述Actor网络模型进行参数调整,得到训练后的所述调度模型。3.根据权利要求2所述的一种深度强化学习的云服务并发请求调度方法,其特征在于,所述调度模型的训练过程,还包括:通过公共Actor网络中的训练目标函数与训练过程中的子线程确定Actor网络参数的第一初始值;训练公共Critic网络直至全局损失函数为最小值,输出得到Critic网络参数的第二初始值;将所述第一初始值同步至所述Actor网络模型,将所述第二初始值同步至所述Critic网络模型;通过完成同步后的所述Critic网络模型与Actor网络模型输出结果确定第一动作价值;更新所述第一动作价值,通过更新后的第一动作价值构建优势函数,通过所述优势函数确定所述Actor网络参数的第一梯度;根据当前状态序列、下一个调度请求以及所述全局损失函数计算得到所述Critic网络参数的第二梯度;累计所述子线程中的所述第一梯度以及所述第二梯度的梯度更新,根据所述梯度更新调整所述Actor网络参数以及所述Critic网络参数。4.根据权利要求3所述的一种深度强化学习的云服务并发请求调度方法,其特征在于,所述通过公共Actor网络中的训练目标函数与训练过程中的子线程确定Actor网络参数的
第一初始值,包括:根据所述训练目标函数以及所述子线程构建第一表达式;根据所述第一表达式,通过公共Actor网络输出调度决策后的第二动作价值以及公共Actor网络的第一策略熵项计算得到所述第一初始值的第三梯度;根据所述第三梯度,通过策略梯度算法以及随机梯度下降算法确定所述第一初始值。5.根据权利要求3所述的一种深度...

【专利技术属性】
技术研发人员:王涛张嘉铭程良伦
申请(专利权)人:广东能哥知识科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1