价值模型的训练方法以及相关设备技术

技术编号:30187830 阅读:30 留言:0更新日期:2021-09-29 08:25
本申请提供了一种价值模型的训练方法以及相关设备。所述方法包括:对放置记录进行采样,从而获得转移状态序列以及奖励序列,其中,转移状态序列记载率了云平台从初始状态放置第一台虚拟机,到第一个无法放置的虚拟机为止各个时刻的云平台的转移状态;奖励序列记载率了云平台从初始状态放置第一台虚拟机,到第一个无法放置的虚拟机为止各个时刻获得的奖励;根据奖励序列以及奖励确定模型确定价值序列,其中,价值序列中的元素和转移状态序列中的元素存在一一对应关系;其中,奖励确定模型既考虑了过去获得的奖励,也考虑未来能够获得的奖励;使用转移状态序列和价值序列对价值模型进行训练。行训练。行训练。

【技术实现步骤摘要】
价值模型的训练方法以及相关设备


[0001]本申请涉及人工智能领域,尤其涉及一种价值模型的训练方法以及相关设备。

技术介绍

[0002]运营商总是期望在云平台具有相同的物理资源(例如,CPU资源、内存资源以及网络资源等等)的情况下,能够创建更多的虚拟机,以增加运营商的收益。在理想的状态下,虚拟机能够刚好消耗尽云平台的所有物理资源,此时,运营商的收益是最大的。
[0003]但是,在实际使用中云平台中的物理主机的规格(包括CPU大小、内存大小以及网络带宽等等)可以是多种多样的,用户期望创建的虚拟机的规格(包括CPU大小、内存大小以及网络带宽等等)也可以是多种多样的,如此一来,云平台就不可避免地产生碎片,导致云平台的资源利用率降低。

技术实现思路

[0004]为了解决上述问题,本申请提供了一种价值模型的训练方法以及相关设备,能够有效减少碎片率。
[0005]第一方面,提供了一种价值模型的训练方法,所述方法包括:
[0006]对放置记录进行采样,从而获得转移状态序列以及奖励序列,其中,所述放置记录为云平台从初始状本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种价值模型的训练方法,其特征在于,所述方法包括:对放置记录进行采样,从而获得转移状态序列以及奖励序列,其中,所述放置记录为云平台从初始状态放置第一台虚拟机,到第一个无法放置的虚拟机为止的记录,所述转移状态序列记载率了云平台从初始状态放置第一台虚拟机,到第一个无法放置的虚拟机为止各个时刻的云平台的转移状态;所述奖励序列记载率了云平台从初始状态放置第一台虚拟机,到第一个无法放置的虚拟机为止各个时刻获得的奖励;根据奖励序列以及奖励确定模型确定价值序列,其中,价值序列中的元素和所述转移状态序列中的元素存在一一对应关系;其中,所述奖励确定模型既考虑了过去获得的奖励,也考虑未来能够获得的奖励;使用转移状态序列和价值序列对价值模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述奖励确定模型可以表示为:其中,待创建的虚拟机的规格为向量f,所有虚拟机的规格的集合为F,即有f∈F;云平台中的物理主机的当前分配状态记为s,所有状态空间为集合S,即有s∈S;云平台中物理主机的集合可以记为M,待选物理主机的集合为A,当前选择的待选物理主机为a,a∈A,调度策略为函数π:F
×
S

A,π为概率分布函数,所有调度策略空间为构成的集合可以记为Π,π∈Π;当按策略π选择待选物理主机a=π(s,f)来部署待创建的虚拟机时,该选择的奖励为奖励可以是虚拟机的规格大小,转移状态s'由s,f,a共同决定,记为s

=Ω(s,f,a),记奖励衰减因子为γ∈[0,1],E()为求期望的函数,在策略π下价值的函数记为Q
π
(s,a)。3.根据权利要求1所述的方法,其特征在于,对放置记录进行采样,从而获得转移状态序列以及奖励序列,包括:对放置记录进行采样,从而得到状态序列:S1,A1,R2,S2,A2,R3,

,S
t
,A
t
,R
t+1
,

,A
T-1
,R
T
,S
T
其中,所述状态序列包括动作序列A1,A2,

,A
t
,

,A
T-1
,A1为在策略π下从待选物理主机的集合A中选择一台待选物理主机放置第一台虚拟机m1的动作,A2为在策略π下从待选物理主机的集合A中选择一台待选物理主机放置第一台虚拟机m2的动作,A
t
为在策略π下从待选物理主机的集合A中选择一台待选物理主机放置第一台虚拟机m
t
的动作,A
T-1
为在策略π下从待选物理主机的集合A中选择一台待选物理主机放置第一台虚拟机m
T-1
的动作,上述状态序列包括转移状态序列S1,S2,

,S
t
,

,S
T
,S1为在策略π下云平台的初始状态,S2为在策略π下云平台放置第一台虚拟机a1后得到的转移状态,S
t
为在策略π下云平台放置第t-1台虚拟机a
t-1
得到的转移状态,S
T
为在策略π下云平台放置最后一台虚拟机a
T-1
得到的转移状态,上述状态序列包括奖励序列R2,R3,

,R
t+1
,

,R
T
,R2为在策略π下云平台放置第一台虚拟机m1后得到的奖励,R3为在策略π下云平台放置第二台虚拟机m2得到的奖励,R
t+1
为在策略π下云平台放置第t台虚拟机m
t+1
得到的奖励,R
T
为在策略π下云平台放置最后一台虚拟机m
T-1
得到的奖励。4.根据权利要求1至3任一权利要求所述的方法,其特征在于,所述奖励包括云平台中虚拟机的数量、云平台中放置的虚拟机的价格、云平台的资源分配率增量、需要使用的物理
主机数量中的任意一种。5.根据权利要求1至4任一权利所述的方法,其特征在于,所述价值模型采用了深度神经网络或者卷积神经网络。6.一种价值预测方法,其特征在于,所述方法包括:获取云平台当前的转移状态,其中,所述转移状态用于表示所述云平台中各个物理主机的资源的分配状态;将所述转移状态输入价值模型,从而获得所述转移状态对应的价值,其中,所述价值模型是使用已知转移状态和对应已知价值进行训练得到的,所述已知转移状态和对应的已知价值是将对放置记录进行采样获得的状态序列中的转移状态序列以及奖励序列输入奖励确定模型得到的。7.根据权利要求6所述的方法,其特征在于,所述奖励确定模型可以表示为:其中,待创建的虚拟机的规格为向量f,所有虚拟机的规格的集合为F,即有f∈F;云平台中的物理主机的当前分配状态记为s,所有状态空间为集合S,即有s∈S;云平台中物理主机的集合可以记为M,待选物理主机的集合为A,当前选择的待选物理主机为a,a∈A,调度策略为函数π:F
×
S

A,π为概率分布函数,所有调度策略空间为构成的集合可以记为Π,π∈Π;当按策略π选择待选物理主机a=π(s,f)来部署待创建的虚拟机时,该选择的奖励为奖励可以是虚拟机的规格大小,转移状态s'由s,f,a共同决定,记为s

=Ω(s,f,a),记奖励衰减因子为γ∈[0,1],E()为求期望的函数,在策略π下价值的函数记为Q
π
(s,a)。8.根据权利要求6所述的方法,其特征在于,所述状态序列为:S1,A1,R2,S2,A2,R3,

,S
t
,A
t
,R
t+1
,

,A
T-1
,R
T
,S
T
其中,所述状态序列包括动作序列A1,A2,

,A
t
,

,A
T-1
,A1为在策略π下从待选物理主机的集合A中选择一台待选物理主机放置第一台虚拟机m1的动作,A2为在策略π下从待选物理主机的集合A中选择一台待选物理主机放置第一台虚拟机m2的动作,A
t
为在策略π下从待选物理主机的集合A中选择一台待选物理主机放置第一台虚拟机m
t
的动作,A
T-1
为在策略π下从待选物理主机的集合A中选择一台待选物理主机放置第一台虚拟机m
T-1
的动作,上述状态序列包括转移状态序列S1,S2,

,S
t
,

,S
T
,S1为在策略π下云平台的初始状态,S2为在策略π下云平台放置第一台虚拟机a1后得到的转移状态,S
t
为在策略π下云平台放置第t-1台虚拟机a
t-1
得到的转移状态,S
T
为在策略π下云平台放置最后一台虚拟机a
T-1
得到的转移状态,上述状态序列包括奖励序列R2,R3,

,R
t+1
,

,R
T
,R2为在策略π下云平台放置第一台虚拟机m1后得到的奖励,R3为在策略π下云平台放置第二台虚拟机m2得到的奖励,R
t+1
为在策略π下云平台放置第t台虚拟机m
t+1
得到的奖励,R
T
为在策略π下云平台放置最后一台虚拟机m
T-1
得到的奖励。9.根据权利要求6至8任一权利要求所述的方法,其特征在于,所述奖励包括云平台中虚拟机的数量、云平台中放置的虚拟机的价格、云平台的资源分配率增量、需要使用的物理主机数量中的任意一种。10.根据权利要求6至9任一权利要求所述的方法,其特征在于,所述价值模型采用了深
度神经网络或者卷积神经网络。11.一种训练设备,其特征在于,所述训练设备包括采样模块、奖励确定模型以及训练模块,所述采样模块用于对放置记录进行采样,从而获得转移状态序列以及奖励序列,其中,所述放置记录为云平台从初始状态放置第一台虚拟机,到第一个无法放置的虚拟机为止的记录,所述转移状态序列记载率了云平台从初始状态放置第...

【专利技术属性】
技术研发人员:凌晓
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1