【技术实现步骤摘要】
面向机器学习训练的分布式虚拟机调度方法、装置和系统
[0001]本专利技术涉及机器学习云平台和数据中心领域,具体涉及一种面向机器学习训练的分布式虚拟机调度方法、装置和系统。
技术介绍
[0002]机器学习技术目前广泛应用于语音识别、个性化推荐、无人驾驶等各个领域。为了满足开发大规模模型的需要,云平台推出了机器学习即服务(Machine Learning As A Service,MLaaS),它可以为用户构建应用程序提供足够的资源。云平台通常采用以虚拟机为主的服务器虚拟化来保证任务的安全性和用户隐私。但是,云平台集群中服务器资源的利用率普遍较低。从阿里巴巴人工智能平台(PAI)的集群数据中,我们知道CPU资源的整体利用率在40%左右。此外,还存在异构机器之间的利用率不平衡的问题,有些机器分配了超过70%的CPU,有些机器只分配了35%,且这些低负载服务器仍然消耗超过60%的总功耗。资源使用效率差导致大量能源浪费,这不仅增加了数据中心的运营费用,而且对环境产生了负面影响。
[0003]动态虚拟机迁移调度以整合服务器资源 ...
【技术保护点】
【技术特征摘要】
1.一种面向机器学习训练的分布式虚拟机调度方法,其特征在于,包括以下步骤:在时隙开始时,将到达的机器学习任务封装到虚拟机上,将虚拟机以首次适应算法的方式下发至物理机上;获取当前时隙内各物理机的情况,包括物理机的资源使用情况和剩余时间;获取当前时隙内各虚拟机的情况,包括虚拟机的资源使用情况,其上的任务剩余执行时间和已运行时间情况;根据当前时隙虚拟机的剩余执行时间和已运行时间情况,推断出当前虚拟机上任务的执行周期,以此获知虚拟机的内存脏页率情况和迁移所需时间,构建以最小化集群能耗为目标的优化问题并求解,将求解结果作为迁移时隙内的迁移调度策略,所述决策包括将虚拟机重新迁移调度到合适的物理机上;在本时隙结束时,将指定的虚拟机根据所得的策略迁移到指定的物理机上并关闭空闲物理机。2.根据权利要求1所述的虚拟机调度方法,其特征在于,所述首次适应算法将虚拟机和物理机根据CPU资源降序排序,按CPU资源需求由高到低的顺序来部署虚拟机,每次都是按CPU资源排序从物理机中进行查找,直到找到满足该虚拟机资源的物理机进行部署。3.根据权利要求1所述的虚拟机调度方法,其特征在于,所述优化问题如下:优化目标:其中,T表示时隙总数,|M
P
|为时隙t
i
内物理机的数量,u
j
表示物理机j的CPU利用率,P(u
j
)表示物理机在CPU利用率u
j
下的功率;将优化问题转化成迁移调度策略带来的能耗收益
‑
成本最大化:优化目标:其中:save
t
为时隙t内迁移调度策略所带来的能耗收益,cost
t
为时隙t内迁移调度策略所带来的能耗损失,所带来的能耗损失,所带来的能耗损失,约束条件:1.1)对于决策定义域的限制:1.2)对于虚拟机在每个时隙内仅能分配到一台物理机的限制:1.3)对于物理机上资源分配限制:1.4)对于运行时间内任务服务质量限制:
式中,|M
V
|为时隙t
i
内虚拟机的数量,x
′
i,j
为迁移调度前的虚拟机分配部署方案,x
i,j
为迁移调度后的虚拟机分配部署方案,其中x
i,j
=0表示虚拟机i没有分配到物理机j上,x
i,j
=1则表示虚拟机i分配到物理机j上,vres
i,k
为虚拟机i的资源容量,其中k为0表示CPU资源,k为1表示内存资源,vrt
i
表示虚拟机i的剩余执行时间,Δvrt
i
表示虚拟机i迁移后增加的执行时间,vrt
′
i
表示虚拟机i迁移后的剩余执行时间,vct
i
表示虚拟机i完成机器学习任务所需的时间,pr
i
表示虚拟机i的内存脏页率,P
peak,j
表示物理机j的峰值功率,P
idle,j
表示物理机j的空闲功率,PRES
j,k
表示物理机j的资源容量,其中k为0表示CPU资源,k为1表示内存资源,PRT
′
jt
表示物理机j迁移走虚拟机i后的剩余时间,B
j
表示物理机j用于迁移的带宽,MT
i,j
表示虚拟机i迁移到物理机j所需的时间,nk表示虚拟机i迁移到物理机j的迁移轮数,SP
avg
表示任务服务质量的限制,[*]
+
指的是max{*,0},意为和0比较,取其中大的。4.根据权利要求3所述的虚拟机调度方法,其特征在于,对优化问题的求解包括:将优化问题(1)分解到每一个迁移时隙,在每一个迁移时隙开始的时候,实际求解如下优化问题:优化目标:min∑
X∈X(t)
d
X
(t)F(X,t)
ꢀꢀꢀ
(2)F(X,t)=q(t)*(sp
t
‑
SP
avg
)
‑
V*(save
t
‑
cost
t
)约束条件:h(X)≤0且∑
X∈X(t)
d
X
(t)=1式中,X(t)是时隙t时刻的虚拟机放置策略的集合,X为时隙t所取的放置策略,d
X
(t)是采用策略X的概率,q(t)是保证任务服务质量下使用李雅普诺夫优化的积压队列,sp
t
是时隙t的服务质量惩罚量,V是李雅普诺夫优化的调节参数,h为需要满足的节点上虚拟机分配的约束函数,包含约束1.1
‑
1.4。5.根据权利要求4所述的虚拟机调度方法,其特征在于,对优化问题(2)的求解包括:将优化问题(2)放缩成log
‑...
【专利技术属性】
技术研发人员:顾颖程,杜元翰,程环宇,刘凯,许梦晗,宋玉,吴科烽,
申请(专利权)人:国网江苏省电力有限公司信息通信分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。