【技术实现步骤摘要】
资源伸缩方法、装置、计算机设备及存储介质
本专利技术涉及计算机应用技术,特别涉及资源伸缩方法、装置、计算机设备及存储介质。
技术介绍
目前,对于深度学习作业等,在提交具体的训练任务之前,通常需要先准确地预估出所需的资源总量,进而向分布式训练系统(集群)提交任务,一次性的申请所有资源,等待资源充足时调度运行。深度学习作业通常为离线作业,而除了离线作业,系统中还可存在在线任务,即离线作业与在线任务可混合部署在系统中。这种情况下,通常采用静态资源分配方式,即采用静态划分系统可使用资源的方式,以避免离线作业和在线任务资源竞争而影响在线任务的服务质量(QoS,QualityofService),因为在线服务对于资源索取的优先级往往是高于离线作业的。但是,这种方式在实际应用中也会存在一定的问题,比如:1)在线任务的资源需求会随着服务访问流量的变化而变化,这样就经常会出现所分配的很多资源处于空闲状态的情况,从而造成了资源的浪费,降低了资源利用率;2)对于深度学习作业等离线作业,只有当所需的资源总量能够满足要求时才会运行作业,否则,作业将一直处于挂起状态,直到释放了充足的 ...
【技术保护点】
1.一种资源伸缩方法,其特征在于,包括:获取用户为所提交的作业配置的不同进程的实例副本数以及单个实例副本所需资源,所述进程包括:master进程、parameter server进程以及trainer进程,其中,所述trainer进程包括最大实例副本数和最小实例副本数,所述作业为离线作业,所述离线作业与在线任务混合部署在系统中;当按照所配置的实例副本数以及单个实例副本所需资源依次启动所述master进程以及所述parameter server进程后,尝试按照所述最小实例副本数以及单个实例副本所需资源启动所述trainer进程;当每次满足触发条件时,从所提交的作业中选出符合调 ...
【技术特征摘要】
1.一种资源伸缩方法,其特征在于,包括:获取用户为所提交的作业配置的不同进程的实例副本数以及单个实例副本所需资源,所述进程包括:master进程、parameterserver进程以及trainer进程,其中,所述trainer进程包括最大实例副本数和最小实例副本数,所述作业为离线作业,所述离线作业与在线任务混合部署在系统中;当按照所配置的实例副本数以及单个实例副本所需资源依次启动所述master进程以及所述parameterserver进程后,尝试按照所述最小实例副本数以及单个实例副本所需资源启动所述trainer进程;当每次满足触发条件时,从所提交的作业中选出符合调整条件的可调整作业,并根据当前的系统资源使用情况对所述可调整作业中的trainer实例副本进行扩容或缩容处理。2.根据权利要求1所述的方法,其特征在于,所述满足触发条件包括:每经过预定时长,则确定满足一次触发条件。3.根据权利要求1所述的方法,其特征在于,所述从所提交的作业中选出符合调整条件的可调整作业包括:若任一作业中的trainer进程配置了最大实例副本数以及最小实例副本数,且,所述作业中系统记录的trainer实例副本均处于正常运行的状态,则将所述作业确定为可调整作业。4.根据权利要求1所述的方法,其特征在于,所述根据当前的系统资源使用情况对所述可调整作业中的trainer实例副本进行扩容或缩容处理包括:获取当前的系统整体资源使用率;若所述系统整体资源使用率小于预定阈值,则对所述可调整作业中的trainer实例副本进行扩容处理;若所述系统整体资源使用率大于所述阈值,则对所述可调整作业中的trainer实例副本进行缩容处理。5.根据权利要求4所述的方法,其特征在于,所述扩容处理过程包括:分别计算各可调整作业的完成度评分;按照完成度评分对各可调整作业进行升序排序;按照排序顺序,依次对每个可调整作业执行以下处理:确定所述可调整作业是否符合扩容条件,若是,则为所述可调整作业扩容一个trainer实例副本,否则,处理下一个可调整作业;当符合扩容停止条件时,结束扩容处理。6.根据权利要求5所述的方法,其特征在于,所述确定所述可调整作业是否符合扩容条件包括:确定所述可调整作业是否符合以下条件:扩容之后所述可调整作业中系统记录的trainer实例副本数未超过所述最大实例副本数,且,扩容之后所述系统整体资源使用率未大于所述阈值,若是,则确定所述可调整作业符合扩容条件。7.根据权利要求6所述的方法,其特征在于,该方法进一步包括:若对各可调整作业完成一轮处理之后,仍不符合扩容停止条件,则重复所述扩容处理过程,直到符合所述扩容停止条件;所述符合扩容停止条件包括:不存在符合扩容条件的可调整作业。8.根据权利要求4所述的方法,其特征在于,所述缩容处理过程包括:分别计算各可调整作业的完成度评分;按照完成度评分对各可调整作业进行降序排序;按照排序顺序,依次对每个可调整作业执行以下处理:确定所述可调整作业是否符合缩容条件,若是,则为所述可调整作业缩容一个trainer实例副本,否则,处理下一个可调整作业;当符合缩容停止条件时,结束缩容处理。9.根据权利要求8所述的方法,其特征在于,所述确定所述可调整作业是否符合缩容条件包括:若缩容之后所述可调整作业中系统记录的trainer实例副本数不小于所述最小实例副本数,则确定所述可调整作业符合缩容条件。10.根据权利要求9所述的方法,其特征在于,该方法进一步包括:若对各可调整作业完成一轮处理之后,仍不符合缩容停止条件,则重复所述缩容处理过程,直到符合所述缩容停止条件;所述符合缩容停止条件包括:系统整体资源使用率小于所述阈值。11.根据权利要求5或8所述的方法,其特征在于,所述分别计算各可调整作业的完成度评分包括:针对每个可调整作业,分别执行以下处理:计算所述可调整作业中系统记录的trainer实例副本数与所述最小实例副本数之差,得到第一差值;计算所述最大实例副本数与所述最小实例副本数之差,得到第二差值;计算所述第一差值与所述第二差值之商,得到所述可调整作业的完成度评分。12.一种资源伸缩装置,其特征在于,包括:获取单元、启动单元以及伸缩单元;所述获取单元,用于获取用户为所提交的作业配置的...
【专利技术属性】
技术研发人员:孟洋,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。