一种训练任务编排方法及系统技术方案

技术编号:38827511 阅读:16 留言:0更新日期:2023-09-15 20:06
本发明专利技术提供了一种训练任务编排方法及系统,涉及云计算技术领域。本发明专利技术通过设置BMC监控模块和负载监测模块实现对计算执行设备负载监测和能耗监测,并综合网络通信质量和计算能耗性价比,完成对计算执行设备的选取和对应算力的设置,以达到网络负载和计算负载的双平衡;在获取数据上传地址后,便能为其分配最速上传接口,从而实现训练数据快速上传,通过负载状态和通信评分结合,得到训练任务编排序列,通过训练任务编排序列进行算力认领,从而实现将负载与通信双优的设备接收训练任务,达到最佳能耗性价比。到最佳能耗性价比。到最佳能耗性价比。

【技术实现步骤摘要】
一种训练任务编排方法及系统


[0001]本专利技术涉及云计算
,尤其涉及一种训练任务编排方法及系统。

技术介绍

[0002]云计算平台用处理各类任务;其中,最为常见的便是训练任务,在执行训练任务时会消耗大量的算力资源,若是对训练任务编排不当,则会造成计算资源的浪费。
[0003]为此,申请号为:CN202211420673.3的专利技术申请公开了一种分布式算力资源的编排方法、装置、设备及存储介质,在接收到任务训练请求时,通过分布式锁将算力资源池进行锁定,并将训练任务添加至排队任务队列;在接收到训练任务添加成功信息时,根据预设资源算法计算出训练任务所需的算力资源;在训练任务所需的算力资源小于或等于剩余算力资源时,将所述训练任务从排队任务队列中移除;根据训练任务所需的算力资源通过训练节点对所述训练任务进行训练。
[0004]但是,在进行训练任务编排时,不仅需要关注平台资源的利用率,还需要综合考虑数据传输带来的网络负载影响和训练执行带来的计算负载影响,在充分利用计算资源的情况下,寻求高效且经济的训练任务编排方法,以达到网络负载和计算负载的双平衡。
[0005]因此,针对现有技术在网络负载和计算负载上的空缺,有必要提供一种训练任务编排方法及系统来解决上述技术问题。

技术实现思路

[0006]为解决上述技术问题,本专利技术提供的一种训练任务编排系统,部署在云计算平台上,所述云计算平台上部署有若干计算执行设备和数据存储设备;包括接收前端和编排后端,并在计算执行设备上部署任务执行模块、BMC监控模块和负载监测模块;在计算执行设备和数据存储设备上分别部署网络通信模块;其中,云计算平台通过接收前端获取用户上传的训练任务;训练任务由训练模型、训练算法和训练数据组成,编排后端为用户分配API上传接口和对应数据存储设备完成对训练数据的接收存储;训练模型和训练算法则一起部署至对应计算执行设备中,并编排计算执行设备所需完成的对应算力计算;在进行训练任务编排时,编排后端通过BMC监控模块和负载监测模块获取各计算执行设备的能耗和负载情况,并综合网络通信质量和计算能耗性价比,完成对计算执行设备的选取和对应算力的设置。
[0007]一种训练任务编排方法,运用于如上所述的一种训练任务编排系统,通过如下步骤进行训练任务编排:获取待编排训练任务的算法类型、算力需求和数据上传地址;为数据上传地址分配最速上传接口,训练数据上传并存储至接口对应数据存储设备中;各计算执行设备分别PING接口对应数据存储设备,得到各计算执行设备的通信评
分;各计算执行设备上传算法类型对应负载状态,并进行分类得到计算执行设备状态分组;对各执行设备状态分组进行组内通信评分排序,得到分组对应的组内通信优先级序列;对执行设备状态分组进行组间状态优先级排序,得到分组对应的组间状态优先级序列;将各组内通信优先级序列按照组间状态优先级序列进行排序,得到训练任务编排序列;各计算执行设备按照训练任务编排序列顺序进行算力认领,直至算力需求完全被认领;将待编排训练任务按照算力认领分割为若干子训练任务,并编排到对应计算执行设备。
[0008]作为更进一步的解决方案,通过如下步骤获取各计算执行设备的负载状态:获取待编排训练任务的算法类型;查询各类型—阈值对照表,得到各计算执行设备在当前算法类型下的判断阈值;询问各计算执行设备的当前算力负载值,并与判断阈值进行比较,得到负载状态;若当前算力负载值未超第一判断阈值,则为第一负载状态;若当前算力负载值超过第一判断阈值,未超第二判断阈值,则为第二负载状态;若当前算力负载值超过第二判断阈值,则为第三负载状态;重复上述步骤,得到各计算执行设备的负载状态。
[0009]作为更进一步的解决方案,通过如下步骤获取各计算执行设备针对不同算法类型的判断阈值:设置不同算法类型对应的训练测试任务;执行当前算法类型的训练测试任务,并记录能耗变化率曲线;通过能耗变化率曲线获取能耗下降区间、能耗稳定区间和能耗上升区间;进行当前算法类型的判断阈值获取:将能耗下降区间和能耗稳定区间之间的算力负载值设置为第一判断阈值,将能耗稳定区间和能耗上升区间之间的算力负载值设置为第二判断阈值;完成不同算法类型的判断阈值获取,并整理为当前计算执行设备的类型_阈值对照表;各计算执行设备分别执行上述步骤,得到各计算执行设备的类型_阈值对照表。
[0010]作为更进一步的解决方案,通过如下步骤获取能耗变化率曲线和各能耗区间:获取当前算法类型设置计算测试任务,并下放至子域范围内的各计算执行设备上;计算执行设备开始执行计算测试任务,并线性改变计算执行设备的算力负载情况;通过BMC监测模块记录执行计算测试任务时的单位计算能耗;通过负载监测模块记录执行计算测试任务时的算力负载情况;
将单位计算能耗和算力负载情况进行匹配,得到负载能耗曲线;对负载能耗曲线的各点进行数据平滑和求导操作,得到能耗变化率曲线;通过能耗变化率曲线划分能耗下降区间、能耗稳定区间和能耗上升区间;其中,能耗下降区间位于能耗变化率曲线负半轴,能耗稳定区间位于能耗变化率曲线零值附近,能耗上升区间位于能耗变化率曲线正半轴。
[0011]作为更进一步的解决方案,通过如下步骤进行训练任务编排序列生成/更新:各计算执行设备上传算法类型对应负载状态并进行分类,得到第一负载状态分组、第二负载状态分组和第三负载状态分组;对各执行设备状态分组进行组内通信评分由高到低排序,得到第一组内通信优先级序列、第二组内通信优先级序列和第三组内通信优先级序列;对执行设备状态分组进行组间状态优先级排序;其中,组间状态优先级序列:第一负载状态分组优先于第二负载状态分组,第二负载状态分组优先于第三负载状态分组;将各组内通信优先级序列按照组间状态优先级序列进行排序,得到训练任务编排序列;其中,训练任务编排序列:[第一组内通信优先级序列,第二组内通信优先级序列,第三组内通信优先级序列]。
[0012]作为更进一步的解决方案,各计算执行设备通过如下步骤进行算力认领:按照训练任务编排序列,询问优先级最高的计算执行设备进行算力认领:计算执行设备获取达到下一负载状态的算力负载裕度,并与未认领算力需求进行比较;若算力负载裕度小于未认领算力需求,则认领算力负载裕度;若算力负载裕度不小于未认领算力需求,则认领未认领算力需求;更新训练任务编排序列和未认领算力需求,若仍存在未认领算力需求,则按照更新后的训练任务编排序列,询问优先级最高的计算执行设备进行算力认领,直至算力需求均被认领。
[0013]作为更进一步的解决方案,当优先级最高的计算执行设备为第三负载状态时,则暂停训练任务编排,直至负载状态回落至第一负载状态或第二负载状态。
[0014]与相关技术相比较,本专利技术提供的一种训练任务编排方法及系统具有如下有益效果:本专利技术通过设置BMC监控模块和负载监测模块实现对计算执行设备负载监测和能耗监测,并综合网络通信质量和计算能耗性价比,完成对计算执行设备的选取和对应算力的设置,以达到网络负载和计算负载的双平衡;在获取数据上传地址后,便能为其分配最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练任务编排系统,部署在云计算平台上,所述云计算平台上部署有若干计算执行设备和数据存储设备;其特征在于,包括接收前端和编排后端,并在计算执行设备上部署任务执行模块、BMC监控模块和负载监测模块;在计算执行设备和数据存储设备上分别部署网络通信模块;其中,云计算平台通过接收前端获取用户上传的训练任务;训练任务由训练模型、训练算法和训练数据组成,编排后端为用户分配API上传接口和对应数据存储设备完成对训练数据的接收存储;训练模型和训练算法则一起部署至对应计算执行设备中,并编排计算执行设备所需完成的对应算力计算;在进行训练任务编排时,编排后端通过BMC监控模块和负载监测模块获取各计算执行设备的能耗和负载情况,并综合网络通信质量和计算能耗性价比,完成对计算执行设备的选取和对应算力的设置。2.一种训练任务编排方法,运用于如权利要求1所述的一种训练任务编排系统,其特征在于,通过如下步骤进行训练任务编排:获取待编排训练任务的算法类型、算力需求和数据上传地址;为数据上传地址分配最速上传接口,训练数据上传并存储至接口对应数据存储设备中;各计算执行设备分别PING接口对应数据存储设备,得到各计算执行设备的通信评分;各计算执行设备上传算法类型对应负载状态,并进行分类得到计算执行设备状态分组;对各执行设备状态分组进行组内通信评分排序,得到分组对应的组内通信优先级序列;对执行设备状态分组进行组间状态优先级排序,得到分组对应的组间状态优先级序列;将各组内通信优先级序列按照组间状态优先级序列进行排序,得到训练任务编排序列;各计算执行设备按照训练任务编排序列顺序进行算力认领,直至算力需求完全被认领;将待编排训练任务按照算力认领分割为若干子训练任务,并编排到对应计算执行设备。3.根据权利要求2所述的一种训练任务编排方法,其特征在于,通过如下步骤获取各计算执行设备的负载状态:获取待编排训练任务的算法类型;查询各类型—阈值对照表,得到各计算执行设备在当前算法类型下的判断阈值;询问各计算执行设备的当前算力负载值,并与判断阈值进行比较,得到负载状态;若当前算力负载值未超第一判断阈值,则为第一负载状态;若当前算力负载值超过第一判断阈值,未超第二判断阈值,则为第二负载状态;若当前算力负载值超过第二判断阈值,则为第三负载状态;重复上述步骤,得到各计算执行设备的负载状态。4.根据权利要求3所述的一种训练任务编排方法,其特征在于,通过如下步骤获取各计
算执行设备针对不同算法类型的判断阈值:设置不同算法类型对应的训练测试任务;执行当前算法类型的训练测试任务,并记录能耗变化率曲线;通过能耗变化率曲线获取能耗下降区间、能耗稳定区间和能耗上升区间;进行当前算法类型的判断阈值获取:将能耗下降...

【专利技术属性】
技术研发人员:吕超星丁鹏吴清忠
申请(专利权)人:北京万界数据科技有限责任公司武汉分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1