一种针对训练任务扩容资源不兼容的回滚方法及装置制造方法及图纸

技术编号:24573198 阅读:39 留言:0更新日期:2020-06-21 00:01
本发明专利技术提供了一种针对训练任务扩容资源不兼容的回滚方法及装置,所述的方法包括:提交训练任务脚本时,设置一个位置标签;建立pod,执行训练任务;当进行资源扩容后,判断扩容资源是否兼容,若否,进入下一环节;删除扩容资源,新建一个pod;从位置标签处再次加载并执行训练任务。所述的装置包括:第一设置模块,用于在提交训练任务脚本时设置一个位置标签;第一判断模块,用于判断扩容资源是否兼容,若否,转入回滚模块;回滚模块,用于从位置标签处再次加载训练任务。本申请在发生扩容资源不兼容时,能够自动完成训练任务的自动回滚,大大提高了训练效率。

A rollback method and device for incompatible resource expansion of training task

【技术实现步骤摘要】
一种针对训练任务扩容资源不兼容的回滚方法及装置
本专利技术涉及通信
,特别是涉及一种针对训练任务扩容资源不兼容的回滚方法及装置。
技术介绍
深度学习是机器学习领域中一个新的研究方向,在日常的深度学习中,将有大量的训练任务需要提交进行比较计算,通过结论推测结果。我们会通过模板等方式提交训练任务,当任务运行过程中,如果遇到因为资源不足导致运行错误或者运行缓慢,那么就会通过自动扩容来补充训练任务的资源。自动扩容执行过程中,后台会根据GPU、CPU、内存、存储的利用率温度等使用情况来判断,是否需要更多的资源,当任务需要更多的资源,且GPU、CPU、内存、存储此刻资源空闲状态,系统会自动将资源根据现有资源匹配给训练任务。如果是多种GPU类型可运行一个训练任务多个副本,但当单个pod扩容资源时,由于扩容的资源类型不同,可能会导致无法兼容而引发训练任务报错,导致训练任务中断。现有的深度学习过程中,如果遇到上述情况,需要人工重新建立并启动训练任务,耗时耗力,大大降低了训练的效率。
技术实现思路
本专利技术实施例中提供了本文档来自技高网...

【技术保护点】
1.一种针对训练任务扩容资源不兼容的回滚方法,其特征在于,所述的方法包括:/n提交训练任务脚本时,设置一个位置标签;/n建立pod,执行训练任务;/n当进行资源扩容后,判断扩容资源是否兼容,若否,进入下一环节;/n删除扩容资源,新建一个pod;/n从位置标签处再次加载并执行训练任务。/n

【技术特征摘要】
1.一种针对训练任务扩容资源不兼容的回滚方法,其特征在于,所述的方法包括:
提交训练任务脚本时,设置一个位置标签;
建立pod,执行训练任务;
当进行资源扩容后,判断扩容资源是否兼容,若否,进入下一环节;
删除扩容资源,新建一个pod;
从位置标签处再次加载并执行训练任务。


2.根据权利要求1所述的一种针对训练任务扩容资源不兼容的回滚方法,其特征在于,在训练任务首次创建时,同步设置一个标志位,当再次加载该训练任务时,若检测到该标志位状态发生变化,则该训练任务不允许执行资源扩容操作。


3.根据权利要求2所述的一种针对训练任务扩容资源不兼容的回滚方法,其特征在于,检测标志位状态发生变化的具体方法为:当发生扩容操作时,底层判断资源数是否发生变动,若发生变动,则修改标志位状态,否则不修改标志位状态。


4.根据权利要求2所述的一种针对训练任务扩容资源不兼容的回滚方法,其特征在于,当重建的训练任务运行达到高峰时,若标志位状态已经发生变化,则仍然不执行扩容操作,直至扩容不兼容的错误原因消除为止。


5.根据权利要...

【专利技术属性】
技术研发人员:马磊
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1