动态资源调整与迁移的深度学习训练系统及方法技术方案

技术编号：26650428 阅读：49 留言：0更新日期：2020-12-09 00:45

本发明专利技术提供一种动态资源调整与迁移的深度学习训练方法，所述方法包括如下步骤：S1：调整机群中作业的资源配比，对机群整体的计算效率进行量化，寻找能使整体计算效率达到最大的作业资源配比；所述机群整体的计算效率进行量化，采用如下方法确定：

全部详细技术资料下载

【技术实现步骤摘要】
动态资源调整与迁移的深度学习训练系统及方法
本专利技术涉及云计算资源调度
，尤其涉及一种动态资源调整与迁移的深度学习训练系统及方法。
技术介绍
深度学习训练作业是一种计算密集型任务，通常需要使用大量的GPU资源进行并行运算以加快作业的完成时间。对于已存在的深度学习框架如Tensorflow、MXNet、PyTorch等都是采用静态资源分配的方式，而静态资源分配往往一方面会导致资源的浪费另一方面也会造成作业运行效率不高。当有作业失败或采用抢占式调度器情景时都会面临作业重调度的问题，对于重调度的作业会出现以下两个问题：(1)空闲资源或可抢占资源无法满足出错重调度作业的资源需求数量时，重调度作业出现长时间排队，影响作业平均JCT性能。(2)重调度作业排队过程中，空闲的碎片计算资源因被闲置，而降低计算资源的利用率。通过动态资源扩缩，一方面计算出重调度作业的最佳资源数量、另一方面对正在运行的作业进行动态扩缩与作业迁移使得重调度的作业满足运行需求并保证资源的利用率与作业的运行效率。因此，亟需一种基于重调度动态资源扩缩算法的...

【技术保护点】
1.一种动态资源调整与迁移的深度学习训练方法，其特征在于：所述方法包括如下步骤：/nS1：调整机群中作业的资源配比，对机群整体的计算效率进行量化，寻找能使整体计算效率达到最大的作业资源配比；/n所述机群整体的计算效率进行量化，采用如下方法确定：/n

【技术特征摘要】
20200714 CN 20201067683011.一种动态资源调整与迁移的深度学习训练方法，其特征在于：所述方法包括如下步骤：
S1：调整机群中作业的资源配比，对机群整体的计算效率进行量化，寻找能使整体计算效率达到最大的作业资源配比；
所述机群整体的计算效率进行量化，采用如下方法确定：

其中，P表示机群整体的计算效率，J表示当前集群中作业的总数，Ei(Wi)表示作业i的在使用资源Wi下的扩缩效率，Wi表示当前作业所使用的工作单元数量；
S2：获取机群中所有作业的模型特征；
S3：根据步骤S2的模型特征，对步骤S1调整后的作业资源进行迁移。

2.根据权利要求1所述动态资源调整与迁移的深度学习训练方法，其特征在于：所述方法还包括：在动态资源调整的同时，通过主动保存检查点机制获取并报出在作业迭代测试之后的训练的参数。

3.根据权利要求2所述动态资源调整与迁移的深度学习训练方法，其特征在于：步骤S1具体包括如下步骤：
S11：定义预设的资源调整粒度S，设机群中的作业集合[M1、M2、...MJ]，其中，J集群中作业的总数，令N＝(1…J)；
当一个新作业到达机群中时，首先检查是否存在此作业对应的计算效率，若是，则直接计算机群整体计算效率；若否，进入下一步；
S12：从机群中的作业集合中依次取出作业MN进行Wi-1规模的缩容，同时，判断可利用的资源是否大于等于S，若是，对新作业同步进行Wi-1规模的扩容，其中Wi表示当前作业所使用的worker数量，若否，则结束对新作业的扩容；
S13：判断作业MN的缩容是否大于S，若是，判断N是...

【专利技术属性】
技术研发人员：谭光明，马立贤，邵恩，张春明，段勃，
申请(专利权)人：中科院计算所西部高等技术研究院，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人