深度学习训练任务的管理方法及管理装置制造方法及图纸

技术编号：27741102 阅读：21 留言：0更新日期：2021-03-19 13:34

本申请公开了一种深度学习训练任务的管理方法及管理装置，该深度学习训练任务的管理方法包括：确定第一深度学习训练任务所在第一任务队列的资源使用信息；基于第一任务队列的资源使用信息，调整第一任务队列对应的第一计算机集群的资源容量；控制调整资源容量后的第一计算机集群执行第一深度学习训练任务。本申请的技术方案通过对第一任务队列对应的第一计算机集群的资源容量进行调整，并利用调整资源容量后的第一计算机集群执行第一任务队列中的第一深度学习训练任务，从而可以从整体上提高资源的利用率，避免出现资源闲置以及资源紧张的问题，进而降低深度学习训练任务的训练成本。

全部详细技术资料下载

【技术实现步骤摘要】
深度学习训练任务的管理方法及管理装置
本专利技术涉及计算机
，具体涉及一种深度学习训练任务的管理方法及管理装置。
技术介绍
在深度学习
，深度学习模型的训练过程是必不可少的。深度学习模型的训练过程可以看成深度学习训练任务。深度学习训练任务的管理系统可以对多个深度学习训练任务的训练过程进行管理，使得多个深度学习训练任务按照顺序进行训练。但是现有的深度学习训练任务的管理系统对资源的利用率低，导致训练效率低下、训练成本高。
技术实现思路
为了解决上述技术问题，本申请的实施例提供了一种深度学习训练任务的管理方法及管理装置。根据本申请的一个方面，提供了一种深度学习训练任务的管理方法，包括：确定第一深度学习训练任务所在第一任务队列的资源使用信息；基于第一任务队列的资源使用信息，调整第一任务队列对应的第一计算机集群的资源容量；控制调整资源容量后的第一计算机集群执行第一深度学习训练任务。根据本申请的另一个方面，提供了一种深度学习训练任务的管理装置，包括：确定模块，用于确定第一深度学习训练任务所...

【技术保护点】
1.一种深度学习训练任务的管理方法，包括：/n确定第一深度学习训练任务所在第一任务队列的资源使用信息；/n基于所述第一任务队列的资源使用信息，调整所述第一任务队列对应的第一计算机集群的资源容量；/n控制调整资源容量后的第一计算机集群执行所述第一深度学习训练任务。/n

【技术特征摘要】
1.一种深度学习训练任务的管理方法，包括：
确定第一深度学习训练任务所在第一任务队列的资源使用信息；
基于所述第一任务队列的资源使用信息，调整所述第一任务队列对应的第一计算机集群的资源容量；
控制调整资源容量后的第一计算机集群执行所述第一深度学习训练任务。

2.根据权利要求1所述的管理方法，其中，
所述基于所述第一任务队列的资源使用信息，调整所述第一任务队列对应的第一计算机集群的资源容量，包括：
确定所述第一任务队列的资源使用信息中所包括的所述第一任务队列中的深度学习训练任务的平均等待时间；
基于所述第一任务队列中的深度学习训练任务的平均等待时间与第二任务队列中的深度学习训练任务的平均等待时间，将所述第二任务队列对应的第二计算机集群的部分资源或全部资源的标签由所述第二计算机集群修改成所述第一计算机集群。

3.根据权利要求2所述的管理方法，其中，在所述将所述第二任务队列对应的第二计算机集群的部分资源或全部资源的标签由所述第二计算机集群修改成所述第一计算机集群之后，还包括：基于所述第二任务队列中的深度学习训练任务的平均等待时间，将所述部分资源或全部资源的标签由所述第一计算机集群修改成所述第二计算机集群。

4.根据权利要求1所述的管理方法，还包括：
基于第一预设打分策略确定所述第一深度学习训练任务的分值；
基于所述第一深度学习训练任务的分值确定所述第一深度学习训练任务在所述第一任务队列中的执行顺序；
基于所述执行顺序，执行所述控制调整资源容量后的第一计算机集群执行所述第一深度学习训练任务的步骤。

5.根据权利要求4所述的管理方法，还包括：
基于第二预设打分策略确定第二任务队列中的第二深度学习训练任务的分值；
基于所述第二深度学习训练任务的分值确定所述第二深度学习训练任务在所述第二任务队列中的执行顺序，...

【专利技术属性】
技术研发人员：赵明，韩来鹏，陈阳雪，柳笛，杜艳冰，
申请(专利权)人：北京地平线信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人