一种面向深度学习的作业资源自动弹性伸缩方法技术

技术编号：34332906 阅读：23 留言：0更新日期：2022-07-31 02:25

本发明专利技术公开了一种面向深度学习的作业资源自动弹性伸缩方法，包括如下步骤：用户通过系统接口提交深度学习作业和作业描述文件；根据同类型作业的历史执行数据，建立作业资源预测模型；使用该模型预测作业的初始资源量，启动相应数量的实例；对每一个作业实例，基于主机资源负载、集群拓扑、用户偏好以及GPU设备的分布进行调度；每一轮深度学习训练迭代完成后，判断作业能否按预期时间完成；根据作业当前执行速度，计算作业资源弹性伸缩系数；进行作业实例数的自动调整。本发明专利技术可解决现有弹性伸缩方法在深度学习场景下资源利用率低、GPU设备分配依赖人工的问题。设备分配依赖人工的问题。设备分配依赖人工的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向深度学习的作业资源自动弹性伸缩方法

[0001]本专利技术涉及作业资源弹性伸缩
，尤其是一种面向深度学习的作业资源自动弹性伸缩方法。

技术介绍

[0002]近年来，随着深度学习算法理论与技术的革新，深度学习技术得到了快速发展和普及应用。深度学习主要用于对数据进行表征学习，学习过程以训练参数更多的深层神经网络为基础架构，相比普通神经网络，能完成更复杂的学习任务，因此在计算机视觉、语音识别、自然语言处理等领域都得到了广泛运用。
[0003]深度学习程序对计算、存储资源需求较大，且其中图形处理器(Graphics Processing Unit，GPU)资源售价昂贵。而云服务商提供了按需付费的服务模式，为用户提供动态可伸缩的计算、存储资源，还提供按月、日、小时等多样的租赁模式和多样的资源规模。
[0004]因此，为降低使用成本，越来越多用户借助容器及其云编排技术对资源进行高效动态的共享使用。
[0005]基于上述背景，现有研究人员提出了许多支持在线伸缩的深度学习框架。基于此类框架开发的深度学习...

【技术保护点】

【技术特征摘要】
1.一种面向深度学习的作业资源自动弹性伸缩方法，包括以下步骤：(1)用户通过系统接口提交深度学习作业和一份作业描述文件，所述深度学习作业包括需要执行的深度学习程序，作为步骤(2)的输入；所述作业描述文件包括作业的启动参数和用户期望的作业完成时间，作为步骤(3)的输入；(2)根据用户提交的深度学习作业，找到同类型作业的历史执行数据，从历史执行数据中提取作业启动参数、作业资源使用情况以及作业完成情况，建立作业资源的预测模型，并将所述预测模型传入步骤(3)；(3)根据用户当前提交作业的启动参数和期望的作业完成时间，使用预测模型估算作业需要的初始资源量，以及需要为作业启动的实例数；将资源均分给所有实例，并将所有实例作为需要调度的实例传入步骤(4)；(4)对于需要调度的每个实例，基于集群中主机的资源负载、集群总体的拓扑结构、用户偏好以及GPU设备的分布进行调度，依次将实例分发到合适的主机上；(5)作业每一轮深度学习训练迭代结束后，根据作业的当前执行速度，估算作业的预期完成时间；如果所述预期完成时间相比用户期望的作业完成时间误差超过了系统允许的偏差系数，则进入步骤(6)，否则等待下一次迭代完成；(6)作业弹性伸缩：根据作业当前耗时和用户期望的作业完成时间，计算得到用户期望的作业执行速度，再结合作业当前的执行速度，计算得到作业资源的弹性伸缩系数，将所述弹性伸缩系数作为结果传入步骤(7)；(7)根据弹性伸缩系数调整作业资源，创建相应数量的实例或停止相应数量的实例；更新完成后，重复执行步骤(4)至(7)，直到作业最终完成。2.根据权利要求1所述一种面向深度学习的作业资源自动弹性伸缩方法，其特征在于：所述步骤(2)中，所述预测模型是随机森林模型，预测模型的输入特征分为两个部分，第一部分是用户作业的启动参数，从所述作业描述文件中提取或由系统自动补全；第...

【专利技术属性】
技术研发人员：顾荣，仇伶玮，袁春风，黄宜华，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人