一种基于云平台的深度学习并行调度方法、装置和云平台制造方法及图纸

技术编号：40638477 阅读：24 留言：0更新日期：2024-03-13 21:21

本发明专利技术提供了一种基于云平台的深度学习并行调度方法、装置和云平台，本发明专利技术的方法通过对显存不满足模型内存要求的GPU进行重新组合，能够有效合理调度显存大小不同和计算性能不同的云服务器，充分调度云平台中服务器的计算能力，有效提高了云平台中服务器的计算能力利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及云计算调度，具体来说，涉及一种基于云平台的深度学习并行调度方法、装置和云平台。

技术介绍

1、大规模深度学习训练是指利用多个计算设备（如gpu或cpu）来加速深度学习模型训练的技术。大规模深度学习训练可以应用于各种复杂的深度学习任务，如自然语言处理、计算机视觉、推荐系统等。大规模深度学习训练的目标是提高训练速度，减少训练时间，同时保证模型的性能和效果。大规模深度学习训练的作用、用途和重要性包括提升模型精度、降低数据标注成本、提高开发效率。大规模深度学习训练需要将大模型进行切割分配到多个gpu中，需要将训练数据分配到多个gpu中，达到加速的目的。

2、大规模深度学习训练是目前算力需求最大的应用之一，因此通过在云平台上来提升大规模深度训练的计算速度是有必要的，但是云平台中是由各种不同类型的服务器组成，即云平台中不同种类的云服务器对大规模深度学习的训练能力是完全不同的，通常与云服务器中配备的gpu型号相关，不同型号的gpu在显存大小和计算能力上都有很大的差异。显存较小的可能不能完全容纳模型，需要多个gpu进行共同存储...

【技术保护点】

1.一种基于云平台的深度学习并行调度方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S2具体为：

3.根据权利要求2所述的方法，其特征在于，所述步骤S3具体为：将第一型号数组GPU_class_id1[]中GPU显存通过大小结合的原则重新组合后与训练模型的内存大小比较进行分组，得到GPU组合数组GPU_grp_class_id[]；根据GPU组合数组GPU_grp_class_id[]中每个GPU组合中GPU显存大小对所述训练模型进行切割分配。

4.根据权利要求3所述的方法，其特征在于，所述步骤S3具体包括以下步骤：...

【技术特征摘要】

1.一种基于云平台的深度学习并行调度方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤s2具体为：

3.根据权利要求2所述的方法，其特征在于，所述步骤s3具体为：将第一型号数组gpu_class_id1[]中gpu显存通过大小结合的原则重新组合后与训练模型的内存大小比较进行分组，得到gpu组合数组gpu_grp_class_id[]；根据gpu组合数组gpu_grp_class_id[]中每个gpu组合中gpu显存大小对所述训练模型进行切割分配。

4.根据权利要求3所述的方法，其...

【专利技术属性】
技术研发人员：邓正秋，杨易，
申请(专利权)人：湖南马栏山视频先进技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人