基于强化学习的跨域云平台神经网络训练任务调度方法技术

技术编号：42566034 阅读：13 留言：0更新日期：2024-08-29 00:34

本发明专利技术公开了一种基于强化学习的跨域云平台神经网络训练任务调度方法，该方法首先实时获取用户提交的神经网络训练任务并收集训练信息，然后进行计算量预估和进行模型的训练时间的预测，然后根据预测所得的训练时间来强化学习训练获得调度方案，并基于调度方案对用户提交的神经网络训练任务进行调度分配至对应云平台。本发明专利技术能有效地降低大部分任务的平均完成时间，以及提高集群资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机科学人工智能和云计算领域，尤其涉及一种基于强化学习的跨域云平台神经网络训练任务调度方法。

技术介绍

1、随着人工智能云计算技术的不断发展，越来越多的企业和组织开始将他们的ai应用程序迁移到云端。然而，由于不同云平台之间的差异和限制，跨云平台ai应用程序调度变得越来越重要。

2、在传统的本地部署环境中，企业可以选择使用单个云平台(如aws、azure、googlecloud等)来运行和管理他们的ai应用程序。这种方法可以提供更高的灵活性和可扩展性，但也存在一些限制，例如：

3、1.单一云平台的资源利用率可能不够高，导致成本过高。

4、2.不同云平台之间的数据传输和同步可能会带来额外的时间和成本开销。

5、3.当需要在多个云平台上部署相同的应用程序时，需要手动进行重复的工作。

6、为了解决这些问题，跨云平台ai应用程序调度应运而生。跨云平台ai应用程序调度是指在一个统一的管理平台上管理和调度多个云平台上的ai应用程序。通过跨云平台ai应用程序调度，企业可以更好地...

【技术保护点】

1.一种基于强化学习的跨域云平台神经网络训练任务调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤一中，还包括：将实时获取的用户提交的神经网络训练任务构建成任务队列。

3.根据权利要求1所述的方法，其特征在于，所述步骤三中，浮点数计算总数FLOAPS通过如下公式计算获取：

4.根据权利要求1所述的方法，其特征在于，所述步骤四中，采用启发式或者经验法预测需要的GPU数目。

5.根据权利要求1所述的方法，其特征在于，所述步骤五中，训练时间预估方法具体如下：使用用户提交的神经网络训练任务中的模型及参数进行若干...

【技术特征摘要】

1.一种基于强化学习的跨域云平台神经网络训练任务调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤一中，还包括：将实时获取的用户提交的神经网络训练任务构建成任务队列。

3.根据权利要求1所述的方法，其特征在于，所述步骤三中，浮点数计算总数floaps通过如下公式计算获取：

4.根据权利要求1所述的方法，其特征在于，所述步骤四中，采用启发式或者经验法预测需要的gpu数目。

5.根据权利要求1所述的方法，其特征在于，所述步骤五中，训练时间预估方法具体如下：使用用户提交的神经网络训练任务中的模型及参数进行若干个训练周期的预训练，收集除第一个训练周期以外其他训练周期需要的时间计算平均值，在将平均值乘以提取的训练信息中的训练周期数，...

【专利技术属性】
技术研发人员：何水兵，常子汉，王文涛，汪睿，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人