用于模型训练的数据处理方法、装置、计算设备制造方法及图纸

技术编号:44339945 阅读:24 留言:0更新日期:2025-02-18 20:51
本申请公开了一种用于模型训练的数据处理方法、装置、计算设备以及存储介质,属于人工智能技术领域。本方法在数据处理过程中,基于模型的模型参数信息,建立显存预测模型,根据模型参数信息以及模型训练所用的显卡的可用显存空间大小,获取目标批大小区间,再基于目标批大小区间、显存预测模型及模型参数信息,获取目标批大小及对应的数据处理方案,从而按照目标批大小及对应的数据处理方案对模型训练过程中的数据进行处理,实现对模型训练进行加速的目的,解决模型训练过程中显存受限以及显卡利用率低的问题。

【技术实现步骤摘要】

本申请涉及人工智能,特别涉及一种用于模型训练的数据处理方法、装置、计算设备以及存储介质。


技术介绍

1、深度神经网络(deep neural network,dnn)模型常被用于处理复杂的图像识别、目标检测以及自然语言处理等任务。随着任务的复杂程度不断提高,研究人员提出更深的模型以提取数据的深层特征,需要节约显存空间以提升模型训练的速度。

2、目前,一种在进行模型训练时的节约显存空间的方法是基于重计算技术来进行数据处理。重计算技术是指,将训练过程中暂时用不到的数据从显存中删除,在下次用到这些被删除的数据前,根据保存的输入数据重新计算,来恢复这些数据。通过使用上述的数据处理方法,可以节约显存空间,节约显存空间带来的加速效果有可能覆盖掉重计算消耗的时间。

3、上述数据处理方法能节约的显存空间有限,阻碍了模型训练的进一步加速。


技术实现思路

1、本申请实施例提供了一种用于模型训练的数据处理方法、装置和计算设备以及存储介质,能够实现模型的快速训练。该技术方案如下。

<p>2、第一方面,提本文档来自技高网...

【技术保护点】

1.一种用于模型训练的数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于待训练的DNN模型的模型参数信息,建立显存预测模型包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述模型参数信息以及显卡的可用显存空间大小,获取目标批大小区间包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述目标批大小区间、所述显存预测模型及所述模型参数信息,获取目标批大小及对应的数据处理方案包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述目标显存节约量以及所述DNN模型各层的...

【技术特征摘要】

1.一种用于模型训练的数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于待训练的dnn模型的模型参数信息,建立显存预测模型包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述模型参数信息以及显卡的可用显存空间大小,获取目标批大小区间包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述目标批大小区间、所述显存预测模型及所述模型参数信息,获取目标批大小及对应的数据处理方案包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述目标显存节约量以及所述dnn模型各层的显存占用量,生成所述批大小对应的满足目标显存节约量的数据处理方案包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述模型块序列以及所述dnn模型各层的显存占用量,获取节约量满足所述目标显存节约量的数据处理方案包括:

...

【专利技术属性】
技术研发人员:惠龙朔刘松张兴军朱欢陈安伟李斌杰王小辉
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1