用于模型训练的数据处理方法、装置、计算设备制造方法及图纸

技术编号：44339945 阅读：9 留言：0更新日期：2025-02-18 20:51

本申请公开了一种用于模型训练的数据处理方法、装置、计算设备以及存储介质，属于人工智能技术领域。本方法在数据处理过程中，基于模型的模型参数信息，建立显存预测模型，根据模型参数信息以及模型训练所用的显卡的可用显存空间大小，获取目标批大小区间，再基于目标批大小区间、显存预测模型及模型参数信息，获取目标批大小及对应的数据处理方案，从而按照目标批大小及对应的数据处理方案对模型训练过程中的数据进行处理，实现对模型训练进行加速的目的，解决模型训练过程中显存受限以及显卡利用率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别涉及一种用于模型训练的数据处理方法、装置、计算设备以及存储介质。

技术介绍

1、深度神经网络(deep neural network，dnn)模型常被用于处理复杂的图像识别、目标检测以及自然语言处理等任务。随着任务的复杂程度不断提高，研究人员提出更深的模型以提取数据的深层特征，需要节约显存空间以提升模型训练的速度。

2、目前，一种在进行模型训练时的节约显存空间的方法是基于重计算技术来进行数据处理。重计算技术是指，将训练过程中暂时用不到的数据从显存中删除，在下次用到这些被删除的数据前，根据保存的输入数据重新计算，来恢复这些数据。通过使用上述的数据处理方法，可以节约显存空间，节约显存空间带来的加速效果有可能覆盖掉重计算消耗的时间。

3、上述数据处理方法能节约的显存空间有限，阻碍了模型训练的进一步加速。

技术实现思路

1、本申请实施例提供了一种用于模型训练的数据处理方法、装置和计算设备以及存储介质，能够实现模型的快速训练。该技术方案如下。

2、第一方面，提供了一种用于模型训练的数据处理方法，该方法包括：基于待训练的dnn模型的模型参数信息，建立显存预测模型，该模型参数信息用于描述该dnn模型的参数，该显存预测模型用于预测在不同批大小下对该dnn模型进行训练所占用的显存空间大小；基于该模型参数信息以及显卡的可用显存空间大小，获取目标批大小区间；基于该目标批大小区间、该显存预测模型及该模型参数信息，获取目标批大小及对应的数据处理方案

3、本申请实施例提供一种用于模型训练的数据处理方法，该数据处理方法能够实现对模型训练进行加速的目的，在数据处理过程中，基于模型的模型参数信息，建立显存预测模型，根据模型参数信息以及模型训练所用的显卡的可用显存空间大小，获取目标批大小区间，再基于目标批大小区间、显存预测模型及模型参数信息，获取目标批大小及对应的数据处理方案，从而按照目标批大小及对应的数据处理方案对模型训练过程中的数据进行处理，解决了模型训练过程中显存受限以及显卡利用率低的问题。

4、在一些实施例中，基于待训练的dnn模型的模型参数信息，建立显存预测模型包括：基于该dnn模型，获取模型参数信息，该模型参数信息指示该dnn模型的模型参数的数据量；基于该模型参数信息，确定该dnn模型各层的显存占用量，该dnn模型各层的显存占用量包括该dnn模型的每个层的模型参数的数据量以及输出数据的数据量；基于该dnn模型各层的显存占用量，建立显存预测模型。

5、在上述过程中，通过采集模型参数信息和gpu的显存信息，可以保证模型训练中对显存的使用能够更加高效。

6、在一些实施例中，基于该模型参数信息以及显卡的可用显存空间大小，获取目标批大小区间包括：

7、基于该dnn模型各层的显存占用量，获取最大重计算节约量，该最大重计算节约量表示批大小为1时重计算可节约的最大显存量；

8、基于该dnn模型的模型参数信息、显卡的可用显存空间大小和最大重计算节约量，获取目标批大小区间的下界；

9、基于该dnn模型各层的显存占用量，获取最大卸载检查点节约量，该最大卸载检查点节约量表示批大小为1时卸载检查点可节约的最大显存量；

10、基于该dnn模型的模型参数信息、显卡的可用显存空间大小、最大重计算节约量和最大卸载节约量，获取目标批大小区间的上界。

11、在一些实施例中，基于该目标批大小区间、显存预测模型及模型参数信息，获取目标批大小及对应的数据处理方案包括：

12、基于显存预测模型，获取目标批区间内的每个批大小对应的理论显存占用量；

13、对于每个批大小，若该批大小对应的理论显存占用量小于或等于可用显存空间大小，将预设数据处理方案确定为该批大小对应的数据处理方案；

14、若该批大小对应的理论显存占用量大于可用显存空间大小，基于目标显存节约量以及该dnn模型各层的显存占用量，生成该批大小对应的满足目标显存节约量的数据处理方案；

15、基于多个批大小对应的数据处理方案的训练吞吐率，确定目标批大小及对应的数据处理方案。

16、在上述过程中，在生成数据处理方案之前，会对当前显卡是否能够满足训练需求进行判断，也即是，识别出显存不受限和受限的场景，而在确定能够满足训练需求时，就不会进行数据处理方案的生成，能够提高获取数据处理方案的效率，避免对显存不受限的场景进行额外的数据处理方案的获取，提升了显存的利用率。

17、在一些实施例中，基于该目标显存节约量以及该dnn模型各层的显存占用量，生成该批大小对应的满足目标显存节约量的数据处理方案包括：

18、基于该理论显存占用量和可用显存空间大小，获取目标显存节约量，该目标显存节约量指示对该dnn模型进行训练应节约的显存量；

19、基于该dnn模型各层的显存占用量，获取该dnn模型的模型块序列，该模型块序列包括计算强度从低到高排序的多个模型块，该计算强度基于模型参数信息得到；

20、基于该模型块序列以及该dnn模型各层的显存占用量，获取节约量满足该目标显存节约量的数据处理方案；

21、若存在满足该目标显存节约量的数据处理方案，则将该数据处理方案输出为该批大小对应的数据处理方案。

22、在一些实施例中，基于模型块序列以及该dnn模型各层的显存占用量，获取节约量满足目标显存节约量的数据处理方案包括：

23、基于模型块序列，获取该批大小的重计算方案，该重计算方案指示模型训练过程中待进行重计算的模型块；

24、若该重计算方案所对应的理论重计算节约量大于或等于目标显存节约量，将该重计算方案确定为满足目标显存节约量的数据处理方案；

25、若该重计算方案所对应的理论重计算节约量小于目标显存节约量，为该批大小生成卸载检查点方案，该卸载检查点方案指示模型训练过程中待进行卸载的检查点数据；

26、若该卸载检查点方案的理论卸载节约量大于或等于最小卸载数据量，将该卸载检查点方案和该重计算方案确定为该批大小的数据处理方案。

27、在上述过程中，重计算方法实现了高效准确的重计算算子选择策略，所得到的重计算算子集合，也即是重计算方案中的各个模型块，能够最小化重计算带来的时间开销，也即最小化重计算数据处理方案的时间开销。在获取完重计算方案后，还进行了是否需要生成卸载检查点方案的判断，当需要生成卸载检查点方案时，会计算得到能够最大程度上满足目标显存节约量的待卸载检查点数据的集合，以最小化卸载检查点带来的时间开销，也即最小化卸载检查点的数据处理方案的时间开销。

28、在一些实施例中，为该批大小生成目标卸载检查点方案包括：

29、获取该本文档来自技高网...

【技术保护点】

1.一种用于模型训练的数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于待训练的DNN模型的模型参数信息，建立显存预测模型包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述模型参数信息以及显卡的可用显存空间大小，获取目标批大小区间包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于所述目标批大小区间、所述显存预测模型及所述模型参数信息，获取目标批大小及对应的数据处理方案包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标显存节约量以及所述DNN模型各层的显存占用量，生成所述批大小对应的满足目标显存节约量的数据处理方案包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述模型块序列以及所述DNN模型各层的显存占用量，获取节约量满足所述目标显存节约量的数据处理方案包括：

7.根据权利要求6所述的方法，其特征在于，所述为所述批大小生成目标卸载检查点方案包括：

8.根据权利要求4至7任一项所述的方法，其特征在于

9.一种用于模型训练的数据处理装置，其特征在于，所述装置包括：

10.一种计算设备，其特征在于，所述计算设备包括处理器，所述处理器用于执行程序代码，使得所述计算设备执行如权利要求1至权利要求8中任一项所述的方法。

11.一种计算设备集群，其特征在于，包括多个计算设备，包括处理器，所述处理器用于执行程序代码，使得所述计算设备集群执行如权利要求1至权利要求8中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器读取以使计算设备执行如权利要求1至权利要求8中任一项所述的方法。

...

【技术特征摘要】

1.一种用于模型训练的数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于待训练的dnn模型的模型参数信息，建立显存预测模型包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述模型参数信息以及显卡的可用显存空间大小，获取目标批大小区间包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标显存节约量以及所述dnn模型各层的显存占用量，生成所述批大小对应的满足目标显存节约量的数据处理方案包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述模型块序列以及所述dnn模型各层的显存占用量，获取节约量满足所述目标显存节约量的数据处理方案包括：

...

【专利技术属性】
技术研发人员：惠龙朔，刘松，张兴军，朱欢，陈安伟，李斌杰，王小辉，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人