一种模型训练方法、采样策略确定方法、装置及计算设备制造方法及图纸

技术编号：40703770 阅读：4 留言：0更新日期：2024-03-22 11:02

一种模型训练方法，包括：获取第一采样策略，第一采样策略中包括N个训练阶段中每个训练阶段所需数据的分辨率，且第(i‑1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率，第一采样策略基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到；利用N个训练阶段中各个训练阶段所需的数据的分辨率，分别对第二数据集进行处理，以得到N个数据集；按照分辨率由小到大的顺序，依次利用N个数据集所包含的数据对第二模型进行训练。这样，先使用低分辨率的数据再逐渐引入高分辨率的数据对模型进行训练，且每个训练阶段均是采用的全部的数据，提升了模型训练的精准度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能(artificial intelligence，ai)，尤其涉及一种模型训练方法、采样策略确定方法、装置及计算设备。

技术介绍

1、近年来，在深度学习背景下，数据集的规模和深度神经网络模型的尺寸呈迅速增长的趋势。这一现象带来了性能的显著提升，在计算机视觉领域，大规模深度学习模型在图像识别、语义分割、目标检测、视频理解、3d场景分析等关键问题上已取得了突破性的进展。但是，由于预训练数据集具有较大的样本规模，加之用于训练的神经网络模型往往具有较大的参数量，因此在完成神经网络模型训练过程通常会引入大量计算和时间开销。因此，如何高效的进行神经网络模型训练，缩小训练开销是一个至关重要的技术痛点。

技术实现思路

1、本申请提供了一种模型训练方法、采样策略确定方法、模型训练装置、采样策略确定装置、计算设备、计算设备集群、计算机存储介质及计算机产品，能够高效的进行神经网络模型训练，并缩小训练开销。

2、第一方面，本申请提供一种模型训练方法，该方法可以包括：获取第一采样策略，第一采样策略中包括n个训练阶段中每个训练阶段所需数据的分辨率，且第(i-1)个训练阶段所需数据的分辨率小于第i个训练阶段所需数据的分辨率，2≤i≤n，其中，第一采样策略基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到，第一数据集中包括至少一个图像；利用n个训练阶段中各个训练阶段所需的数据的分辨率，分别对第二数据集进行处理，以得到n个数据集，其中，n个数据集中的每个数据集中数据的分辨率均与

3、由此，在模型训练过程中，将模型的训练过程划分为多个阶段，并依据训练阶段划分，先使用低频信息(即分辨率低的数据)再逐渐引入高频信息(即分辨率高的数据)的课程训练模式对模型进行训练，且每个训练阶段所需的数据的分辨率均是以某个数据集和一个神经网络模型为基础，在一个特定的分辨率区间中搜索得到，从而使得各个训练阶段所需数据的分辨率并不一定是线性的，而可能是非线性的，进而使得采样策略更能符合真实的模型训练环境，避免了因人工设定采样策略不适配模型训练环境的情况，提升了模型训练的准确度。另外，由于人工难以评价各个训练阶段的分辨率是否能够在保证训练效果的同时，最大限度的降低训练过程中的计算量，所以通过人工设定采样策略的方式并不能保证高效的进行神经网络模型训练和缩小训练开销。而本申请中以某个数据集为基础，并通过模型在特定的分辨率区间中搜索各个训练阶段的分辨率，可以在每个训练阶段均对多个分辨率进行对比，并从中选取出最优的一个分辨率，由此以在保证训练效果的同时，可以最大限度的降低训练过程中的计算量。

4、此外，在模型训练过程中，在不同的训练阶段，对业务数据的分辨率进行相应的调整即可，而不用评估业务数据的难易程度，降低了模型训练的开销，且每个训练阶段均是采用的全部的业务数据，只是不同阶段采用的业务数据的分辨率不同，提升了模型训练的精准度。另外，在模型训练过程中，通过对业务数据的分辨率进行调整，可以降低输入至模型中的数据的分辨率，而数据分辨率的降低，则会降低训练过程中的计算量，因此可以实现大规模业务数据的高效训练。

5、在一种可能的实现方式中，在利用n个训练阶段中各个训练阶段所需的数据的分辨率，分别对第二数据集进行处理之前，方法还包括：确定第一采样策略中第n个训练阶段所需数据的分辨率与第二数据集中数据的分辨率之间的第一比例；根据第一比例，对第一采样策略中各个训练阶段所需数据的分辨率进行调整。由此以避免当第n个训练阶段所需数据的分辨率小于第二数据集中数据的分辨率时，无法使用原始数据对第二模型进行训练的情况，以及，避免当第n个训练阶段所需数据的分辨率大于第二数据集中数据的分辨率时，需增大第二数据集中的数据的分辨率而导致增大对第二模型进行训练的开销的情况。

6、在一种可能的实现方式中，基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到第一采样策略，具体包括：针对获取n个训练阶段中的任意一个训练阶段所需数据的分辨率，获取任意一个训练阶段所需数据的分辨率的分辨率区间，分辨率区间的上限值为在任意一个训练阶段后的第一个训练阶段所需数据的分辨率，分辨率区间的上限值为第一预设分辨率区间中的一个分辨率值，分辨率区间的下限值为第一预设分辨率区间的下限值；从分辨率区间中选取m个分辨率分别对第一数据集进行处理，以得到m个数据集，m≥1；分别利用m个数据集中的每一个数据集对第一模型进行训练，以得到m个模型；基于m个模型中各个模型的精度和目标精度，从m个模型中筛选出目标模型，模型的精度用于表征模型的性能；目标模型的精度大于或等于目标精度，且距离目标精度最近，其中，目标精度为基于第一数据集对第一模型进行训练得到的模型的精度，或者，目标精度为预设值；将训练目标模型所需的数据集的分辨率作为任意一个训练阶段所需数据的分辨率。由此即实现基于第一数据集并通过第一模型在预设分辨率区间内搜索得到所需的分辨率。另外由于本申请中的采样策略是通过第一模型在预设的分辨率区间内搜索得到，所以n个训练阶段所需的数据的分辨率并不一定是线性的，而可能是非线性的，这使得采样策略更能符合真实的模型训练环境，提升模型的训练效果。

7、在一种可能的实现方式中，当任意一个训练阶段为第n个训练阶段时，分辨率区间与第一预设分辨率区间相同。

8、在一种可能的实现方式中，在完成对第二模型的训练之后，方法还包括：获取第二采样策略，第二采样策略中包括p个训练阶段中每个训练阶段所需数据的分辨率，且第(q-1)个训练阶段所需数据的分辨率小于第q个训练阶段所需数据的分辨率，2≤q≤p，其中，第二采样策略基于第三数据集并通过第三模型在第二预设分辨率区间内搜索得到，第三数据集中包括至少一个图像；利用p个训练阶段中各个训练阶段所需的数据的分辨率，分别对第四数据集进行处理，以得到p个数据集，其中，p个数据集中的每个数据集中数据的分辨率均与p个训练阶段中相应的训练阶段所需的数据的分辨率相同，第四数据集中包括与下游任务相关的至少一个图像；按照分辨率由小到大的顺序，依次利用p个数据集所包含的数据再次对第二模型进行训练，以得到与下游任务适配的模型。由此即实现将训练得到的第二模型迁移至下游任务，且在迁移过程中，同样先使用低频信息再逐渐引入高频信息的课程训练模式对模型进行训练。这样，在模型迁移训练过程中，在不同的训练阶段，对业务数据的分辨率进行相应的调整即可，而不用评估业务数据的难易程度，降低了模型训练的开销，且每个训练阶段均是采用的全部的业务数据，只是不同阶段采用的业务数据的分辨率不同，提升了模型训练的精准度。另外，在模型训练过程中，通过对业务数据的分辨率进行调整，可以降低输入至模型中的数据的分辨率，而数据分辨率的降低，则会降低训练过程中的计算量，因此可以实现大规模业务数据的高效训练。

9、第二方面，本申请提供一种本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在利用所述N个训练阶段中各个训练阶段所需的数据的分辨率，分别对第二数据集进行处理之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到所述第一采样策略，具体包括：

4.根据权利要求3所述的方法，其特征在于，当所述任意一个训练阶段为第N个训练阶段时，所述分辨率区间与所述第一预设分辨率区间相同。

5.根据权利要求1-4任一所述的方法，其特征在于，在完成对所述第二模型的训练之后，所述方法还包括：

6.一种采样策略确定方法，其特征在于，所述采样策略用于模型训练，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述按照从第N个训练阶段至第1个训练阶段的顺序，依次基于第一数据集并通过第一模型在每个所述训练阶段对应的分辨率区间内搜索，具体包括：

8.一种模型训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其

10.根据权利要求8或9所述的装置，其特征在于，在基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到所述第一采样策略时，所述处理模块还用于：

11.根据权利要求10所述的装置，其特征在于，当所述任意一个训练阶段为第N个训练阶段时，所述分辨率区间与所述第一预设分辨率区间相同。

12.根据权利要求8-11任一所述的装置，其特征在于，在所述处理模块完成对所述第二模型的训练之后，所述获取模块，还用于获取第二采样策略，所述第二采样策略中包括P个训练阶段中每个训练阶段所需数据的分辨率，且第(q-1)个训练阶段所需数据的分辨率小于第q个训练阶段所需数据的分辨率，2≤q≤P，其中，所述第二采样策略基于第三数据集并通过第三模型在第二预设分辨率区间内搜索得到，所述第三数据集中包括至少一个图像；

13.一种采样策略确定装置，其特征在于，所述采样策略用于模型训练，所述装置包括：

14.根据权利要求13所述的装置，其特征在于，所述处理模块在按照从第N个训练阶段至第1个训练阶段的顺序，依次基于第一数据集并通过第一模型在每个所述训练阶段对应的分辨率区间内搜索时，具体用于：

15.一种计算设备，其特征在于，包括：

16.一种计算设备集群，其特征在于，包括至少一个计算设备，每个计算设备均包括处理器和存储器；

17.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器执行如权利要求1-7任一所述的方法。

18.一种计算机程序产品，其特征在于，当所述计算机程序产品在处理器上运行时，使得所述处理器执行如权利要求1-7任一所述的方法。

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在利用所述n个训练阶段中各个训练阶段所需的数据的分辨率，分别对第二数据集进行处理之前，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，基于第一数据集并通过第一模型在第一预设分辨率区间内搜索得到所述第一采样策略，具体包括：

4.根据权利要求3所述的方法，其特征在于，当所述任意一个训练阶段为第n个训练阶段时，所述分辨率区间与所述第一预设分辨率区间相同。

5.根据权利要求1-4任一所述的方法，其特征在于，在完成对所述第二模型的训练之后，所述方法还包括：

6.一种采样策略确定方法，其特征在于，所述采样策略用于模型训练，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述按照从第n个训练阶段至第1个训练阶段的顺序，依次基于第一数据集并通过第一模型在每个所述训练阶段对应的分辨率区间内搜索，具体包括：

8.一种模型训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述处理模块在利用所述n个训练阶段中各个训练阶段所需的数据的分辨率，分别对第二数据集进行处理之前，还用于：

11.根据权利要...

【专利技术属性】
技术研发人员：刘天娇，钟钊，王语霖，乐阳，黄高，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人