模型训练方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：40248690 阅读：7 留言：0更新日期：2024-02-02 22:43

本申请提供一种模型训练方法、装置、电子设备和计算机可读存储介质，该方法包括：获取模型生成参数以及多个训练样本，并根据模型生成参数生成与老师模型匹配的多个学生模型；基于老师模型对训练样本的第一输出结果以及各个训练样本，对各个学生模型进行训练得到各个待确定模型，老师模型是各个训练样本训练得到的；确定每个待确定模型的性能参数，并将满足预设条件的性能参数的待确定模型，确定为老师模型对应的目标模型。本申请中，通过模型生成参数生成与老师模型匹配的多个学生模型，无需通过老师模型的输出结构对学生模型进行训练得到匹配的学生模型，减少了所需模型的训练时长，提高了模型的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及模型训练领域，尤其涉及一种模型训练方法、装置、电子设备和计算机可读存储介质。

技术介绍

1、人类从经验中学习知识，经验越丰富，可以学到的知识越多。在人工智能学科的深度学习领域，这一原理同样相通，即由人工智能软硬件提供动力支持的机器从经验中学习知识。随着深度神经网络的兴起，深度神经网络在计算机视觉、自然语言处理和其他领域取得了显著的成功。这些深度模型通常有数百万甚至数亿个参数，它们能够从大规模数据中学习复杂的特征表示，因此需要大量的计算资源和存储资源。

2、在一定程度上，网络越深，参数越多，模型越复杂，大型深度神经网络在许多任务上效果表现越出色，但将它们部署到资源受限的设备上(如移动设备和嵌入式系统)是一项挑战。这些设备通常具有有限的内存和计算能力，难以支持大型模型的直接部署。因此为了能在资源受限的环境中使用深度神经网络，往往需要一种方法来压缩这些大型模型，以便在嵌入式设备上运行。

3、网络模型压缩技术包括前端压缩和后端压缩，前端压缩是指不改变原模型结构的压缩技术，仅仅只是在原模型基础上减少了网络的层数或者滤波器个数。示例性技术中，将大型的模型作为老师模型，并将老师模型的知识传递给作为学生模型的小模型，使得小模型具有了大模型的学习能力及更快的推理速度。

4、在老师模型指导学生模型进行训练过程中，需要以老师模型的输出结构作为学生模型的输入，对学生模型进行训练，得到与老师模型结构上匹配的学生模型，然后再通过老师模型指导学生模型进行训练，得到所需的小模型，模型的训练时间较长，也即模型的训练效率较低。

技术实现思路

1、本申请提供一种模型训练方法、装置、电子设备和计算机可读存储介质，用以解决模型的训练效率较低的问题。

2、第一方面，本申请提供一种模型训练方法，包括：

3、获取模型生成参数以及多个训练样本，并根据所述模型生成参数生成与老师模型匹配的多个学生模型，所述模型生成参数包括模型的网络层数、激活函数、卷积核尺寸以及模型中网络层的连接关系；

4、基于所述老师模型对所述训练样本的第一输出结果以及各个所述训练样本，对各个所述学生模型进行训练得到各个待确定模型，所述老师模型是各个所述训练样本训练得到的；

5、确定每个所述待确定模型的性能参数，并将满足预设条件的所述性能参数的所述待确定模型，确定为所述老师模型对应的目标模型。

6、在一实施例中，所述确定每个所述待确定模型的性能参数，包括：

7、获取测试图像，并将所述测试图像输入至所述待确定模型；

8、获取所述待确定模型对所述测试图像进行规范化处理得到的方差以及目标参数；

9、根据所述方差以及所述目标参数确定分值，以作为所述待确定模型的性能参数。

10、在一实施例中，所述基于所述老师模型对所述训练样本的第一输出结果以及各个所述训练样本，对各个所述学生模型进行训练得到各个待确定模型的步骤包括：

11、基于所述老师模型的网络参数设置所述学生模型的网络参数，得到待训练模型；

12、将所述训练样本输入至所述待训练模型得到第二输出结果，并根据所述第一输出结果以及所述第二输出结果调整所述待训练模型的网络参数；

13、返回执行所述将所述训练样本输入至所述待训练模型得到第二输出结果的步骤，直至所述待训练模型的参数收敛，以得到所述待确定模型。

14、在一实施例中，所述根据所述第一输出结果以及所述第二输出结果调整所述待训练模型的网络参数的步骤包括：

15、对所述第二输出结果进行平滑操作得到第三输出结果；

16、根据所述第三输出结果以及所述第一输出结果调整所述待训练模型的损失函数。

17、在一实施例中，还包括：

18、根据所述第一输出结果以及所述第二输出结果调整输入至待训练模型的输入参数，所述输入参数包括输入至待训练模型的训练样本的数量以及温度参数；

19、基于所述输入参数，返回执行所述将所述训练样本输入至所述待训练模型得到第二输出结果的步骤。

20、在一实施例中，还包括：

21、在所述性能参数不满足预设条件时，更新所述模型生成参数；

22、返回执行所述根据所述模型生成参数生成与老师模型匹配的多个学生模型的步骤。

23、在一实施例中，满足预设条件包括以下至少一种：

24、所述待确定模型的分类准确率大于预设阈值，所述性能参数包括所述分类准确率；

25、所述待确定模型的对图像的分类速率高于预设速率，所述性能参数包括所述分类速率。

26、第二方面，本申请提供一种模型训练装置，包括：

27、获取模块，用于获取模型生成参数以及多个训练样本，并根据所述模型生成参数生成与老师模型匹配的多个学生模型，所述模型生成参数包括模型的网络层数、激活函数、卷积核尺寸以及模型中网络层的连接关系；

28、训练模块，用于基于所述老师模型对所述训练样本的第一输出结果以及各个所述训练样本，对各个所述学生模型进行训练得到各个待确定模型，所述老师模型是各个所述训练样本训练得到的；

29、确定模块，用于确定每个所述待确定模型的性能参数，并将满足预设条件的所述性能参数的所述待确定模型，确定为所述老师模型对应的目标模型。

30、第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

31、所述存储器存储计算机执行指令；

32、所述处理器执行所述存储器存储的计算机执行指令，以实现如上所述的方法。

33、第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的方法。

34、本申请提供的模型训练方法、装置、电子设备和计算机可读存储介质，获取模型生成参数以及多个训练样本，通过模型生成参数生成与老师模型匹配多个学生模型，基于老师模型对训练样本的输出结果以及各个训练样本对各个学生模型进行训练得到待确定模型，当待确定模型的性能参数满足预设条件，则将待确定模型确定为老师模型对应的目标模型。本申请中，通过模型生成参数生成与老师模型匹配的多个学生模型，无需通过老师模型的输出结构对学生模型进行训练得到匹配的学生模型，减少了所需模型的训练时长，提高了模型的训练效率。

本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述确定每个所述待确定模型的性能参数，包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述老师模型对所述训练样本的第一输出结果以及各个所述训练样本，对各个所述学生模型进行训练得到各个待确定模型的步骤包括：

4.根据权利要求3所述的模型训练方法，其特征在于，所述根据所述第一输出结果以及所述第二输出结果调整所述待训练模型的网络参数的步骤包括：

5.根据权利要求3所述的模型训练方法，其特征在于，还包括：

6.根据权利要求1所述的模型训练方法，其特征在于，还包括：

7.根据权利要求1-5中任一项所述的模型训练方法，其特征在于，满足预设条件包括以下至少一种：

8.一种模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述确定每个所述待确定模型的性能参数，包括：

4.根据权利要求3所述的模型训练方法，其特征在于，所述根据所述第一输出结果以及所述第二输出结果调整所述待训练模型的网络参数的步骤包括：

5.根据权利要求3所述的模型训...

【专利技术属性】
技术研发人员：殷娇阳，
申请(专利权)人：国汽智控北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人