模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：33120013 阅读：20 留言：0更新日期：2022-04-17 00:17

本申请涉及一种模型训练方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取已训练的教师模型对样本图像中各像素的类别预测结果；根据已训练的教师模型对样本图像中各像素的类别预测结果，得到样本图像中各像素的信息量；在各预设图像类别下，基于样本图像中各像素的信息量、已训练的教师模型对样本图像中各像素的类别预测结果和待训练的学生模型对样本图像中各像素的类别预测结果，得到待训练的学生模型的目标损失函数；根据目标损失函数，对待训练的学生模型进行迭代训练，得到训练完成的学生模型；训练完成的学生模型用于对输入的图像进行语义分割。采用本方法能够提升学生模型整体的预测准确性。方法能够提升学生模型整体的预测准确性。方法能够提升学生模型整体的预测准确性。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、计算机设备和存储介质

[0001]本申请涉及计算机
，特别是涉及一种模型训练方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]知识蒸馏技术是在模型训练过程中，使用一个规模较大的模型作为老师模型进行训练，提取出图像样本中的特征信息，然后将特征信息传递给规模较小的学生模型，使得规模较小的学生模型不仅速度较快，还能借助特征信息提升模型性能。
[0003]然而，传统的知识蒸馏技术是直接将蒸馏损失函数应用在所有图像样本上，并没有考虑图像样本之间的差异性，差异性包括图像样本的类别数量和图形样本包含的信息量，使得在模型训练过程中模型会更倾向于信息量较少的多数类样本，而忽视信息量较大的少数类样本，造成学生模型在信息量较大的少数类样本上的预测准确性较低。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够提升学生模型预测准确率的模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面，本申请提供了一种模型训练方法。所述方法包括：获取已训练的教师模型对样本图像中各像素的类别预测结果；根据所述已训练的教师模型对所述样本图像中各像素的类别预测结果，得到所述样本图像中各像素的信息量；在各预设图像类别下，基于所述样本图像中各像素的信息量、所述已训练的教师模型对所述样本图像中各像素的类别预测结果和待训练的学生模型对所述样本图像中各像素的类别预测结果，得到所述待训练的学生模型的目标损失函数；根据所述目标损失函数，对...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取已训练的教师模型对样本图像中各像素的类别预测结果；根据所述已训练的教师模型对所述样本图像中各像素的类别预测结果，得到所述样本图像中各像素的信息量；在各预设图像类别下，基于所述样本图像中各像素的信息量、所述已训练的教师模型对所述样本图像中各像素的类别预测结果和待训练的学生模型对所述样本图像中各像素的类别预测结果，得到所述待训练的学生模型的目标损失函数；根据所述目标损失函数，对所述待训练的学生模型进行迭代训练，得到训练完成的学生模型；所述训练完成的学生模型用于对输入的图像进行语义分割。2.根据权利要求1所述的方法，其特征在于，所述在各预设图像类别下，基于所述样本图像中各像素的信息量、所述已训练的教师模型对所述样本图像中各像素的类别预测结果和待训练的学生模型对所述样本图像中各像素的类别预测结果，得到所述待训练的学生模型的目标损失函数，包括：在各预设图像类别下，根据所述已训练的教师模型对所述样本图像中各像素的类别预测结果和待训练的学生模型对所述样本图像中各像素的类别预测结果，确定所述样本图像中各像素的信息量的权重；根据各预设图像类别下所述样本图像中各像素的信息量和所述样本图像中各像素的信息量的权重，得到所述待训练的学生模型的目标损失函数。3.根据权利要求2所述的方法，其特征在于，所述在各预设图像类别下，根据所述已训练的教师模型对所述样本图像中各像素的类别预测结果和待训练的学生模型对所述样本图像中各像素的类别预测结果，确定所述样本图像中各像素的信息量的权重，包括：根据所述样本图像中各像素的类别预测结果，从所述各预设图像类别中确定出所述样本图像中各像素所属的图像类别；根据所述已训练的教师模型对所述样本图像中各像素的类别预测结果和待训练的学生模型对所述样本图像中各像素的类别预测结果，得到所述样本图像中各像素的信息散度；所述信息散度表示所述已训练的教师模型对所述样本图像中各像素的类别预测结果和待训练的学生模型对所述样本图像中各像素的类别预测结果之间的距离；在所述各预设图像类别下，根据所述样本图像中各像素的信息散度，依次确定所述样本图像中所属的图像类别与所述预设图像类别相同的像素的信息量的权重，得到所述样本图像中各像素的信息量的权重。4.根据权利要求3所述的方法，其特征在于，所述根据所述样本图像中各像素的信息量和所述样本图像中各像素的信息量的权重，得到所述待训练的学生模型的目标损失函数，包括：在所述各预设图像类别下，分别根据样本图像中所属的图像类别与所述预设图像类别相同的像素的信息量和所述与所述预设图像类别相同的像素的信息量的权重，确定所述样本图像在所述各预设图像类别下的总信息量；根据所述样本图像在所述各预设图像类别下的总信息量之和的平均值，得到所述待训练的学生模型的目标损失函数。5.根据权利要求1所述的方法，其特征在于，所述根据所述已训练的教师模型对所述样
本图像中各像素的类别预测结果...

【专利技术属性】
技术研发人员：田倬韬，易振彧，刘枢，吕江波，沈小勇，
申请(专利权)人：苏州思谋智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人