基于知识蒸馏的模型训练方法、装置、电子设备制造方法及图纸

技术编号：31584262 阅读：63 留言：0更新日期：2021-12-25 11:28

本公开提供了一种基于知识蒸馏的模型训练方法、装置、电子设备及存储介质，涉及计算机领域，尤其涉及计算机视觉、NLP等人工智能技术领域。具体实现方案为：将基于训练样本得到的特征向量分别输入第一编码层和第二编码层，其中，该第一编码层属于第一模型，该第二编码层属于第二模型；对该第一编码层输出的结果进行汇聚处理，得到第一特征向量；根据该第二编码层的输出确定第二特征向量；对该第一特征向量和该第二特征向量做蒸馏处理，得到更新后的第一特征向量。该方案用于模型压缩蒸馏训练，可以灵活地用于模型的任一层中，压缩效果好。压缩后的模型可用于图像识别，且可以被部署到各种计算能力有限的设备上。种计算能力有限的设备上。种计算能力有限的设备上。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识蒸馏的模型训练方法、装置、电子设备

[0001]本公开涉及计算机
，尤其涉及计算机视觉、NLP(Natural Language Processing，自然语言处理)等人工智能
，具体涉及一种基于知识蒸馏的模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息技术的发展，神经网络模型被广泛用于注入计算机视觉、信息检索、信息识别等机器学习任务中。但是，为了更好的学习效果，神经网络模型往往具有海量的参数，一般需要耗费巨大的算例进行推断和部署，即，在训练和推断阶段会占用大量的计算资源，因此在一些资源受限的设备上无法对此类大型神经网络模型进行相应的部署。即在保证性能优异的同时，由于模型规模大、数据量大，大型神经网络模型往往对部署环境有着较高的要求，极大地限制了该类模型的使用。

技术实现思路

[0003]本公开提供了一种基于知识蒸馏的模型训练方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面，提供了一种基于知识蒸馏的模型训练方法，包括：
[0005]将基于训练的图像样本得到的特征向量分别输入第一编码层和第二编码层，其中，该第一编码层属于第一模型，该第二编码层属于第二模型；对该第一编码层输出的结果进行汇聚处理，得到第一特征向量；根据该第二编码层的输出确定第二特征向量；对该第一特征向量和该第二特征向量做蒸馏处理，更新所述第一特征向量；基于更新后的该第一特征向量进行分类，完成所述第一模型的训练。
[0006]根据本公开的另一方面，提供了一种...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的模型训练方法，包括：将基于训练的图像样本得到的特征向量分别输入第一编码层和第二编码层，其中，所述第一编码层属于第一模型，所述第二编码层属于第二模型；对所述第一编码层输出的结果进行汇聚处理，得到第一特征向量；根据所述第二编码层的输出确定第二特征向量；对所述第一特征向量和所述第二特征向量做蒸馏处理，更新所述第一特征向量；基于更新后的所述第一特征向量进行分类，完成所述第一模型的训练。2.根据权利要求1所述的方法，其中，所述基于更新后的所述第一特征向量进行分类，完成所述第一模型的训练，包括：将更新后的所述第一特征向量输入第三编码层，所述第三编码层属于所述第一模型；将所述蒸馏处理后得到的更新后的第二特征向量输入第四编码层，所述第四编码层属于所述第二模型；对所述第三编码层与所述第四编码层的输出结果做再次蒸馏处理，得到优化结果；基于所述优化结果进行分类，完成所述第一模型的训练。3.根据权利要求1所述的方法，其中，所述对所述第一特征向量和所述第二特征向量做蒸馏处理，包括：对所述第一特征向量和所述第二特征向量中排序靠前的特征向量做蒸馏处理，其中，所述第一特征向量的大小和所述第二特征向量中排序靠前的特征向量的大小相等。4.根据权利要求1所述的方法，还包括：在所述蒸馏处理中的蒸馏损失值小于固定阈值的情况下，根据所述分类的结果得到分类正确率。5.根据权利要求4所述的方法，还包括：在所述第一模型有多个编码层且所述分类正确率不符合预设目标的情况下，在所述多个编码层中选择除第一编码层以外的任一编码层的输出作为汇聚处理的输入，继续训练所述第一模型。6.根据权利要求1所述的方法，其中，所述对所述第一编码层输出的结果进行汇聚处理，包括：对所述第一编码层输出的结果进行卷积处理。7.根据权利要求1所述的方法，所述将基于训练的图像样本得到的特征向量分别输入第一编码层和第二编码层，包括：将多张大小相等的图片经过转换处理，生成维度相同的多个特征向量，其中，所述图片的张数等于生成特征向量的个数；将所述多个特征向量并行输入所述第一编码层和所述第二编码层。8.一种图像识别的方法，包括：将待识别图像输入训练后的识别模型，所述训练后的识别模型根据权利要求1
‑
7中任一项所述的基于知识蒸馏的模型训练方法训练获得；根据所述训练后的识别模型，对所述待识别图像进行识别处理。9.一种基于知识蒸馏的模型训练装置，包括：输入模块，用于将基于训练的图像样本得到的特征向量分别输入第一编码层和第二编
码层，其中，所述第一编码层属于第一模型，所述第二编码层属于第二模型；汇聚模块，用于对所述第一编码层输出的结果进行汇聚处理，得到第一特征向量；确定模块，用于根据所述第二编码层的输出确定第二特征向量；蒸馏模块，用于对所述第一特征向量和所述第二特征向量做蒸馏...

【专利技术属性】
技术研发人员：李建伟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人