图像识别模型训练方法、识别方法、设备、介质及产品技术

技术编号：38458262 阅读：9 留言：0更新日期：2023-08-11 14:35

本申请提供一种图像识别模型训练方法、识别方法、设备、介质及产品，涉及深度学习技术领域。该方法包括：获取样本图像和识别标签；利用待训练的视觉自注意力模型对提取的样本图像的第一局部特征进行识别得到第一局部识别结果，对提取的样本图像的第一全局特征进行识别得到第一全局识别结果；利用预先训练好的卷积神经网络模型对提取的第二局部特征进行识别得到第二局部识别结果；根据第一局部识别结果和第二局部识别结果计算局部蒸馏损失，根据第一全局识别结果和识别标签计算识别任务损失；根据局部蒸馏损失和识别任务损失计算的总损失，更新视觉自注意力模型的参数。本申请可以提高卷积神经网络通过知识蒸馏对视觉自注意力模型的训练效果。力模型的训练效果。力模型的训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
图像识别模型训练方法、识别方法、设备、介质及产品

[0001]本专利技术涉及深度学习
，具体而言，涉及一种图像识别模型训练方法、识别方法、设备、介质及产品。

技术介绍

[0002]知识蒸馏是深度学习领域常用的模型压缩方法，知识蒸馏是利用一个训练好的体积较大的教师模型辅助体积较小的学生模型的训练，采用教师模型对样本的识别结果约束学生模型的输出结果，使教师模型和学生模型的输出结果尽可能相似，实现“传递知识”的目的。
[0003]视觉自注意力模型(Vision Transformer，ViT)是一种具有强大表示能力的网络结构，可以用于对图像中的目标进行分类识别，在对ViT进行训练时，可以利用卷积神经网络(Convolutional Neural Networks，CNN)进行知识蒸馏。
[0004]利用CNN对ViT进行蒸馏是通过基于中间特征传递空间层面的知识，但是，由于CNN和ViT的网络结构完全不同，两者的中间特征难以对齐，导致CNN空间层面的知识难以传递给ViT进行学习，降低了知识蒸馏对ViT模型的训练效果。

技术实现思路

[0005]本专利技术的目的在于，针对上述现有技术中的不足，提供一种图像识别模型训练方法、识别方法、设备、介质及产品，以便提高卷积神经网络通过知识蒸馏对视觉自注意力模型的训练效果。
[0006]为实现上述目的，本申请实施例采用的技术方案如下：
[0007]第一方面，本申请实施例提供了一种图像识别模型训练方法，所述方法包括：
[0008]...

【技术保护点】

【技术特征摘要】
1.一种图像识别模型训练方法，其特征在于，所述方法包括：获取样本图像以及表征所述样本图像对应的真实识别结果的识别标签；利用待训练的视觉自注意力模型提取所述样本图像中的局部区域的第一局部特征，并根据所述第一局部特征进行图像识别，得到所述局部区域对应的第一局部识别结果，以及，提取所述样本图像的第一全局特征，并根据所述第一全局特征进行图像识别，得到所述样本图像对应的第一全局识别结果；利用预先训练好的卷积神经网络模型提取所述局部区域的第二局部特征，并根据所述第二局部特征进行图像识别，得到所述局部区域对应的第二局部识别结果；根据所述第一局部识别结果和所述第二局部识别结果计算表征二者差异的局部蒸馏损失，以及，根据所述第一全局识别结果和所述识别标签计算表征二者差异的识别任务损失；根据所述局部蒸馏损失和所述识别任务损失计算总损失，并根据所述总损失更新所述视觉自注意力模型的参数。2.根据权利要求1所述的图像识别模型训练方法，其特征在于，所述方法还包括：利用所述卷积神经网络模型提取所述样本图像的第二全局特征，并根据所述第二全局特征进行图像识别，得到所述样本图像对应的第二全局识别结果；利用所述视觉自注意力模型提取所述样本图像的第三全局特征，并根据所述第三全局特征进行图像识别，得到所述样本图像对应的第三全局识别结果；根据所述第三全局识别结果和所述第二全局识别结果计算表征二者差异的全局蒸馏损失；所述根据所述局部蒸馏损失和所述识别任务损失计算总损失，包括：根据所述局部蒸馏损失、所述全局蒸馏损失和所述识别任务损失计算所述总损失。3.根据权利要求1所述的图像识别模型训练方法，其特征在于，所述方法还包括：利用所述卷积神经网络模型提取所述样本图像的第二全局特征，并根据所述第二全局特征进行图像识别，得到所述样本图像对应的第二全局识别结果；所述根据所述第一局部识别结果和所述第二局部识别结果计算表征二者差异的局部蒸馏损失，包括：对所述第二局部识别结果和所述第二全局识别结果进行融合，得到融合识别结果；根据所述第一局部识别结果和所述融合识别结果计算所述局部蒸馏损失。4.根据权利要求3所述的图像识别模型训练方法，其特征在于，所述对所述第二局部识别结果和所述第二全局识别结果进行融合，得到融合识别结果，包括：对所述第二局部识别结果和所述第二全局识别结果进行加权融合，得到所述融合识别结果；其中，所述第二局部识别结果对应的融合系数随训练次数的增大而减小，所述第二全局识别结果对应的融合系数随训练次数的增大而增大。5.根据权利要求1所述的图像识别模型训练方法，其特征在于，所述利用待训练的视觉自...

【专利技术属性】
技术研发人员：赵博睿，宋仁杰，梁嘉骏，
申请(专利权)人：南京旷云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人