图像识别模型训练方法、识别方法、设备、介质及产品技术

技术编号:38458262 阅读:9 留言:0更新日期:2023-08-11 14:35
本申请提供一种图像识别模型训练方法、识别方法、设备、介质及产品,涉及深度学习技术领域。该方法包括:获取样本图像和识别标签;利用待训练的视觉自注意力模型对提取的样本图像的第一局部特征进行识别得到第一局部识别结果,对提取的样本图像的第一全局特征进行识别得到第一全局识别结果;利用预先训练好的卷积神经网络模型对提取的第二局部特征进行识别得到第二局部识别结果;根据第一局部识别结果和第二局部识别结果计算局部蒸馏损失,根据第一全局识别结果和识别标签计算识别任务损失;根据局部蒸馏损失和识别任务损失计算的总损失,更新视觉自注意力模型的参数。本申请可以提高卷积神经网络通过知识蒸馏对视觉自注意力模型的训练效果。力模型的训练效果。力模型的训练效果。

【技术实现步骤摘要】
图像识别模型训练方法、识别方法、设备、介质及产品


[0001]本专利技术涉及深度学习
,具体而言,涉及一种图像识别模型训练方法、识别方法、设备、介质及产品。

技术介绍

[0002]知识蒸馏是深度学习领域常用的模型压缩方法,知识蒸馏是利用一个训练好的体积较大的教师模型辅助体积较小的学生模型的训练,采用教师模型对样本的识别结果约束学生模型的输出结果,使教师模型和学生模型的输出结果尽可能相似,实现“传递知识”的目的。
[0003]视觉自注意力模型(Vision Transformer,ViT)是一种具有强大表示能力的网络结构,可以用于对图像中的目标进行分类识别,在对ViT进行训练时,可以利用卷积神经网络(Convolutional Neural Networks,CNN)进行知识蒸馏。
[0004]利用CNN对ViT进行蒸馏是通过基于中间特征传递空间层面的知识,但是,由于CNN和ViT的网络结构完全不同,两者的中间特征难以对齐,导致CNN空间层面的知识难以传递给ViT进行学习,降低了知识蒸馏对ViT模型的训练效果。

技术实现思路

[0005]本专利技术的目的在于,针对上述现有技术中的不足,提供一种图像识别模型训练方法、识别方法、设备、介质及产品,以便提高卷积神经网络通过知识蒸馏对视觉自注意力模型的训练效果。
[0006]为实现上述目的,本申请实施例采用的技术方案如下:
[0007]第一方面,本申请实施例提供了一种图像识别模型训练方法,所述方法包括:
[0008]获取样本图像以及表征所述样本图像对应的真实识别结果的识别标签;
[0009]利用待训练的视觉自注意力模型提取所述样本图像中的局部区域的第一局部特征,并根据所述第一局部特征进行图像识别,得到所述局部区域对应的第一局部识别结果,以及,提取所述样本图像的第一全局特征,并根据所述第一全局特征进行图像识别,得到所述样本图像对应的第一全局识别结果;
[0010]利用预先训练好的卷积神经网络模型提取所述局部区域的第二局部特征,并根据所述第二局部特征进行图像识别,得到所述局部区域对应的第二局部识别结果;
[0011]根据所述第一局部识别结果和所述第二局部识别结果计算表征二者差异的局部蒸馏损失,以及,根据所述第一全局识别结果和所述识别标签计算表征二者差异的识别任务损失;
[0012]根据所述局部蒸馏损失和所述识别任务损失计算总损失,并根据所述总损失更新所述视觉自注意力模型的参数。
[0013]可选的,所述方法还包括:
[0014]利用所述卷积神经网络模型提取所述样本图像的第二全局特征,并根据所述第二
全局特征进行图像识别,得到所述样本图像对应的第二全局识别结果;
[0015]利用所述视觉自注意力模型提取所述样本图像的第三全局特征,并根据所述第三全局特征进行图像识别,得到所述样本图像对应的第三全局识别结果;
[0016]根据所述第三全局识别结果和所述第二全局识别结果计算表征二者差异的全局蒸馏损失;
[0017]所述根据所述局部蒸馏损失和所述识别任务损失计算总损失,包括:
[0018]根据所述局部蒸馏损失、所述全局蒸馏损失和所述识别任务损失计算所述总损失。
[0019]可选的,所述方法还包括:
[0020]利用所述卷积神经网络模型提取所述样本图像的第二全局特征,并根据所述第二全局特征进行图像识别,得到所述样本图像对应的第二全局识别结果;
[0021]所述根据所述第一局部识别结果和所述第二局部识别结果计算表征二者差异的局部蒸馏损失,包括:
[0022]对所述第二局部识别结果和所述第二全局识别结果进行融合,得到融合识别结果;
[0023]根据所述第一局部识别结果和所述融合识别结果计算所述局部蒸馏损失。
[0024]可选的,所述对所述第二局部识别结果和所述第二全局识别结果进行融合,得到融合识别结果,包括:
[0025]对所述第二局部识别结果和所述第二全局识别结果进行加权融合,得到所述融合识别结果;其中,所述第二局部识别结果对应的融合系数随训练次数的增大而减小,所述第二全局识别结果对应的融合系数随训练次数的增大而增大。
[0026]可选的,所述利用待训练的视觉自注意力模型提取所述样本图像中的局部区域的第一局部特征,并根据所述第一局部特征进行图像识别,得到所述局部区域对应的第一局部识别结果,以及,提取所述样本图像的第一全局特征,并根据所述第一全局特征进行图像识别,得到所述样本图像对应的第一全局识别结果,包括:
[0027]将所述样本图像划分为多个样本图像块;其中,每个样本图像块为所述样本图像的一个局部区域;
[0028]利用所述视觉自注意力模型的嵌入层对所述多个样本图像块进行特征嵌入,得到对应的多个图像块向量;
[0029]利用所述视觉自注意力模型的自注意力层对所述多个图像块向量以及预先初始化好的第一嵌入向量进行注意力运算,得到与所述多个图像块向量对应的多个第一局部特征以及与所述第一嵌入向量对应的第一全局特征;
[0030]利用所述视觉自注意力模型的识别层分别对所述多个第一局部特征和所述第一全局特征进行图像识别,得到与所述多个第一局部特征对应的第一局部识别结果以及与所述第一全局特征对应的第一全局识别结果。
[0031]可选的,所述利用所述视觉自注意力模型的自注意力层对所述多个图像块向量以及预先初始化好的第一嵌入向量进行注意力运算,得到与所述多个图像块向量对应的多个第一局部特征以及与所述第一嵌入向量对应的第一全局特征,包括:
[0032]利用所述视觉自注意力模型的自注意力层对所述多个图像块向量、预先初始化好
的第一嵌入向量以及预先初始化好的第二嵌入向量进行注意力运算,得到与所述多个图像块向量对应的多个第一局部特征、与所述第一嵌入向量对应的第一全局特征以及与所述第二嵌入向量对应的第三全局特征;
[0033]其中,所述第三全局特征用于计算全局蒸馏损失。
[0034]第二方面,本申请实施例还提供一种图像识别方法,所述方法包括:
[0035]获取待识别图像;
[0036]采用图像识别模型对所述待识别图像进行识别,得到图像识别结果;其中,所述图像识别模型利用如第一方面任一项所述的方法训练得到。
[0037]第三方面,本申请实施例提供了一种图像识别模型训练装置,所述装置包括:
[0038]样本图像获取模块,用于获取样本图像以及表征所述样本图像对应的真实识别结果的识别标签;
[0039]第一图像识别模块,用于利用待训练的视觉自注意力模型提取所述样本图像中的局部区域的第一局部特征,并根据所述第一局部特征进行图像识别,得到所述局部区域对应的第一局部识别结果,以及,提取所述样本图像的第一全局特征,并根据所述第一全局特征进行图像识别,得到所述样本图像对应的第一全局识别结果;
[0040]第二图像识别模块,用于利用预先训练好的卷积神经本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别模型训练方法,其特征在于,所述方法包括:获取样本图像以及表征所述样本图像对应的真实识别结果的识别标签;利用待训练的视觉自注意力模型提取所述样本图像中的局部区域的第一局部特征,并根据所述第一局部特征进行图像识别,得到所述局部区域对应的第一局部识别结果,以及,提取所述样本图像的第一全局特征,并根据所述第一全局特征进行图像识别,得到所述样本图像对应的第一全局识别结果;利用预先训练好的卷积神经网络模型提取所述局部区域的第二局部特征,并根据所述第二局部特征进行图像识别,得到所述局部区域对应的第二局部识别结果;根据所述第一局部识别结果和所述第二局部识别结果计算表征二者差异的局部蒸馏损失,以及,根据所述第一全局识别结果和所述识别标签计算表征二者差异的识别任务损失;根据所述局部蒸馏损失和所述识别任务损失计算总损失,并根据所述总损失更新所述视觉自注意力模型的参数。2.根据权利要求1所述的图像识别模型训练方法,其特征在于,所述方法还包括:利用所述卷积神经网络模型提取所述样本图像的第二全局特征,并根据所述第二全局特征进行图像识别,得到所述样本图像对应的第二全局识别结果;利用所述视觉自注意力模型提取所述样本图像的第三全局特征,并根据所述第三全局特征进行图像识别,得到所述样本图像对应的第三全局识别结果;根据所述第三全局识别结果和所述第二全局识别结果计算表征二者差异的全局蒸馏损失;所述根据所述局部蒸馏损失和所述识别任务损失计算总损失,包括:根据所述局部蒸馏损失、所述全局蒸馏损失和所述识别任务损失计算所述总损失。3.根据权利要求1所述的图像识别模型训练方法,其特征在于,所述方法还包括:利用所述卷积神经网络模型提取所述样本图像的第二全局特征,并根据所述第二全局特征进行图像识别,得到所述样本图像对应的第二全局识别结果;所述根据所述第一局部识别结果和所述第二局部识别结果计算表征二者差异的局部蒸馏损失,包括:对所述第二局部识别结果和所述第二全局识别结果进行融合,得到融合识别结果;根据所述第一局部识别结果和所述融合识别结果计算所述局部蒸馏损失。4.根据权利要求3所述的图像识别模型训练方法,其特征在于,所述对所述第二局部识别结果和所述第二全局识别结果进行融合,得到融合识别结果,包括:对所述第二局部识别结果和所述第二全局识别结果进行加权融合,得到所述融合识别结果;其中,所述第二局部识别结果对应的融合系数随训练次数的增大而减小,所述第二全局识别结果对应的融合系数随训练次数的增大而增大。5.根据权利要求1所述的图像识别模型训练方法,其特征在于,所述利用待训练的视觉自...

【专利技术属性】
技术研发人员:赵博睿宋仁杰梁嘉骏
申请(专利权)人:南京旷云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1