图像识别模型的训练方法、装置、网络和图像识别方法制造方法及图纸

技术编号：33391521 阅读：30 留言：0更新日期：2022-05-11 23:08

本申请涉及图像识别模型的训练方法、装置、网络和图像识别方法，该训练方法包括通过得到卷积神经网络对应的预测标签值，将卷积神经网络中多个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取，以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值，然后分别对各个预设ViT网络进行权重和偏置更新，根据卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值，根据整合后的预测标签值、卷积神经网络对应的第二预设损失函数和真实标签值计算得到卷积神经网络对应的第二预设损失函数值生成图像识别模型，能够将传统的卷积神经网络结构和ViT网络进行融合。统的卷积神经网络结构和ViT网络进行融合。统的卷积神经网络结构和ViT网络进行融合。

全部详细技术资料下载

【技术实现步骤摘要】
图像识别模型的训练方法、装置、网络和图像识别方法

[0001]本申请涉及图像识别领域，具体涉及一种图像识别模型的训练方法、装置、网络、图像识别方法和设备终端。

技术介绍

[0002]目前，将ViT网络模型(Vision Transformer，视觉转换器)应用在计算机视觉上以替代CNN(Convolutional Neural Networks，卷积神经网络)是计算机视觉研究的热点，ViT网络模型本质上是利用视觉自注意力网络机制关注图片中各部分的重要信息，从而输出对应的预测结果。
[0003]由于上述方法较为新颖，使用到很多在卷积神经网络中不常用或出现频率较低的特殊算子，而此类特殊算子往往不能被移动端设备很好的支持，进而导致现有计算机视觉领域的有效方法往往无法直接与这种采用ViT网络模型的新型视觉方法进行结合。

技术实现思路

[0004]鉴于此，本申请提供一种图像识别模型的训练方法、装置、网络和设备终端，能够在利用传统的卷积神经网络结构的基础上，进一步结合ViT网络的优点，将传统的卷积神经网络结构和ViT网络进行融合，以克服现有计算机视觉领域的有效方法往往无法直接与这种采用ViT网络的新型视觉方法进行结合的缺点。
[0005]一种图像识别模型的训练方法，包括：
[0006]通过卷积神经网络对输入的训练图像数据集进行特征提取，以得到卷积神经网络对应的预测标签值；
[0007]获取卷积神经网络中多个中间层输出的特征图；
[0008]将各个中间层输出的特征图分别输入到...

【技术保护点】

【技术特征摘要】
1.一种图像识别模型的训练方法，其特征在于，包括：通过卷积神经网络对输入的训练图像数据集进行特征提取，以得到所述卷积神经网络对应的预测标签值；获取所述卷积神经网络中多个中间层输出的特征图；将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取，以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值；根据各自对应的第一预设损失函数值，分别对各个预设ViT网络进行权重和偏置更新；根据所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值；根据所述整合后的预测标签值、所述卷积神经网络对应的第二预设损失函数和真实标签值计算得到所述卷积神经网络对应的第二预设损失函数值；根据所述第二预设损失函数值对所述卷积神经网络进行权重和偏置更新；循环执行上述步骤，直至所述第二预设损失函数收敛以生成对应的图像识别模型。2.根据权利要求1所述的训练方法，其特征在于，所述中间层为池化层，所述将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取，以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值的步骤包括：将所述多个池化层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取，以获取各个预设ViT网络对应的预测标签值；根据第一预设损失函数、各个预设ViT网络对应的预测标签值和真实标签值，计算得到各个预设ViT网络各自对应的第一预设损失函数值。3.根据权利要求1所述的训练方法，其特征在于，所述第二预设损失函数采用交叉熵损失函数，所述通过卷积神经网络对输入的训练图像数据集进行特征提取，以生成对应的预测标签值的步骤之前还包括：基于所述交叉熵损失函数，将所述训练图像数据集输入到初始卷积神经网络进行训练，直至所述交叉熵损失函数收敛，得到训练收敛后的卷积神经网络。4.根据权利要求1所述的训练方法，其特征在于，所述将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取，以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值的步骤之前还包括：基于第一预设损失函数，将所述训练图像数据集输入到分别输入到各个初始ViT网络进行训练，直至各自对应的第一预设损失函数收敛，得到训练收敛后的各个预设ViT网络。5.根据权利要求1所述的训练方法，其特征在于，所述根据所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值的步骤包括：将所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值进行加权处理，以计算得到整合后的预测标签值。6.一种图像识别模型的训练网络，...

【专利技术属性】
技术研发人员：申啸尘，周有喜，
申请(专利权)人：新疆爱华盈通信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人