图像识别模型的训练方法、装置、网络和图像识别方法制造方法及图纸

技术编号:33391521 阅读:30 留言:0更新日期:2022-05-11 23:08
本申请涉及图像识别模型的训练方法、装置、网络和图像识别方法,该训练方法包括通过得到卷积神经网络对应的预测标签值,将卷积神经网络中多个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值,然后分别对各个预设ViT网络进行权重和偏置更新,根据卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值,根据整合后的预测标签值、卷积神经网络对应的第二预设损失函数和真实标签值计算得到卷积神经网络对应的第二预设损失函数值生成图像识别模型,能够将传统的卷积神经网络结构和ViT网络进行融合。统的卷积神经网络结构和ViT网络进行融合。统的卷积神经网络结构和ViT网络进行融合。

【技术实现步骤摘要】
图像识别模型的训练方法、装置、网络和图像识别方法


[0001]本申请涉及图像识别领域,具体涉及一种图像识别模型的训练方法、装置、网络、图像识别方法和设备终端。

技术介绍

[0002]目前,将ViT网络模型(Vision Transformer,视觉转换器)应用在计算机视觉上以替代CNN(Convolutional Neural Networks,卷积神经网络)是计算机视觉研究的热点,ViT网络模型本质上是利用视觉自注意力网络机制关注图片中各部分的重要信息,从而输出对应的预测结果。
[0003]由于上述方法较为新颖,使用到很多在卷积神经网络中不常用或出现频率较低的特殊算子,而此类特殊算子往往不能被移动端设备很好的支持,进而导致现有计算机视觉领域的有效方法往往无法直接与这种采用ViT网络模型的新型视觉方法进行结合。

技术实现思路

[0004]鉴于此,本申请提供一种图像识别模型的训练方法、装置、网络和设备终端,能够在利用传统的卷积神经网络结构的基础上,进一步结合ViT网络的优点,将传统的卷积神经网络结构和ViT网络进行融合,以克服现有计算机视觉领域的有效方法往往无法直接与这种采用ViT网络的新型视觉方法进行结合的缺点。
[0005]一种图像识别模型的训练方法,包括:
[0006]通过卷积神经网络对输入的训练图像数据集进行特征提取,以得到卷积神经网络对应的预测标签值;
[0007]获取卷积神经网络中多个中间层输出的特征图;
[0008]将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值;
[0009]根据各自对应的第一预设损失函数值,分别对各个预设ViT网络进行权重和偏置更新;
[0010]根据卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值;
[0011]根据整合后的预测标签值、卷积神经网络对应的第二预设损失函数和真实标签值计算得到卷积神经网络对应的第二预设损失函数值;
[0012]根据第二预设损失函数值对卷积神经网络进行权重和偏置更新;
[0013]循环执行上述步骤,直至第二预设损失函数收敛以生成对应的图像识别模型。
[0014]在一个实施例中,中间层为池化层,将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值的步骤包括:
[0015]将多个池化层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,
以获取各个预设ViT网络对应的预测标签值;
[0016]根据第一预设损失函数、各个预设ViT网络对应的预测标签值和真实标签值,计算得到各个预设ViT网络各自对应的第一预设损失函数值。
[0017]在一个实施例中,第二预设损失函数采用交叉熵损失函数,通过卷积神经网络对输入的训练图像数据集进行特征提取,以生成对应的预测标签值的步骤之前还包括:
[0018]基于交叉熵损失函数,将训练图像数据集输入到初始卷积神经网络进行训练,直至交叉熵损失函数收敛,得到训练收敛后的卷积神经网络。
[0019]在一个实施例中,将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值的步骤之前还包括:
[0020]基于第一预设损失函数,将训练图像数据集输入到分别输入到各个初始ViT网络进行训练,直至各自对应的第一预设损失函数收敛,得到训练收敛后的各个预设ViT网络。
[0021]在一个实施例中,根据卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值的步骤包括:
[0022]将卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值进行加权处理,以计算得到整合后的预测标签值。
[0023]此外,还提供一种图像识别模型的训练网络,包括:
[0024]卷积神经网络处理单元,用于通过卷积神经网络对输入的训练图像数据集进行特征提取,以得到卷积神经网络对应的预测标签值;
[0025]ViT网络处理单元,与卷积神经网络处理单元中的多个中间层的输出端相连接,用于将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值;
[0026]ViT网络处理单元还用于根据各自对应的第一预设损失函数值,分别对各个预设ViT网络进行权重和偏置更新;
[0027]卷积神经网络处理单元还用于根据卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值,根据整合后的预测标签值、卷积神经网络对应的第二预设损失函数和真实标签值计算得到卷积神经网络对应的第二预设损失函数值,根据第二预设损失函数值对卷积神经网络进行权重和偏置更新,直至第二预设损失函数收敛以生成对应的图像识别模型。
[0028]此外,还提供一种图像识别模型的训练装置,包括:
[0029]标签值生成单元,用于通过卷积神经网络对输入的训练图像数据集进行特征提取,以得到卷积神经网络对应的预测标签值;
[0030]特征图获取单元,用于获取卷积神经网络中多个中间层输出的特征图;
[0031]ViT网络特征提取单元,用于将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值;
[0032]第一更新单元,用于根据各自对应的第一预设损失函数值,分别对各个预设ViT网络进行权重和偏置更新;
[0033]标签值整合单元,用于根据卷积神经网络对应的预测标签值和各个预设ViT网络
对应的预测标签值计算得到整合后的预测标签值;
[0034]损失函数值生成单元,用于根据整合后的预测标签值、卷积神经网络对应的第二预设损失函数和真实标签值计算得到卷积神经网络对应的第二预设损失函数值;
[0035]第二更新单元,用于根据第二预设损失函数值对卷积神经网络进行权重和偏置更新;
[0036]模型生成单元,用于当第二预设损失函数收敛时生成对应的图像识别模型。
[0037]此外,还提供一种图像识别方法,采用上述训练方法所训练得到的图像识别模型进行图像识别。
[0038]此外,还提供一种设备终端,设备终端包括处理器和存储器,存储器用于存储计算机程序,处理器运行计算机程序以使设备终端执行上述训练方法。
[0039]此外,还提供一种可读存储介质,可读存储介质存储有计算机程序,计算机程序在被处理器执行时实施上述训练方法。
[0040]上述图像识别模型的训练方法,通过将卷积神经网络输出的特征图输入到各个预设ViT网络,从而在特征图的层面直接对各个预设ViT网络的权重进行优化,同时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别模型的训练方法,其特征在于,包括:通过卷积神经网络对输入的训练图像数据集进行特征提取,以得到所述卷积神经网络对应的预测标签值;获取所述卷积神经网络中多个中间层输出的特征图;将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值;根据各自对应的第一预设损失函数值,分别对各个预设ViT网络进行权重和偏置更新;根据所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值;根据所述整合后的预测标签值、所述卷积神经网络对应的第二预设损失函数和真实标签值计算得到所述卷积神经网络对应的第二预设损失函数值;根据所述第二预设损失函数值对所述卷积神经网络进行权重和偏置更新;循环执行上述步骤,直至所述第二预设损失函数收敛以生成对应的图像识别模型。2.根据权利要求1所述的训练方法,其特征在于,所述中间层为池化层,所述将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值的步骤包括:将所述多个池化层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以获取各个预设ViT网络对应的预测标签值;根据第一预设损失函数、各个预设ViT网络对应的预测标签值和真实标签值,计算得到各个预设ViT网络各自对应的第一预设损失函数值。3.根据权利要求1所述的训练方法,其特征在于,所述第二预设损失函数采用交叉熵损失函数,所述通过卷积神经网络对输入的训练图像数据集进行特征提取,以生成对应的预测标签值的步骤之前还包括:基于所述交叉熵损失函数,将所述训练图像数据集输入到初始卷积神经网络进行训练,直至所述交叉熵损失函数收敛,得到训练收敛后的卷积神经网络。4.根据权利要求1所述的训练方法,其特征在于,所述将各个中间层输出的特征图分别输入到各自对应的预设ViT网络进行特征提取,以得到各个预设ViT网络对应的预测标签值和第一预设损失函数值的步骤之前还包括:基于第一预设损失函数,将所述训练图像数据集输入到分别输入到各个初始ViT网络进行训练,直至各自对应的第一预设损失函数收敛,得到训练收敛后的各个预设ViT网络。5.根据权利要求1所述的训练方法,其特征在于,所述根据所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值计算得到整合后的预测标签值的步骤包括:将所述卷积神经网络对应的预测标签值和各个预设ViT网络对应的预测标签值进行加权处理,以计算得到整合后的预测标签值。6.一种图像识别模型的训练网络,...

【专利技术属性】
技术研发人员:申啸尘周有喜
申请(专利权)人:新疆爱华盈通信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1