一种融合CNN与Transformer模型的图像识别网络制造技术

技术编号:39281562 阅读:8 留言:0更新日期:2023-11-07 10:55
本发明专利技术公开了一种融合CNN与Transformer模型的图像识别网络在现有平行特征融合结构的基础上,构建了一种并行特征融合模型,旨在探索CNN与Transformer模型之间更优的结合方式。该图像识别网络并行产生两个支路,分别使用卷积和自注意力机制来提取特征,并采用动态的融合方法将两个支路的特征通过注意力机制进行融合,这样网络具备了动态选择特征的能力,可以更有效地对局部特征和全局表示进行建模,使图像识别网络具有更好的性能,更大的吞吐量以及更好的可解释性。同时,通过在阶段0、阶段1的图像识别模块中,在Transformer模型支路引入了一个瓶颈结构,减少了内存消耗以及计算量。算量。算量。

【技术实现步骤摘要】
一种融合CNN与Transformer模型的图像识别网络


[0001]本专利技术属于图像识别
,更为具体地讲,涉及一种融合CNN与Transformer模型的图像识别网络。

技术介绍

[0002]卷积神经网络(Convolutional Neural Network,简称CNN)在图像处理中具有强大的局部特征提取能力,适合处理图像中的空间局部结构,而Transformer(转换器)模型则在处理全局关系和长程依赖上表现出色,适合处理图像中的全局语义信息。将两者结合,可以弥补彼此的不足,充分发挥各自的优势。基于CNN与Transformer模型的图像识别网络其结构可以分为串行特征提取结构以及平行特征融合结构两种模式。
[0003]串行特征提取结构是一类在Transformer模型中引入卷积或在CNN中引入自注意力机制,旨在获得更好的识别质量,例如BoTNet、MobileViT、CvT、ConViT等。串行特征提取结构仍有很大的进步空间。依次交替进行两种不同的操作,即串行特征提取结构可能会导致识别模式的混乱,每个操作都不能最大限度地发挥其作用,对整个串行特征提取结构的贡献有限。
[0004]平行特征融合结构并行产生两个分支,分别使用CNN支路和Transformer支路来提取特征,之后,通过一些特定的方法对两个分支的特征进行融合。例如,Conformer使用特征耦合单元(FCU)作为桥梁,使两种不同的信息相互作用,而DSNet则使用尺度对齐模块来融合两种不同的模式。并行特征融合结构的研究相比较少,现存研究存在一些问题需要改进。它们都需要在过程中进行上采样或下采样操作,可能会导致冗余信息增加或重要信息压缩,而且复杂的融合操作缺乏可行性,增加内存访问和计算量的同时,在现有优化算法下很难达到预期效果。此外,并平行特征融合结构未很好地继承CNN的样本高效性,在数据量规模较小的数据集上表现提升很小,同时,缺乏良好的可解释性,无法显式的解释并行特征融合结构的有效性。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种融合CNN与Transformer模型的图像识别网络,旨在探索CNN与Transformer模型之间更优的结合方式,以便更有效地对局部特征和全局表示进行训练建模,使图像识别网络具有更好的性能,更大的吞吐量以及更好的可解释性。
[0006]为实现上述专利技术目的,本专利技术融合CNN与Transformer模型的图像识别网络,包括依次连接的阶段0到阶段K的图像识别模块,其中,第k个阶段的图像识别模块输入的特征图F为第k

1个阶段的图像识别模块输出的特征图F

,阶段0的图像识别模块输入的特征图F是待识别的RGB图像,阶段K的图像识别模块输出特征图F

作为图像识别网络的识别结果;
[0007]其特征在于,每个阶段的图像识别模块包括一图像块映射子模块以及由特征提取子模块以及特征融合子模块为一组的一组或多组子模块组合;
[0008]所述图像块映射子模块使用非重叠的卷积对特征图F进行下采样,随后进行层归一化,得到尺寸缩小的特征图F
e
并输出,其中,阶段0的图像识别模块中,以尺寸H
×
W的RGB图像作为图像块映射子模块的输入,图像块映射子模块对RGB图像下采样4倍,并将特征图的通道数映射到C

,得到尺寸为H/4
×
W/4,通道数为C

的特征图F
e
,阶段0以后的图像识别模块中的图像块映射子模块都将特征图F的尺寸缩小2倍,并将通道数加倍,将图像块映射子模块输出的特征图F
e
尺寸记为H
′×
W


[0009]特征提取子模块包括两个支路:CNN支路以及Transformer模型支路,图像块映射子模块输出的特征图F
e
送入第一组子模块组合中分别作为CNN支路以及Transformer模型支路的输入;所述CNN支路中卷积块采用倒置残差设计的深度可分离卷积对输入的特征图F
e
进行特征提取,得到尺寸为H
′×
W

的特征图F
c
,CNN支路中卷积块使用与Transformer模型支路中相同的GELU函数,同时,在前面阶段的图像识别模块中CNN支路使用较多的卷积块,在后面阶段的图像识别模块中CNN支路使用较少的卷积块;所述Transformer模型支路在阶段0、阶段1的图像识别模块中引入了一个瓶颈结构,特征图F
e
首先经过像素解集操作,下采样因子为r,特征图的大小从H
′×
W

变为H

/r
×
W

/r,通道数变为r2C

,之后通过线性投影进行压缩,将通道数从r2C

映射到C

(C

<r2C

),最后进行层归一化,得到C

个通道,尺寸为H

/r
×
W

/r的压缩特征图,随后的Transformer块对压缩图像特征进行处理,处理后得到的特征图,通过相反的操作即扩展为r2C

个通道,像素重组操作得到通道数为C

、尺寸为H
′×
W

的特征图F
t
,从阶段2的图像识别模块开始,直接特征图F
e
送入Transformer块得到通道数为C

、尺寸为H
′×
W

的特征图F
t

[0010]特征融合子模块将CNN支路输出的特征图F
c
同一位置的像素值拼接为一个维度C

的列向量,记为x
i
,i=1,2,

,HW,将Transformer模型支路输出特征图F
t
同一位置的像素值拼接为一个维度C

的列向量x
i
,i=HW+1,HW+2,

,2HW,则第i个列向量x
i
的权重α
i
为:
[0011][0012]其中,q是一个与列向量x
i
相同维度的可学习向量,常数R为用于调整权重的比例尺度,GELU为高斯误差线性单元激活函数,softmax为归一化指数函数,T表示转置,得到的权重α
i
与特征图F
c
、特征图F
t
中对应位置的像素值相乘,得到特征图F

c
、特征图F

t
,然后将特征图F
...

【技术保护点】

【技术特征摘要】
1.一种融合CNN与Transformer模型的图像识别网络,包括依次连接的阶段0到阶段K的图像识别模块,其中,第k个阶段的图像识别模块输入的特征图F为第k

1个阶段的图像识别模块输出的特征图F

,阶段0的图像识别模块输入的特征图F是待识别的RGB图像,阶段K的图像识别模块输出特征图F

作为图像识别网络的识别结果;其特征在于,每个阶段的图像识别模块包括一图像块映射子模块以及由特征提取子模块以及特征融合子模块为一组的一组或多组子模块组合;所述图像块映射子模块使用非重叠的卷积对特征图F进行下采样,随后进行层归一化,得到尺寸缩小的特征图F
e
并输出,其中,阶段0的图像识别模块中,以尺寸H
×
W的RGB图像作为图像块映射子模块的输入,图像块映射子模块对RGB图像下采样4倍,并将特征图的通道数映射到C

,得到尺寸为H/4
×
W/4,通道数为C

的特征图F
e
,阶段0以后的图像识别模块中的图像块映射子模块都将特征图F的尺寸缩小2倍,并将通道数加倍,将图像块映射子模块输出的特征图F
e
尺寸记为H
′×
W

;特征提取子模块包括两个支路:CNN支路以及Transformer模型支路,图像块映射子模块输出的特征图F
e
送入第一组子模块组合中分别作为CNN支路以及Transformer模型支路的输入;所述CNN支路中卷积块采用倒置残差设计的深度可分离卷积对输入的特征图F
e
进行特征提取,得到尺寸为H
′×
W

的特征图F
c
,CNN支路中卷积块使用与Transformer模型支路中相同的GELU函数,同时,在前面阶段的图像识别模块中CNN支路使用较多的卷积块,在后面阶段的图像识别模块中CNN支路使用较少的卷积块;所述Transformer模型支路在阶段0、阶段1的图像识别模块中引入了一个瓶颈结构,特征图F
e
首先经过像素解集操作,下采样因子为r,特征图的大小从H
′×
W

变为H

/r
×
W

/r,通道数变为r2C

,之后通过线性投影进行压缩,将通道数从r2C

映射到C

(C
″<...

【专利技术属性】
技术研发人员:张含笑
申请(专利权)人:成都图灵志杨信息科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1