【技术实现步骤摘要】
一种融合CNN与Transformer模型的图像识别网络
[0001]本专利技术属于图像识别
,更为具体地讲,涉及一种融合CNN与Transformer模型的图像识别网络。
技术介绍
[0002]卷积神经网络(Convolutional Neural Network,简称CNN)在图像处理中具有强大的局部特征提取能力,适合处理图像中的空间局部结构,而Transformer(转换器)模型则在处理全局关系和长程依赖上表现出色,适合处理图像中的全局语义信息。将两者结合,可以弥补彼此的不足,充分发挥各自的优势。基于CNN与Transformer模型的图像识别网络其结构可以分为串行特征提取结构以及平行特征融合结构两种模式。
[0003]串行特征提取结构是一类在Transformer模型中引入卷积或在CNN中引入自注意力机制,旨在获得更好的识别质量,例如BoTNet、MobileViT、CvT、ConViT等。串行特征提取结构仍有很大的进步空间。依次交替进行两种不同的操作,即串行特征提取结构可能会导致识别模式的混乱,每个操作都不能最大限度地发挥其作用,对整个串行特征提取结构的贡献有限。
[0004]平行特征融合结构并行产生两个分支,分别使用CNN支路和Transformer支路来提取特征,之后,通过一些特定的方法对两个分支的特征进行融合。例如,Conformer使用特征耦合单元(FCU)作为桥梁,使两种不同的信息相互作用,而DSNet则使用尺度对齐模块来融合两种不同的模式。并行特征融合结构的研究相比较少,现
【技术保护点】
【技术特征摘要】
1.一种融合CNN与Transformer模型的图像识别网络,包括依次连接的阶段0到阶段K的图像识别模块,其中,第k个阶段的图像识别模块输入的特征图F为第k
‑
1个阶段的图像识别模块输出的特征图F
′
,阶段0的图像识别模块输入的特征图F是待识别的RGB图像,阶段K的图像识别模块输出特征图F
′
作为图像识别网络的识别结果;其特征在于,每个阶段的图像识别模块包括一图像块映射子模块以及由特征提取子模块以及特征融合子模块为一组的一组或多组子模块组合;所述图像块映射子模块使用非重叠的卷积对特征图F进行下采样,随后进行层归一化,得到尺寸缩小的特征图F
e
并输出,其中,阶段0的图像识别模块中,以尺寸H
×
W的RGB图像作为图像块映射子模块的输入,图像块映射子模块对RGB图像下采样4倍,并将特征图的通道数映射到C
′
,得到尺寸为H/4
×
W/4,通道数为C
′
的特征图F
e
,阶段0以后的图像识别模块中的图像块映射子模块都将特征图F的尺寸缩小2倍,并将通道数加倍,将图像块映射子模块输出的特征图F
e
尺寸记为H
′×
W
′
;特征提取子模块包括两个支路:CNN支路以及Transformer模型支路,图像块映射子模块输出的特征图F
e
送入第一组子模块组合中分别作为CNN支路以及Transformer模型支路的输入;所述CNN支路中卷积块采用倒置残差设计的深度可分离卷积对输入的特征图F
e
进行特征提取,得到尺寸为H
′×
W
′
的特征图F
c
,CNN支路中卷积块使用与Transformer模型支路中相同的GELU函数,同时,在前面阶段的图像识别模块中CNN支路使用较多的卷积块,在后面阶段的图像识别模块中CNN支路使用较少的卷积块;所述Transformer模型支路在阶段0、阶段1的图像识别模块中引入了一个瓶颈结构,特征图F
e
首先经过像素解集操作,下采样因子为r,特征图的大小从H
′×
W
′
变为H
′
/r
×
W
′
/r,通道数变为r2C
′
,之后通过线性投影进行压缩,将通道数从r2C
′
映射到C
″
(C
″<...
【专利技术属性】
技术研发人员:张含笑,
申请(专利权)人:成都图灵志杨信息科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。