一种非局域的图像分类装置、方法和存储介质制造方法及图纸

技术编号:29134597 阅读:18 留言:0更新日期:2021-07-02 22:30
本发明专利技术公开了一种非局域的图像分类装置、方法和存储介质,所述卷积网络由从前至后依次连接的根部模块、若干个残差模块以及非局域模块、头部模块构成;所述非局域模块由从前至后依次连接的坐标拼接模块、键值生成模块、非局域注意力模块、注意力融合模块构成;所述坐标拼接模块用于将特征图上各特征点的绝对坐标信息加入到特征向量中;所述键值生成模块输出查询向量、键向量和值向量,并输入非局域注意力模块,处理得到注意力输出张量;所述注意力融合模块的输入为非局域模块的输入以及非局域注意力模块的输出。本发明专利技术通过非局域模块使输出的特征图上的所有特征点都可以获取到全局域的信息,精度改善明显,有效提升了网络的性能。

【技术实现步骤摘要】
一种非局域的图像分类装置、方法和存储介质
本专利技术属于计算机机器视觉中的图像分类的
,具体涉及一种非局域的图像分类装置、方法和存储介质。
技术介绍
目前,计算机机器视觉中的神经网络技术被广泛的应用于图像分类、目标检测、图像分割、人脸识别、行为识别等众多领域。在这些领域中,图像分类是最为基础的技术。其他领域所使用的神经网络,大都利用图像分类的神经网络作为其主干网络,在添加其他功能模块之后实现。因此,高性能的图像分类网络对于基于神经网络技术的机器视觉非常的重要。图像分类网络一般都基于卷积操作进行实现。卷积操作本质上是一个局域性的操作,卷积操作输出的特征图上的特征点,其感知野是局域的,即只能感知上一层等同与卷积核大小区域的特征信息。而常用网络的卷积核大小一般都偏小,取值常见为1x1,3x3,5x5等。虽然卷积网络可以通过堆叠卷积来增大理论感知野,但有很多研究都发现虽然深层卷积层的理论感知野很大,但实际上有效感知野仍然远小于理论值,导致卷积网络仍然在大程度上是一个偏局域的网络。这也限制了卷积网络精度提升。VisionTransformer等基于全域信息的方法,则完全舍弃了卷积操作,需要大量的训练数据才能获得较好的性能。因此,急需找到一种能够保留卷积操作图像特征提取的高效率,同时改善其局域特性限制的方法。
技术实现思路
本专利技术的目的在于提供一种非局域的图像分类装置、方法和存储介质,旨在解决上述问题。本专利技术通过非局域模块使神经网络能够获得全局性的信息,改善卷积操作只能获取局域信息的缺陷,从而达到提升网络精度的目的。本专利技术主要通过以下技术方案实现:一种非局域的图像分类装置,包括数据采集模块、训练模块、分类模块,所述数据采集模块用于收集数据并形成训练样本;所述训练模块用于将训练样本输入图像分类网络进行训练得到最优图像分类模型;所述分类模块用于将待测图像输入最优图像分类模型并输入分类结果;所述图像分类网络由从前至后依次连接的根部模块、若干个残差模块以及非局域模块、头部模块构成,所述非局域模块由从前至后依次连接的坐标拼接模块、键值生成模块、非局域注意力模块、注意力融合模块构成;所述根部模块用于将输入的图像的像素信息转换并输出由特征信息组成的特征图;多个残差模块用于逐步提取特征图中更高层次的语义信息,并输出特征图至非局域模块;所述头部模块用于将包含语义的特征图转换为图像分类的结果;所述坐标拼接模块用于将特征图上各特征点的绝对坐标信息加入到特征向量中;所述键值生成模块用于生成查询向量、键向量和值向量,且输入至非局域注意力模块,计算特征图上每个特征点与所有特征点的相关性并生成注意力图;所述注意力融合模块用于将注意力图得到的信息反馈回特征图中,所述注意力融合模块的输入为非局域模块的输入以及非局域注意力模块的输出。本专利技术中所述根部模块用于将输入图像的像素信息,转换为粗略的特征信息,输出为这些信息组成的特征图。所述残差模块采用了多个卷积操作,逐步的提取出包含更为精细,包含更丰富语义信息的特征信息,输出为这些信息组成的特征图。多个残差模块的叠加,会逐步的提取出更为高层次的语义信息。所述非局域模块,添加在部分的残差模块之后。由于残差模块主要由卷积层构成。卷积操作的特点是,某个特征点的输出结果,只受到卷积核大小区域的其他特征点影响,即带有局域性的特点。图像信息天然存在一定的局域性,如某个像素,一般是与它周围的一些像素一起构成某个形状,或者物体。因此卷积操作在提取特征时效率较高。但是图像中也存在非局域的信息,如有时候需要同时利用到图像中左边出现的形状和右边出现的形状,才能判断图像中的物体种类。所述头部模块,将包含语义信息的特征图,转换为图像分类的结果。所述非局域模块具体工作原理如下:1)坐标拼接模块,将坐标信息添加进特征信息中,进一步强化特征的空间信息,提升后续注意力图的精度。2)键值生成模块和非局域注意力模块,用于计算特征图上,每个特征点与所有特征点的相关性,并生成注意力图。相关性越高,注意力图上的值越大。与卷积操作最大的区别是,这个相关性是与所有特征点都进行计算,不再局限于卷积核大小区域,因此是非局域的。3)注意力融合模块构成将注意力图得到的信息,反馈回特征图中,从而改善由残差模块得到特征图,缺乏非局域信息的缺陷。为了更好地实现本专利技术,进一步地,所述根部模块由从前至后依次连接卷积层、批归一化层和激活层并封装得到。采用并行的主分支和残差分支封装得到残差模块;主分支由从前至后按卷积层、批归一化层、激活层的顺利重复数次后封装而成;若残差模块进行下采样,则旁路分支由卷积层、批归一化层构成;若残差模块不进行下采样,则旁路分支为恒等模块,即直接将模块的输入作为输出。所述头部模块由从前至后依次连接全局平均池化层、全连接层和激活层封装得到。将根部模块、数个残差模块和非局域模块,头部模块依次连接,得到非局域的卷积网络。非局域模块的连接顺序和数量,可以根据应用的需求进行调整。为了更好地实现本专利技术,进一步地,所述坐标拼接模块的表达式如下:X'=concat([X,coord_map],dim=channel)其中:X′表示输出特征图,X表示输入特征图,concat表示拼接操作,dim=channel表示拼接的维度为特征通道的维度,coord_map为坐标图,假定特征图X的大小[b,c,h,w],其中,b为批次大小,c为通道数,h为特征图的高,w为特征图的宽,则coord_map的大小为[b,2,h,w]。为了更好地实现本专利技术,进一步地,所述键值生成模块用于生成查询向量、键向量和值向量,所述查询向量、键向量和值向量均由卷积核大小为1且输出通道等于输入通道的卷积操作以及变形操作生成;键向量和查询向量均进行了L2正则化,使得注意力的值取决于键向量和查询向量的夹角,即两个向量在高维空间的方向上是否相近,而不是向量本身的模的大小,所述查询向量、键向量和值向量对应的公式为:Q=l2_norm(reshape(convq(X)))K=l2_norm(reshape(convk(X)))V=reshape(convv(X))其中:X为键值生成模块的输入;Q、K、V分别为查询向量、键向量、值向量;l2_norm()为L2正则化函数,正则化的通道为第1维,即C维度上;reshape为变形,将向量的维度由[B,C,H,W]变为[B,C,H*W],其中B为批数量,C为通道数,H为特征图的高,W为特征图的宽;convq、convk、convv分别为查询向量、键向量和值向量的卷积操作函数。所述非局域模块首先采用了坐标拼接模块,显式的将特征图上各特征点的绝对坐标信息加入到特征向量中。为了更好地实现本专利技术,进一步地,所述非局域注意力模块首先将查询向量、键向量生成注意力张量,且计算公式如下:Attn=softmax(exp(s*QT×K)其中:...

【技术保护点】
1.一种非局域的图像分类装置,其特征在于,包括数据采集模块、训练模块、分类模块,所述数据采集模块用于收集数据并形成训练样本;所述训练模块用于将训练样本输入图像分类网络进行训练得到最优图像分类模型;所述分类模块用于将待测图像输入最优图像分类模型并输入分类结果;/n所述图像分类网络由从前至后依次连接的根部模块、若干个残差模块以及非局域模块、头部模块构成,所述非局域模块由从前至后依次连接的坐标拼接模块、键值生成模块、非局域注意力模块、注意力融合模块构成;所述根部模块用于将输入的图像的像素信息转换并输出由特征信息组成的特征图;多个残差模块用于逐步提取特征图中更高层次的语义信息,并输出特征图至非局域模块;所述头部模块用于将包含语义的特征图转换为图像分类的结果;/n所述坐标拼接模块用于将特征图上各特征点的绝对坐标信息加入到特征向量中;所述键值生成模块用于生成查询向量、键向量和值向量,且输入至非局域注意力模块,计算特征图上每个特征点与所有特征点的相关性并生成注意力图;所述注意力融合模块用于将注意力图得到的信息反馈回特征图中,所述注意力融合模块的输入为非局域模块的输入以及非局域注意力模块的输出。/n

【技术特征摘要】
1.一种非局域的图像分类装置,其特征在于,包括数据采集模块、训练模块、分类模块,所述数据采集模块用于收集数据并形成训练样本;所述训练模块用于将训练样本输入图像分类网络进行训练得到最优图像分类模型;所述分类模块用于将待测图像输入最优图像分类模型并输入分类结果;
所述图像分类网络由从前至后依次连接的根部模块、若干个残差模块以及非局域模块、头部模块构成,所述非局域模块由从前至后依次连接的坐标拼接模块、键值生成模块、非局域注意力模块、注意力融合模块构成;所述根部模块用于将输入的图像的像素信息转换并输出由特征信息组成的特征图;多个残差模块用于逐步提取特征图中更高层次的语义信息,并输出特征图至非局域模块;所述头部模块用于将包含语义的特征图转换为图像分类的结果;
所述坐标拼接模块用于将特征图上各特征点的绝对坐标信息加入到特征向量中;所述键值生成模块用于生成查询向量、键向量和值向量,且输入至非局域注意力模块,计算特征图上每个特征点与所有特征点的相关性并生成注意力图;所述注意力融合模块用于将注意力图得到的信息反馈回特征图中,所述注意力融合模块的输入为非局域模块的输入以及非局域注意力模块的输出。


2.根据权利要求1所述的一种非局域的图像分类装置,其特征在于,所述坐标拼接模块的表达式如下:
X'=concat([X,coord_map],dim=channel)
其中:
X′表示输出特征图,
X表示输入特征图,
concat表示拼接操作,
dim=channel表示拼接的维度为特征通道的维度,
coord_map为坐标图,假定特征图X的大小[b,c,h,w],其中,b为批次大小,c为通道数,h为特征图的高,w为特征图的宽,则coord_map的大小为[b,2,h,w]。


3.根据权利要求1所述的一种非局域的图像分类装置,其特征在于,所述键值生成模块用于生成查询向量、键向量和值向量,所述查询向量、键向量和值向量均由卷积核大小为1且输出通道等于输入通道的卷积操作以及变形操作生成,所述键向量和查询向量均进行了L2正则化;所述查询向量、键向量和值向量对应的公式为:
Q=l2_norm(reshape(convq(X)))
K=l2_norm(reshape(convk(X)))
V=reshape(convv(X))
其中:
X为键值生成模块的输入;
Q、K、V分别为查询向量、键向量、值向量;
l2_norm()为L2正则化函数,正则化的通道为第1维,即C维度上;
reshape为变形,将向量的维度由[B,C,H,W]变为[B,C,H*W],其中B为批数量,C为通道数,H为特征图的高,W为特征图的宽;
convq、convk、convv分...

【专利技术属性】
技术研发人员:卢丽孙亚楠韩强闫超
申请(专利权)人:四川翼飞视科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1