一种非局域的图像分类装置、方法和存储介质制造方法及图纸

技术编号：29134597 阅读：18 留言：0更新日期：2021-07-02 22:30

本发明专利技术公开了一种非局域的图像分类装置、方法和存储介质，所述卷积网络由从前至后依次连接的根部模块、若干个残差模块以及非局域模块、头部模块构成；所述非局域模块由从前至后依次连接的坐标拼接模块、键值生成模块、非局域注意力模块、注意力融合模块构成；所述坐标拼接模块用于将特征图上各特征点的绝对坐标信息加入到特征向量中；所述键值生成模块输出查询向量、键向量和值向量，并输入非局域注意力模块，处理得到注意力输出张量；所述注意力融合模块的输入为非局域模块的输入以及非局域注意力模块的输出。本发明专利技术通过非局域模块使输出的特征图上的所有特征点都可以获取到全局域的信息，精度改善明显，有效提升了网络的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种非局域的图像分类装置、方法和存储介质
本专利技术属于计算机机器视觉中的图像分类的
，具体涉及一种非局域的图像分类装置、方法和存储介质。
技术介绍
目前，计算机机器视觉中的神经网络技术被广泛的应用于图像分类、目标检测、图像分割、人脸识别、行为识别等众多领域。在这些领域中，图像分类是最为基础的技术。其他领域所使用的神经网络，大都利用图像分类的神经网络作为其主干网络，在添加其他功能模块之后实现。因此，高性能的图像分类网络对于基于神经网络技术的机器视觉非常的重要。图像分类网络一般都基于卷积操作进行实现。卷积操作本质上是一个局域性的操作，卷积操作输出的特征图上的特征点，其感知野是局域的，即只能感知上一层等同与卷积核大小区域的特征信息。而常用网络的卷积核大小一般都偏小，取值常见为1x1,3x3,5x5等。虽然卷积网络可以通过堆叠卷积来增大理论感知野，但有很多研究都发现虽然深层卷积层的理论感知野很大，但实际上有效感知野仍然远小于理论值，导致卷积网络仍然在大程度上是一个偏局域的网络。这也限制了卷积网络精度提升。VisionTransformer等基于全域信息的方法，则完全舍弃了卷积操作，需要大量的训练数据才能获得较好的性能。因此，急需找到一种能够保留卷积操作图像特征提取的高效率，同时改善其局域特性限制的方法。
技术实现思路
本专利技术的目的在于提供一种非局域的图像分类装置、方法和存储介质，旨在解决上述问题。本专利技术通过非局域模块使神经网络能够获得全局性的信息，改善卷积操作只能获取局域信

【技术保护点】
1.一种非局域的图像分类装置，其特征在于，包括数据采集模块、训练模块、分类模块，所述数据采集模块用于收集数据并形成训练样本；所述训练模块用于将训练样本输入图像分类网络进行训练得到最优图像分类模型；所述分类模块用于将待测图像输入最优图像分类模型并输入分类结果；/n所述图像分类网络由从前至后依次连接的根部模块、若干个残差模块以及非局域模块、头部模块构成，所述非局域模块由从前至后依次连接的坐标拼接模块、键值生成模块、非局域注意力模块、注意力融合模块构成；所述根部模块用于将输入的图像的像素信息转换并输出由特征信息组成的特征图；多个残差模块用于逐步提取特征图中更高层次的语义信息，并输出特征图至非局域模块；所述头部模块用于将包含语义的特征图转换为图像分类的结果；/n所述坐标拼接模块用于将特征图上各特征点的绝对坐标信息加入到特征向量中；所述键值生成模块用于生成查询向量、键向量和值向量，且输入至非局域注意力模块，计算特征图上每个特征点与所有特征点的相关性并生成注意力图；所述注意力融合模块用于将注意力图得到的信息反馈回特征图中，所述注意力融合模块的输入为非局域模块的输入以及非局域注意力模块的输出。/n

【技术特征摘要】
1.一种非局域的图像分类装置，其特征在于，包括数据采集模块、训练模块、分类模块，所述数据采集模块用于收集数据并形成训练样本；所述训练模块用于将训练样本输入图像分类网络进行训练得到最优图像分类模型；所述分类模块用于将待测图像输入最优图像分类模型并输入分类结果；
所述图像分类网络由从前至后依次连接的根部模块、若干个残差模块以及非局域模块、头部模块构成，所述非局域模块由从前至后依次连接的坐标拼接模块、键值生成模块、非局域注意力模块、注意力融合模块构成；所述根部模块用于将输入的图像的像素信息转换并输出由特征信息组成的特征图；多个残差模块用于逐步提取特征图中更高层次的语义信息，并输出特征图至非局域模块；所述头部模块用于将包含语义的特征图转换为图像分类的结果；
所述坐标拼接模块用于将特征图上各特征点的绝对坐标信息加入到特征向量中；所述键值生成模块用于生成查询向量、键向量和值向量，且输入至非局域注意力模块，计算特征图上每个特征点与所有特征点的相关性并生成注意力图；所述注意力融合模块用于将注意力图得到的信息反馈回特征图中，所述注意力融合模块的输入为非局域模块的输入以及非局域注意力模块的输出。

2.根据权利要求1所述的一种非局域的图像分类装置，其特征在于，所述坐标拼接模块的表达式如下：
X'＝concat([X,coord_map],dim＝channel)
其中：
X′表示输出特征图，
X表示输入特征图，
concat表示拼接操作，
dim＝channel表示拼接的维度为特征通道的维度，
coord_map为坐标图，假定特征图X的大小[b,c,h,w]，其中，b为批次大小，c为通道数，h为特征图的高，w为特征图的宽，则coord_map的大小为[b,2,h,w]。

3.根据权利要求1所述的一种非局域的图像分类装置，其特征在于，所述键值生成模块用于生成查询向量、键向量和值向量，所述查询向量、键向量和值向量均由卷积核大小为1且输出通道等于输入通道的卷积操作以及变形操作生成，所述键向量和查询向量均进行了L2正则化；所述查询向量、键向量和值向量对应的公式为：
Q＝l2_norm(reshape(convq(X)))
K＝l2_norm(reshape(convk(X)))
V＝reshape(convv(X))
其中：
X为键值生成模块的输入；
Q、K、V分别为查询向量、键向量、值向量；
l2_norm()为L2正则化函数，正则化的通道为第1维，即C维度上；
reshape为变形，将向量的维度由[B,C,H,W]变为[B,C,H*W]，其中B为批数量，C为通道数，H为特征图的高，W为特征图的宽；
convq、convk、convv分...

【专利技术属性】
技术研发人员：卢丽，孙亚楠，韩强，闫超，
申请(专利权)人：四川翼飞视科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人