基于图注意力网络的多标签图像识别方法技术

技术编号:28713986 阅读:24 留言:0更新日期:2021-06-06 01:13
本发明专利技术为一种基于图注意力网络的多标签图像识别方法,包括:第一步,待识别的多标签图像经过卷积神经网络输入层的预处理后进入卷积神经网络,利用全局共现特征提取模块提取共现特征矩阵;第二步,利用待识别的多标签图像的标签节点之间的条件概率,构建标签节点之间的邻接矩阵;第三步,将邻接矩阵作为图注意力网络的输入,经过图注意力网络学习得到学习后的矩阵;第四步,将共现特征矩阵与学习后的矩阵进行线性相乘,得到识别结果。该方法利用全局共现特征提取模块提取图像中的共现特征矩阵,提取图像全局共现特征与总体信息;通过图注意力网络的注意力机制计算标签节点之间的关联性,对每个标签节点自适应分配不同的权重,有利于提高识别精度。有利于提高识别精度。有利于提高识别精度。

【技术实现步骤摘要】
基于图注意力网络的多标签图像识别方法


[0001]本专利技术涉及计算机图像处理领域,具体是一种基于图注意力网络的多标签图像识别方法。

技术介绍

[0002]图像识别技术能够代替人力去处理大量繁多复杂的图像,图像识别被广泛应用于多个领域,如医学诊断、智能图像管理、相册搜索等。
[0003]在众多的图像信息处理中,图像识别实际上是一个分类的过程,即寻找识别出图像中固有的特征,使其区分于其他不同类别的图像而归类,这就要求所选取的特征为最具有区别性的特征,最具有区别性的特征可以很好地区分于不同类别的图像,同时该特征可以形象地描述图像,即选取拥有较小的类内距的同时尽量拥有较大的类间距的图像特征,这些特征在同类图像之间差异较小,在不同类别的图像之间差异较大。
[0004]随着卷积神经网络(CNNs)的出现,图像识别的整体性能得到了极大的提高。CNNs中的卷积层主要利用一定规格的滤波器实现空间特征的提取,即对各个像素点及其相邻像素点进行加权求和的运算来构造特征图。CNNs一般具有输入层、卷积层、激活层、池化层、输出层五个层级结构。其中,对图像进行预处理操作一般发生在输入层,图像经由输入层的裁剪、伸缩及标准化之后进入卷积层通过卷积操作提取特征,进行局部感知,获取特征图。激活层的目的是为了增强整个网络的表达能力,通常是对卷积层的输出结果做一次非线性映射,常见的激活函数有sigmoid、tanh、relu、leaky relu等。池化层实际上也可以被称为欠采样或下采样层,主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性,最常见的有最大池化(Max Pooling)和平均池化(Average Pooling)两种。在池化层后是输出层,即全连接层,后接分类器,如softmax分类器等。
[0005]近几年,许多基于CNNs的经典图像分类网络模型被提出,如AlexNet模型、GoogLeNet模型、VGGNet模型、ResNet残差网络等。其中,ResNet残差网络在2015年首次被提出,其中残差学习的思想有效地解决了传统网络模型在信息传递的过程中容易将有效信息丢失,同时还会出现梯度消失或梯度爆炸的问题,该网络不仅可以加速深层网络的训练,同时可以有效地提升图像识别的准确率。
[0006]最新研究表明,以CNNs为基础的模型可以简单地提高单标签图像的识别速度和精度,使得单标签图像识别有了重要的进步。然而,在日常生活的场景中,大多数的图像中不仅仅只有一个事物,而是存在多个物体,将这类图像中的每个物体设为一个标签,那么这些拥有多个标签同时出现的图像便可称作多标签图像。与传统的单标签图像识别相比,多标签图像识别的任务需要预测图像中的一组标签,所以更加复杂。比如一张图片中包含猫、狗和球三个物体,那么便可以为图像赋予猫、狗、球三个标签,即通过这三个标签将图像分到三个不同的类别中。由于现实生活中狗与猫两个事物共同出现在一张图像上的可能性远远大于它们与球出现在同一图像中,因此三个标签之间的权重占比是不一样的。
[0007]由于多标签图像中各个标签之间存在相对复杂的关联性,多标签图像识别技术需
要对图像信息和图像中的类别标签有更加充分的了解,因此针对多标签的特征提取与识别研究更为重要。
[0008]传统的多标签图像识别方法大多数以手工提取特征为主,为每一个类别标签独立地训练一个二分类器,并将得到的各个标签的结果进行整合,最终得到原图像的多标签分类结果。随着深度学习网络的发展,将CNNs扩展到多标签图像识别问题上,其实质是将其转化为多个单标签问题进行迭代训练,依旧是单标签图像的识别操作,只是对每个目标进行单个识别,忽略了各个目标之间的关联性与图像中多个标签之间的共现依赖关系,最终导致了多标签图像识别准确率不高,效果差与效率低的结果。
[0009]为了建立各个标签之间的相关性,是在多标签图像识别模型中引入图卷积神经网络(GCN)。图卷积神经网络与传统卷积网络不同,它的操作对象没有良好规范的欧式结构特征,而是通过节点之间的邻接关系来使相关信息在节点之间流动。卷积神经网络的局限性在于它的应用针对的都是欧式空间里的结构化数据,而现实生活中,许多数据属于非欧式结构数据。非欧式结构数据表示以其中的一个节点为中心,它的邻接节点不会像传统的结构化数据一样整齐排列,而是数目不一,杂乱无章的,如化学分子结构、社交网络都属于典型的非欧式结构数据。这类数据可用图结构的点和边表示。图结构模型拥有更强大的表示能力,也更加复杂。现存的基于图的多标签图像识别的模型大多数采用的是成对兼容概率或者共现概率来建立标签之间的共现关系,然而这些模型通常不能建立图像中的高阶关系。
[0010]总之,目前存在的基于深度学习的多标签识别方法既没有充分考虑不同目标之间的共现特征,从而忽略了类别上的关联性,也没有充分利用图像中的高阶特征,降低了多标签图像识别的准确性。

技术实现思路

[0011]针对现有技术的不足,本专利技术拟解决的技术问题是,提供一种基于图注意力网络的多标签图像识别方法。
[0012]本专利技术解决所述技术问题采用的技术方案如下:
[0013]一种基于图注意力网络的多标签图像识别方法,其特征在于,该方法包括以下步骤:
[0014]第一步,待识别的多标签图像经过卷积神经网络输入层的预处理后进入到卷积神经网络中,利用全局共现特征提取模块提取共现特征矩阵X;全局共现特征提取模块包括压缩和扩充两个过程;
[0015]第二步,利用待识别的多标签图像的标签节点之间的条件概率,构建标签节点之间的邻接矩阵A;
[0016]第三步,将邻接矩阵A作为图注意力网络的输入,经过图注意力网络学习得到矩阵A


[0017]第四步,按照式(7)将第一步得到的共现特征矩阵X与第三步得到的矩阵A

进行线性相乘,得到预测值即识别结果;
[0018][0019]通过上述第一步至第四步完成多标签图像的识别。
[0020]第一步中全局共现特征提取模块的具体过程为:
[0021]设全局共现特征提取模块的初始输入为大小为h
×
w
×
c的3D张量,h代表空间高度,w代表空间宽度,c为通道数;全局共现特征提取模块的初始输入经过卷积操作,得到矩阵N;设N
T
为矩阵N的转置矩阵,常量q=h
×
w,I是大小为q
×
q的单位矩阵,J是大小为q
×
q的全1矩阵,变换矩阵利用式(1)计算协方差矩阵K;
[0022][0023]对协方差矩阵K进行标准化,得到标准化后的协方差矩阵K

,至此完成全局共现特征提取模块的压缩过程;
[0024]将标准化后的协方差矩阵K

进行组卷积操作,得到矩阵R,矩阵R经过卷积操作得到权重向量;
[0025]然后将全局共现特征提取模块的初始输入与权重向量每个通道对应的元素线性相乘,得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力网络的多标签图像识别方法,其特征在于,该方法包括以下步骤:第一步,待识别的多标签图像经过卷积神经网络输入层的预处理后进入到卷积神经网络中,利用全局共现特征提取模块提取共现特征矩阵X;全局共现特征提取模块包括压缩和扩充两个过程;第二步,利用待识别的多标签图像的标签节点之间的条件概率,构建标签节点之间的邻接矩阵A;第三步,将邻接矩阵A作为图注意力网络的输入,经过图注意力网络学习得到矩阵A

;第四步,按照式(7)将第一步得到的共现特征矩阵X与第三步得到的矩阵A

进行线性相乘,得到预测值即识别结果;通过上述第一步至第四步完成多标签图像的识别。2.根据权利要求1所述的基于图注意力网络的多标签图像识别方法,其特征在于,第一步中全局共现特征提取模块的具体过程为:设全局共现特征提取模块的初始输入为大小为h
×
w
×
c的3D张量,h代表空间高度,w代表空间宽度,c为通道数;全局共现特征提取模块的初始输入经过卷积操作,得到矩阵N;设N
T
为矩阵N的转置矩阵,常量q=h
×
w,I是大小为q
×
q的单位矩阵,J是大小为q
×
q的全1矩阵,变换矩阵利用式(1)计算协方差矩阵K;对协方差矩阵K进行标准化,得到标准化后的协方差矩阵K

,至...

【专利技术属性】
技术研发人员:班晓晓申伟昊韩锦恒向顺许乾剑张记龙郭世杰王元全
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1