当前位置: 首页 > 专利查询>温州大学专利>正文

一种基于标签推理的多标签图像识别算法研究制造技术

技术编号:35030203 阅读:61 留言:0更新日期:2022-09-24 23:04
本发明专利技术涉及数字信息的传输技术领域,且公开了一种基于标签推理的多标签图像识别算法研究,尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块,所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征;所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦,所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播;所述标签推理模块是基于自注意力模块上对标签进行推理,本发明专利技术利用当下热门的自注意力模块对标签进行解耦并对被遮罩的标签进行推理,从而有效的构建了标签之间的相关性,最终提高多标签图像识别的性能。最终提高多标签图像识别的性能。最终提高多标签图像识别的性能。

【技术实现步骤摘要】
一种基于标签推理的多标签图像识别算法研究


[0001]本专利技术涉及图像识别
,具体为一种基于标签推理的多标签图像识别算法研究。

技术介绍

[0002]随着人工智能和深度学习的迅猛发展,计算机视觉领域的各项任务性能也获得了飞速的提升,其中图像标签识别任务是计算机视觉领域中最基础也是最重要的任务之一,该任务拟通过输入一张图片,通过特定算法提取图片特征,最终利用分类器来对其进行正确识别,传统的图像识别算法往往通过手工设定的规则来提取图像特征,这些特征通常只适用于某些特定场景,因此通用性有限,随着近些年深度学习的发展,端到端的训练方式能让网络自适应的学习出合理的特征,从而极大地提高了算法的泛化性,目前的图像标签识别工作多是聚焦于图像的单标签识别,然而在现实场景下所获得的图像往往是包含多个标签,因此研究多标签图像识别更具有现实意义,也逐渐成为当前研究的重点,然而由于多标签图像包含有多个标签,并且每张图像所包含的标签数量也不固定,因此对比单标签图像识别任务而言更具有挑战,此外,多标签图像识别任务也具有更丰富的现实应用,比如智能零售中的商品识别,目标检测和语义分割中的全局上下文特征提取,计数任务中的计数目标识别和医疗图像识别等。
[0003]传统处理多标签图像的做法是把该任务解耦成多个单标签识别任务,但是由于多标签图像具有多个标签,输出的标签组合数随着标签数量的增加呈现几何式增长,因此该方法对性能提升有限,后来研究者们发现虽然图像中包含有多个标签,但是标签之间具有相关性,比如“天空”和“白云”是强相关的标签组合,出现“白云”标签的图片往往也会出现“天空”,而“企鹅”和“沙漠”是不相关的,这两个标签就不会同时出现,因此如果能通过设计算法来充分利用上述规则,就能有效的筛选标签组合,从而减少搜索空间,通过这一现象,目前的方法利用深度学习网络来构建标签的关系,以此减小标签组合的搜索空间,从而提高最终分类的性能。
[0004]目前现有技术存在的缺陷分为以下两点:
[0005]1、由于多标签图像包含有多个标签,并且每张图像所包含的标签数量也不固定,使得无法合理地利用神经网络构建标签的关系;
[0006]2、特征提取不足,超参数是提前设计好的无法自适应,只能针对特定场景效果、普适性不强,需要较强的先验信息辅助训练。

技术实现思路

[0007]解决的技术问题
[0008]针对现有技术的不足,本专利技术提供了一种基于标签推理的多标签图像识别算法研究,基于标签推理的多标签图像识别算法,利用当下热门的自注意力模块对标签进行解耦并对被遮罩的标签进行推理,从而有效的构建了标签之间的相关性,最终提高多标签图像
识别的性能。
[0009]技术方案
[0010]为实现上述目的,本专利技术提供如下技术方案:一种基于标签推理的多标签图像识别算法研究,包括多尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块,所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征;所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦。
[0011]进一步的,所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播;所述标签推理模块是基于自注意力模块上对标签进行推理。
[0012]进一步的,所述损失函数构建模块是由两个损失函数构成,利用全连接层将其映射为预测的标签置信度,然后和标注信息计算最终的损失结果。
[0013]4、根据权利要求1

3任一所述的一种基于标签推理的多标签图像识别算法研究,其步骤如下:
[0014]S1、首先输入一张图片I,通过多尺度特征提取模块利用卷积神经网络对该图片抽取特征;
[0015]S2、当获取全局特征后,利用标签特征解耦模块中的定义标签嵌入特征将各个标签所对应的类别进行解耦;
[0016]S3、将已经获得解耦后的标签特征,利用自注意力模块对标签进行推理;
[0017]S4、对解耦后的特征通过损失函数构建模块计算最终的损失结果。
[0018]进一步的,所述神经网络,越高层输出的特征包含的语义信息越丰富,但是输出的特征越小,越容易遗漏小物体信息,而越低层则恰好相反,因此高层卷积层输出的特征虽然具有丰富的语义信息,但是由于特征大小过小的问题,会遗漏小物体信息,所以将高层特征和低层特征相融合以处理小物体丢失的问题,从而获得更加鲁棒的特征,将最后三层输出的特征记为x1、x2、x3,将融合后的特征记为x,具体算法如下:
[0019]x=f
down
(x1)+x2+f
up
(x3)∈R
C
×
H
×
W

[0020]其中需要具体说明是f
down
(
·
)和f
up
(
·
)分别代表上采样和下采样操作,C代表通道数,H和W分别代表特征的长和宽。
[0021]进一步的,所述定义标签嵌入特征Y={Y1,Y2,...,Y
N
}∈R
N
×
C
,N代表数据集中标签种类的数量,该标签嵌入特征能随着网络的学习而自适应的更新参数,最终学习出各个标签所对应的特征,接着对全局特征进行压平和转置操作,算法如下:x'=f
transpose
(f
flatten
(x))∈R
HW
×
C

[0022]其中,需要具体说明的是x

表示压平和转置之后的特征,f
flatten
(
·
)和f
transpose
(
·
)分别代表压平和转置操作,接着将标签嵌入特征和x

进行拼接以获得自注意力模块的输入特征x
embedding
,算法如下:
[0023]x
embedding
=f
cat
(x',Y)∈R
(HW+N)
×
C

[0024]其中,需要具体说明的是f
cat
(
·
)表示拼接操作,当获取自注意力模块的输入特征后,利用自注意力模块对标签特征进行解耦,自注意力模块能有效的让各个特征之间的信息互相传播,从而学习出各类别所特有的语义信息,从而实现标签特征的解耦操作,利用三个可学习矩阵将输入特征分别投影成三个矩阵:Query、Key、Value,分别记这三个矩阵为Q,
K,V,然后对这三个矩阵进行自注意力操作以获取输出特征x
attrn
,具体算法如下:
[0025][0026]其中需要具体说明的是f
softmax
(
·
)表示softmax函数,d
k
表示缩放本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标签推理的多标签图像识别算法研究,其特征在于:包括多尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块,所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征;所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦。2.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播;所述标签推理模块是基于自注意力模块上对标签进行推理。3.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述损失函数构建模块是由两个损失函数构成,利用全连接层将其映射为预测的标签置信度,然后和标注信息计算最终的损失结果。4.根据权利要求1

3任一所述的一种基于标签推理的多标签图像识别算法研究,其步骤如下:S1、首先输入一张图片I,通过多尺度特征提取模块利用卷积神经网络对该图片抽取特征;S2、当获取全局特征后,利用标签特征解耦模块中的定义标签嵌入特征将各个标签所对应的类别进行解耦;S3、将已经获得解耦后的标签特征,利用自注意力模块对标签进行推理;S4、对解耦后的特征通过损失函数构建模块计算最终的损失结果。5.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述神经网络,越高层输出的特征包含的语义信息越丰富,但是输出的特征越小,越容易遗漏小物体信息,而越低层则恰好相反,因此高层卷积层输出的特征虽然具有丰富的语义信息,但是由于特征大小过小的问题,会遗漏小物体信息,所以将高层特征和低层特征相融合以处理小物体丢失的问题,从而获得更加鲁棒的特征,将最后三层输出的特征记为x1、x2、x3,将融合后的特征记为x,具体算法如下:x=f
down
(x1)+x2+f
up
(x3)∈R
C
×
H
×
W
,其中需要具体说明是f
down
(
·
)和f
up
(
·
)分别代表上采样和下采样操作,C代表通道数,H和W分别代表特征的长和宽。6.根据权利要求3所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述定义标签嵌入特征Y={Y1,Y2,...,Y
N
}∈R
N
×
C
,N代表数据集中标签种类的数量,该标签嵌入特征能随着网络的学习而自适应的更新参数,最终学习出各个标签所对应的特征,接着对全局特征进行压平和转置操作,算法如下:x'=f
transpose
(f
flatten
(x))∈R
HW
×
C
,其中,需要具体说明的是x

表示压平和转置之后的特征,f
flatten
(
·
)和f
transpose
(
·<...

【专利技术属性】
技术研发人员:张笑钦陈钊民
申请(专利权)人:温州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1