一种基于标签推理的多标签图像识别算法研究制造技术

技术编号：35030203 阅读：61 留言：0更新日期：2022-09-24 23:04

本发明专利技术涉及数字信息的传输技术领域，且公开了一种基于标签推理的多标签图像识别算法研究，尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块，所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征；所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦，所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播；所述标签推理模块是基于自注意力模块上对标签进行推理，本发明专利技术利用当下热门的自注意力模块对标签进行解耦并对被遮罩的标签进行推理，从而有效的构建了标签之间的相关性，最终提高多标签图像识别的性能。最终提高多标签图像识别的性能。最终提高多标签图像识别的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于标签推理的多标签图像识别算法研究

[0001]本专利技术涉及图像识别
，具体为一种基于标签推理的多标签图像识别算法研究。

技术介绍

[0002]随着人工智能和深度学习的迅猛发展，计算机视觉领域的各项任务性能也获得了飞速的提升，其中图像标签识别任务是计算机视觉领域中最基础也是最重要的任务之一，该任务拟通过输入一张图片，通过特定算法提取图片特征，最终利用分类器来对其进行正确识别，传统的图像识别算法往往通过手工设定的规则来提取图像特征，这些特征通常只适用于某些特定场景，因此通用性有限，随着近些年深度学习的发展，端到端的训练方式能让网络自适应的学习出合理的特征，从而极大地提高了算法的泛化性，目前的图像标签识别工作多是聚焦于图像的单标签识别，然而在现实场景下所获得的图像往往是包含多个标签，因此研究多标签图像识别更具有现实意义，也逐渐成为当前研究的重点，然而由于多标签图像包含有多个标签，并且每张图像所包含的标签数量也不固定，因此对比单标签图像识别任务而言更具有挑战，此外，多标签图像识别任务也具有更丰富的现实应用，比如智能零售中的商品识别，目标检测和语义分割中的全局上下文特征提取，计数任务中的计数目标识别和医疗图像识别等。
[0003]传统处理多标签图像的做法是把该任务解耦成多个单标签识别任务，但是由于多标签图像具有多个标签，输出的标签组合数随着标签数量的增加呈现几何式增长，因此该方法对性能提升有限，后来研究者们发现虽然图像中包含有多个标签，但是标签之间具有相关性，比如“天空”和“白云”是强相关的标签组合，出...

【技术保护点】

【技术特征摘要】
1.一种基于标签推理的多标签图像识别算法研究，其特征在于：包括多尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块，所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征；所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦。2.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播；所述标签推理模块是基于自注意力模块上对标签进行推理。3.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述损失函数构建模块是由两个损失函数构成，利用全连接层将其映射为预测的标签置信度，然后和标注信息计算最终的损失结果。4.根据权利要求1
‑
3任一所述的一种基于标签推理的多标签图像识别算法研究，其步骤如下：S1、首先输入一张图片I，通过多尺度特征提取模块利用卷积神经网络对该图片抽取特征；S2、当获取全局特征后，利用标签特征解耦模块中的定义标签嵌入特征将各个标签所对应的类别进行解耦；S3、将已经获得解耦后的标签特征，利用自注意力模块对标签进行推理；S4、对解耦后的特征通过损失函数构建模块计算最终的损失结果。5.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述神经网络，越高层输出的特征包含的语义信息越丰富，但是输出的特征越小，越容易遗漏小物体信息，而越低层则恰好相反，因此高层卷积层输出的特征虽然具有丰富的语义信息，但是由于特征大小过小的问题，会遗漏小物体信息，所以将高层特征和低层特征相融合以处理小物体丢失的问题，从而获得更加鲁棒的特征，将最后三层输出的特征记为x1、x2、x3，将融合后的特征记为x，具体算法如下：x＝f
down
(x1)+x2+f
up
(x3)∈R
C
×
H
×
W
，其中需要具体说明是f
down
(
·
)和f
up
(
·
)分别代表上采样和下采样操作，C代表通道数，H和W分别代表特征的长和宽。6.根据权利要求3所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述定义标签嵌入特征Y＝{Y1,Y2,...,Y
N
}∈R
N
×
C
,N代表数据集中标签种类的数量，该标签嵌入特征能随着网络的学习而自适应的更新参数，最终学习出各个标签所对应的特征，接着对全局特征进行压平和转置操作，算法如下：x'＝f
transpose
(f
flatten
(x))∈R
HW
×
C
，其中，需要具体说明的是x
′
表示压平和转置之后的特征，f
flatten
(
·
)和f
transpose
(
·<...

【专利技术属性】
技术研发人员：张笑钦，陈钊民，
申请(专利权)人：温州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人