一种图像识别方法和装置制造方法及图纸

技术编号:29200762 阅读:21 留言:0更新日期:2021-07-10 00:34
本发明专利技术公开了图像识别方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:接收图像信息,输入至全卷积神经网络中,生成特征图;基于所述特征图,对每个类别标签的语义区域进行语义特定表示;利用基于标签共现的知识图谱对所述语义特征表示进行关联,进而将其用于预测标签的分布。该实施方式能够解决现有技术中学习到图像中语义区域之间的相互关联较为困难、不准确的问题。不准确的问题。不准确的问题。

【技术实现步骤摘要】
一种图像识别方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种图像识别方法和装置。

技术介绍

[0002]多标签图像分类是一种基础但应用却很广泛的计算机视觉任务,因为在现实世界中,一张图像往往包含多个不同的语义对象,如一张风景图中可能有大海、别墅、游艇等语义对象。最近,它受到越来越多的关注,并在图像的内容检索和推荐系统中得到大量应用。多标签分类依然存在很多问题,如图像的视角变换,语义目标的规格大小不一,光照因子的影响和部分遮挡等问题。如何挖掘图像中多标签对应的语义特征区域并且利用这些语义特征区域之间的关联信息,是多标签图像分类尚未解决却具有挑战性的任务。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]在现有技术中,虽然通过搜索语义感知区域和建模标签关联性已取得了进展,但是模型效果仍不理想。由于缺乏监督和指导,目前只能粗略地定位语义区域。而且,很难完全学习到语义区域之间的相互关联,也没有明确地模拟标签共现。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种图像识别方法和装置,能够解决现有技术中学习到图像中语义区域之间的相互关联较为困难、不准确的问题。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种图像识别方法,包括接收图像信息,输入至全卷积神经网络中,生成特征图;基于所述特征图,对每个类别标签的语义区域进行语义特定表示;利用基于标签共现的知识图谱对所述语义特征表示进行关联,进而将其用于预测标签的分布。
[0007]可选地,基于所述特征图,对每个类别标签的语义区域进行语义特定表示,包括:
[0008]基于所述特征图,对每个类别标签的语义区域采用预设的词嵌入模型提取语义嵌入向量;
[0009]根据语义注意力机制,学习对应于该标签类别的语义嵌入向量,以获得标签类别的特征向量。
[0010]可选地,根据语义注意力机制,学习对应于该标签类别的语义嵌入向量,以获得标签类别的特征向量,包括:
[0011]根据每个类别标签的语义区域,获取语义区域内的每个位置点;
[0012]利用低秩双线性池化的方法,融合每个位置点相应的特征图和语义嵌入向量得到每个位置点的特征向量;
[0013]在语义嵌入向量的指导下,计算每个位置点的注意系数;
[0014]对所有位置点的注意系数与特征向量的乘积求和,以获得标签类别的特征向量。
[0015]可选地,计算每个位置点的注意系数之后,包括:
[0016]使用逻辑回归函数对所有位置点的注意系数进行归一化处理;
[0017]对所有位置点归一化后的注意系数与特征向量的乘积求和,以获得标签类别的特征向量。
[0018]可选地,利用基于标签共现的知识图谱对所述语义特征表示进行关联,包括:
[0019]基于涵盖标签类别的数据集,利用标签注释计算所有标签类别对之间的关联概率,以获得基于标签共现的知识图谱;
[0020]采用门控循环更新机制,通过所述知识图谱学习每个标签类别的语义特征表示以进行关联。
[0021]可选地,采用门控循环更新机制,通过所述知识图谱学习每个标签类别的语义特征表示以进行关联,包括:
[0022]针对每个标签类别,获取在时间步长处的隐藏状态;
[0023]根据标签类别的隐藏状态,基于所述知识图谱聚合来自邻居标签类别的消息,以获得聚合后的标签类别,进而更新隐藏状态以及通过门控循环单元的门控机制更新在前一时间步长处的隐藏状态;
[0024]循环上述过程,直至获得标签类别的最终隐藏状态,进而关联每个标签类别的语义特征表示。
[0025]可选地,还包括:
[0026]基于深度残差网络实现特征提取器,以将图像信息输入至全卷积神经网络中,生成特征图。
[0027]另外,根据本专利技术实施例的一个方面,提供了一种图像识别装置,包括接收模块,用于接收图像信息,输入至全卷积神经网络中,生成特征图;基于所述特征图,对每个类别标签的语义区域进行语义特定表示;识别模块,用于利用基于标签共现的知识图谱对所述语义特征表示进行关联,进而将其用于预测标签的分布。
[0028]根据本专利技术实施例的另一个方面,还提供了一种电子设备,包括:
[0029]一个或多个处理器;
[0030]存储装置,用于存储一个或多个程序,
[0031]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一图像识别实施例所述的方法。
[0032]根据本专利技术实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一基于图像识别实施例所述的方法。
[0033]上述专利技术中的一个实施例具有如下优点或有益效果:本专利技术通过接收图像信息,输入至全卷积神经网络中,生成特征图;基于所述特征图,对每个类别标签的语义区域进行语义特定表示;利用基于标签共现的知识图谱对所述语义特征表示进行关联,进而将其用于预测标签的分布。从而,本专利技术能够更好地学习语义特征区域,并且可以探索与多标记图像识别的交互。
[0034]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0035]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0036]图1是根据本专利技术第一实施例的图像识别方法的主要流程的示意图;
[0037]图2是根据本专利技术第二实施例的图像识别方法的主要流程的示意图;
[0038]图3是根据本专利技术实施例的图像识别装置的主要模块的示意图;
[0039]图4是本专利技术实施例可以应用于其中的示例性系统架构图;
[0040]图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0041]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0042]图1是根据本专利技术实施例的图像识别方法的主要流程的示意图,所述图像识别方法可以包括:
[0043]步骤S101,接收图像信息,输入至全卷积神经网络中,生成特征图。
[0044]较佳地,基于深度残差网络实现特征提取器,以将图像信息输入至全卷积神经网络中,生成特征图。优选地,基于ResNet-101实现特征提取器。其中,全卷积神经网络为能够实现像素级别的分类。
[0045]步骤S102,基于所述特征图,对每个类别标签的语义区域进行语义特定表示。
[0046]较佳地,基于所述特征图,对每个类别标签的语义区域采用预设的词嵌入模型提取语义嵌入向量。然后,根据语义注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别方法,其特征在于,包括:接收图像信息,输入至全卷积神经网络中,生成特征图;基于所述特征图,对每个类别标签的语义区域进行语义特定表示;利用基于标签共现的知识图谱对所述语义特征表示进行关联,进而将其用于预测标签的分布。2.根据权利要求1所述的方法,其特征在于,基于所述特征图,对每个类别标签的语义区域进行语义特定表示,包括:基于所述特征图,对每个类别标签的语义区域采用预设的词嵌入模型提取语义嵌入向量;根据语义注意力机制,学习对应于该标签类别的语义嵌入向量,以获得标签类别的特征向量。3.根据权利要求2所述的方法,其特征在于,根据语义注意力机制,学习对应于该标签类别的语义嵌入向量,以获得标签类别的特征向量,包括:根据每个类别标签的语义区域,获取语义区域内的每个位置点;利用低秩双线性池化的方法,融合每个位置点相应的特征图和语义嵌入向量得到每个位置点的特征向量;在语义嵌入向量的指导下,计算每个位置点的注意系数;对所有位置点的注意系数与特征向量的乘积求和,以获得标签类别的特征向量。4.根据权利要求3所述的方法,其特征在于,计算每个位置点的注意系数之后,包括:使用逻辑回归函数对所有位置点的注意系数进行归一化处理;对所有位置点归一化后的注意系数与特征向量的乘积求和,以获得标签类别的特征向量。5.根据权利要求1所述的方法,其特征在于,利用基于标签共现的知识图谱对所述语义特征表示进行关联,包括:基于涵盖标签类别的数据集,利用标签注释计算所有标签类别对之间的关联概率,...

【专利技术属性】
技术研发人员:刘义明
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1