一种零样本图片的类别识别方法技术

技术编号:22076976 阅读:27 留言:0更新日期:2019-09-12 14:34
本发明专利技术公开了一种零样本图片的类别识别方法。依据人类的知识构建一个知识图谱来表示类别之间的显式关系,避免了在语义空间内学习隐式关系,类别之间的关系模糊、不确定的问题,同时,构造并训练一残差图卷积网络用于在类别之间迁移知识,采用内积值最大进行类别识别,这样提高了零样本图片的类别识别的准确度。

A Class Recognition Method for Zero Sample Pictures

【技术实现步骤摘要】
一种零样本图片的类别识别方法
本专利技术属于图片识别
,更为具体地讲,涉及一种零样本图片的类别识别方法。
技术介绍
传统的图片类别识别方法需要大量的标注数据来训练,而且训练得到的分类器只能识别参与训练图片的类别,对于新类别图片无能为力。但是,图片的标注过程是费时的,昂贵的,在现实中很难获取到大量的标注样本。零样本图片的类别识别的目标是识别未在训练集中出现的图片的类别。现有零样本图片的类别识别方法主要分为两种类型。第一种类型是学习一个公共的语义空间,在语义空间内将在训练集上获得的类别知识迁移到未参与训练的类别。通常基于语义信息来构造公共的语义空间。常用的语义信息有属性信息和词向量信息。基于语义信息的方法通过学习一个映射矩阵将图片的视觉特征和属性/词向量等信息映射到一个公共的空间内,使得相同类的视觉特征和属性/词向量等相互靠近,不同类相互远离。通过在可见类和不可见类之间共享映射矩阵,从而达到零样本图片的类别识别目的。第二种类型是为新类学习一个分类器。这种方法首先借助于属性/词向量等信息来学习类别之间的隐式关系,基于学习到的类别关系,为新类生成一个分类器。现有的零样本图片的类别识别方法大多基于语义信息(属性/词向量)来学习类别之间的隐式关系,基于学习到的隐式关系来迁移类别知识,这样存在以下不足:(1)、属性的标注昂贵且费时,基于属性的方法不适用于大规模的零样本图片的类别识别;(2)、词向量信息是从大型语料库中学习到的,具有很大的误差性,通过词向量信息来学习类别之间的关系通常不准确;(3)、借助于语义空间来学习类别之间的隐式关系,然而,类别之间的关系是模糊的,不确定的,同时,在语义空间内学习类别之间的隐式关系是非常困难的,导致零样本图片的识别精度很低。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种零样本图片的类别识别方法,以新构建的知识图谱来表征图片类别之间的显式关系,避免了在语义空间内学习隐式关系,同时,以新构造的残差图卷积网络,用于类别之间迁移知识,从而提高了零样本图片的类别识别准确度。为实现上述专利技术目的,本专利技术零样本图片的类别识别方法,其特征在于,包括以下步骤:(1)、构建一知识图谱来表示图片类别之间的显式关系1.1)、构造一个图,图中含有与WordNet中类别个数相同的节点,图中每个节点代表一个类别,若两个类别在WordNet中有关系,在图中将该对应的节点用边连接,所有边的权重为1;每个类别行列放置,在图中,如两个类别的边的权重为1,则将对应的行列位置设置为1,否则,设置为0,这样得到邻接矩阵A;1.2)、获取每一个类别名称的词向量,然后计算词向量之间的距离值,每个词向量按照步骤1.1)中各自类别对应的位置放置,将每个两个词向量之间的距离值置于该两个词向量对应的行列位置,得到距离矩阵;在距离矩阵中,对每一行选取K个最小的距离值并记录下其对应的类别;构造一K近邻图,K近邻图中每个节点代表一个类别,判断选取的K个最小的距离值是否小于给定的阈值,若某一最小距离值小于阈值且不为0,则在K近邻图中,将该最小距离值对应的类别与该行所对应的类别连接起来,若大于阈值则不连接;每个类别行列放置,在K近邻图中,如两个类别的边的权重为1,则将对应的行列位置设置为1,否则,设置为0,这样得到K近邻图的邻接矩阵B;1.3)、将步骤1.2)得到的K近邻图的邻接矩阵B和步骤1.1)构造的图的邻接矩阵A直接相加,得到一个知识图谱的邻接矩阵C=A+B;(2)、构造了一个类别之间迁移知识的残差图卷积网络所述残差图卷积网络包含两个模块即恒等映射连接模块和映射连接模块,其中:恒等映射连接模块将前面的图卷积层直接与后面的图卷积层逐元素相加,其公式可以定义如下:在公式(1)中,Xin为所有类别名称的词向量按行放置构成的词向量输入特征矩阵(词向量为行向量),X’out为词向量输出特征矩阵,为知识图谱的邻接矩阵C的正则化版本,为恒等映射跳跃的图卷积层,通常为一到两层,的维度与词向量输入特征矩阵Xin的维度相同即具有相同的行列数;映射连接模块将恒等映射连接模块输出的词向量输出特征矩阵X’out作为输入进行连接,得到词向量输出特征矩阵Xout,其公式可以定义如下:在公式(2),为映射图卷积层,其维度不同于词向量输出特征矩阵X’out,为线性映射层,使词向量输出特征矩阵X’out变换到映射图卷积层相同的维度,W为需要学习的参数;(3)、对残差图卷积网络进行半监督方式的训练将残差图卷积网络的输出即词向量输出特征矩阵Xout的每一行作为与词向量输入特征矩阵Xin每一行对应类别的预测分类特征向量,训练集中图片的真实分类特征向量与该图片类别对应的预测分类特征向量进行比较,采用均方误差函数作为损失函数对对残差图卷积网络进行训练,其中,均方误差函数为:其中,Loss表示损失值,M表示训练集中图片类别的个数,小于所有类别的个数N,fj表示第j个类别预测的分类特征向量(分类器),表示第j个类别真实的分类特征向量(分类器);(4)、零样本图片的识别4.1)、对一张给定的新图片,提取其视觉特征V,视觉特征V为一行向量;4.2)、将视觉特征与残差图卷积网络输出的每一个预测特征向量计算内积值Oj:Oj=fj·VT,j=1,2,....,N其中,T表示转置;4.3)、对内积值进行排序,内积值最大的预测特征向量所对应的类别即是该图片的类别。本专利技术的目的是这样实现的。为了更好的表征类别之间的关系,本专利技术零样本图片的类别识别方法依据人类的知识构建一个知识图谱来表示类别之间的显式关系,避免了在语义空间内学习隐式关系,类别之间的关系模糊、不确定的问题,同时,构造并训练一残差图卷积网络用于在类别之间迁移知识,采用内积值最大进行类别识别,这样提高了零样本图片的类别识别的准确度。附图说明图1是本专利技术零样本图片的类别识别方法一种具体实施方式流程图;图2是基于WordNet词库构造图与构造的知识图谱一具体实例图;图3是残差图卷积网络的结构示意图;图4是零样本图片的类别识别示意图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本专利技术的主要内容时,这些描述在这里将被忽略。图1是本专利技术零样本图片的类别识别方法一种具体实施方式流程图。在本实施例中,如图1所示,本专利技术零样本图片的类别识别方包括以下步骤:步骤S1:构建一知识图谱来表示图片类别之间的显示关系为了更好的表征图片类别之间的关系,本专利技术依据人类的知识构建一个知识图谱来表示图片类别之间的显式关系。在本实施例中,从WordNet词库中提取每一类别(总计32324类别,即N=32324)的名称和连接关系来构造知识图谱。步骤S1.1:构造一个图,图中含有与WordNet词库中类别个数相同的节点,图中每个节点代表一个类别,若两个类别有关系,在图中将该对应的节点用边连接,所有边的权重为1。在本实施例中,根据WordNet词库构造的图如图2(a)所示。Domesticcat(家猫)包括Persiancat(波斯猫)以及Angoracat(安哥拉猫),因此将Domesticcat与Persiancat、Angoracat连本文档来自技高网
...

【技术保护点】
1.一种零样本图片的类别识别方法,其特征在于,包括以下步骤:(1)、构建一知识图谱来表示图片类别之间的显式关系1.1)、构造一个图,图中含有与WordNet中类别个数相同的节点,图中每个节点代表一个类别,若两个类别在WordNet中有关系,在图中将该对应的节点用边连接,所有边的权重为1;每个类别行列放置,在图中,如两个类别的边的权重为1,则将对应的行列位置设置为1,否则,设置为0,这样得到邻接矩阵A;1.2)、获取每一个类别名称的词向量,然后计算词向量之间的距离值,每个词向量按照步骤1.1)中各自类别对应的位置放置,将每个两个词向量之间的距离值置于该两个词向量对应的行列位置,得到距离矩阵;在距离矩阵中,对每一行选取K个最小的距离值并记录下其对应的类别;构造一K近邻图,K近邻图中每个节点代表一个类别,判断选取的K个最小的距离值是否小于给定的阈值,若某一最小距离值小于阈值且不为0,则在K近邻图中,将该最小距离值对应的类别与该行所对应的类别连接起来,若大于阈值则不连接;每个类别行列放置,在K近邻图中,如两个类别的边的权重为1,则将对应的行列位置设置为1,否则,设置为0,这样得到K近邻图的邻接矩阵B;1.3)、将步骤1.2)得到的K近邻图的邻接矩阵B和步骤1.1)构造的图的邻接矩阵A直接相加,得到一个知识图谱的邻接矩阵C=A+B;(2)、构造了一个类别之间迁移知识的残差图卷积网络所述残差图卷积网络包含两个模块即恒等映射连接模块和映射连接模块,其中:恒等映射连接模块将前面的图卷积层直接与后面的图卷积层逐元素相加,其公式可以定义如下:...

【技术特征摘要】
1.一种零样本图片的类别识别方法,其特征在于,包括以下步骤:(1)、构建一知识图谱来表示图片类别之间的显式关系1.1)、构造一个图,图中含有与WordNet中类别个数相同的节点,图中每个节点代表一个类别,若两个类别在WordNet中有关系,在图中将该对应的节点用边连接,所有边的权重为1;每个类别行列放置,在图中,如两个类别的边的权重为1,则将对应的行列位置设置为1,否则,设置为0,这样得到邻接矩阵A;1.2)、获取每一个类别名称的词向量,然后计算词向量之间的距离值,每个词向量按照步骤1.1)中各自类别对应的位置放置,将每个两个词向量之间的距离值置于该两个词向量对应的行列位置,得到距离矩阵;在距离矩阵中,对每一行选取K个最小的距离值并记录下其对应的类别;构造一K近邻图,K近邻图中每个节点代表一个类别,判断选取的K个最小的距离值是否小于给定的阈值,若某一最小距离值小于阈值且不为0,则在K近邻图中,将该最小距离值对应的类别与该行所对应的类别连接起来,若大于阈值则不连接;每个类别行列放置,在K近邻图中,如两个类别的边的权重为1,则将对应的行列位置设置为1,否则,设置为0,这样得到K近邻图的邻接矩阵B;1.3)、将步骤1.2)得到的K近邻图的邻接矩阵B和步骤1.1)构造的图的邻接矩阵A直接相加,得到一个知识图谱的邻接矩阵C=A+B;(2)、构造了一个类别之间迁移知识的残差图卷积网络所述残差图卷积网络包含两个模块即恒等映射连接模块和映射连接模块,其中:恒等映射连接模块将前面的图卷积层直接与后面的图卷积层逐元素相加,其公式可以定义如下:在公式...

【专利技术属性】
技术研发人员:杨阳汪政位纪伟
申请(专利权)人:成都澳海川科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1