当前位置: 首页 > 专利查询>天津大学专利>正文

基于多组间因子分析的零样本图像分类方法技术

技术编号:15087585 阅读:34 留言:0更新日期:2017-04-07 17:19
一种基于多组间因子分析的零样本图像分类方法,包括:使用训练数据的视觉特征及其相应类别的语义特征构建协方差矩阵;求解协方差矩阵的特征值,选择最大的d个特征值对应的d维特征向量作为映射矩阵;在验证集中学习得到下式中的权重;使用映射矩阵,将测试数据的视觉特征和未见过的类别的语义特征映射至公共空间;对测试数据进行分类。本发明专利技术能够寻求图像的视觉特征与多个模态的语义特征之间的公共空间,其在零样本图像分类中可以取得更高的准确率,因此是一种有效的零样本图像分类方法,本发明专利技术的方法简单易行,效果优良。除了零样本图像分类问题,同时也能适应其他的多模态分类、检索问题。

【技术实现步骤摘要】

本专利技术涉及一种实现零样本图像分类的方法。特别是涉及一种通过多组间因子分析方法,建立图像的视觉空间与图像类别的语义空间之间的联系,从而实现零样本图像分类的基于多组间因子分析的零样本图像分类方法
技术介绍
对于传统的图像分类系统,要想准确识别出某类图像,必须给出相应的带标签的训练数据。但训练数据的标签往往是难以获得的,零样本图像分类就是解决类别标签缺失问题的一种有效手段,其目的在于模仿人类无需看过实际视觉样例,就能认出新的类别的能力。零样本图像分类系统通过有标签的训练数据,也就是已经见过的类别,在视觉空间和语义空间之间建立映射关系。然后根据这个映射关系,将测试数据的视觉特征与未见过的类别的语义特征相联系,选择语义最接近的类别作为测试数据的标签。在零样本图像分类中,对于未见过的类别的测试图像和相应的类别名称,需要借助语义空间建立联系。在语义空间中,每一个类别名称都被表示成一个高维向量。早期工作中,这个语义空间通常是基于属性的,于是每个类别名称就能表示成一个属性向量。例如Lampert等人对50类动物图像标注了85个语义属性,比如对象的颜色、形状等,用其作为高级语义描述方式。近年来,随着自然语言处理技术的发展,基于文本矢量的语义空间逐渐流行。常用的文本矢量提取方法是Mikolov等人提出的Word2Vec,它是一种无监督的方法,可以将语料库中的单词用向量来表示,并且向量之间的相似度可以很好的反映单词语义上的相似度。在给定的语义空间中求得已见过的和未见过的类别的语义特征向量后,各类别间的语义相关性就可以由语义特征向量之间的距离求出。然而,图像是由视觉空间中的视觉特征向量表示的,由于语义鸿沟的存在,它不能与语义空间的特征向量直接建立联系。现有的方法大多通过已见过的类别图片的视觉特征和相应标签的语义特征,学习一个从视觉空间映射到语义空间的映射函数。然后,通过这个映射函数将测试图像的视觉特征映射至语义空间,得到预测的语义特征,再找出离它最近的未见过类别的语义特征,从而确定所属类别。但是,单种模态的语义特征构成的语义空间往往不能充分的描述数据集的类别结构。因此可以从以下两个方面进行改进:一、将视觉特征和语义特征映射至一个公共空间,然后进一步对它们建立联系;二、使用多种模态的语义特征,从多个角度对数据集的类别结构进行描述。多组间因子分析正好可以同时满足这两个需求。通常的零样本图像分类方法是将图像的视觉特征映射到类别名称的语义特征空间,然后进行分类。但是,类别名称的语义特征构成的原始空间往往不能很好地描绘数据集的类别结构。
技术实现思路
本专利技术所要解决的技术问题是,提供一种基于多组间因子分析的零样本图像分类方法,可以将训练图像的视觉特征和图像类别名称的语义特征映射到一个公共空间。在这个公共空间中,图像的视觉特征和相应的语义特征具有良好的对应关系。对于新输入的测试图像,将它的视觉特征映射到公共空间,找到与其最相近的未见过的类别的语义特征,就可以确定测试图像的所属类别。本专利技术所采用的技术方案是:一种基于多组间因子分析的零样本图像分类方法,其特征在于,包括如下步骤:1)使用训练数据的视觉特征X1及其相应类别的语义特征X2,…Xc构建协方差矩阵M;2)求解协方差矩阵M的特征值,选择最大的d个特征值对应的d维特征向量作为映射矩阵W;3)在验证集中学习得到下式中的权重αik*=argmaxk[Σi=2cαisim(W1Txj,WiTyik)],---(4)]]>k=1,2,...,n.式中,xj是验证数据的视觉特征,是与xj相对应类别的第k个模态的语义特征,sim(a,b)=aTb/(||a||·||b||),为两个向量的距离;4)使用映射矩阵W,将测试数据的视觉特征和未见过的类别的语义特征yk映射至公共空间;5)用步骤3)中的公式对测试数据进行分类,式中的k*是测试数据相应的类别。2.根据权利要求1所述的基于多组间因子分析的零样本图像分类方法,其特征在于,步骤1)中所述的协方差矩阵M为:Mij=0,i=jXiXjT,i≠j.---(1)]]>式中,c是模态的个数。3.根据权利要求1所述的基于多组间因子分析的零样本图像分类方法,其特征在于,步骤2)中所述的求解协方差矩阵M的特征值是由下式得到:MW=λW(2)其中,λ为特征值。4.根据权利要求1所述的基于多组间因子分析的零样本图像分类方法,其特征在于,步骤2)中取得特征值λ后,根据预先设定的公共空间维数d,选择最大的d个特征值对应的d维特征向量W,进而由公式W=[W1T,W2T,...,WcT]T.---(3)]]>得到视觉特征的映射矩阵W1,以及各个语义特征的映射矩阵Wi,i∈[2,c]。本专利技术的基于多组间因子分析的零样本图像分类方法,具有以下有益效果:1、通常的方法只能寻求图像的视觉特征与单个模态的语义特征之间的公共空间,本专利技术的多组间因子分析能够寻求图像的视觉特征与多个模态的语义特征之间的公共空间。2、多个模态的语义特征能够从不同角度对类别名称进行描述,从而达到更好的描述效果。经过实验验证,与其他只能使用单个模态的语义特征的方法相比,本专利技术设计的算法在零样本图像分类中可以取得更高的准确率,因此是一种有效的零样本图像分类方法。3、本专利技术的方法简单易行,效果优良。除了零样本图像分类问题,同时也能适应其他的多模态分类、检索问题。具体实施方式下面结合实施例对本专利技术的基于多组间因子分析的零样本图像分类方法做出详细说明。零样本图像分类属于机器学习中的图像分类问题。分类问题是指,根据已知的训练数据集学习一个分类器,然后利用这个分类器对新的输入实例进行分类。零样本图像分类也是分类问题,只是在训练数据集中没有出现过新的测试数据的类别。本专利技术通过多组间因子分析方法,建立图像的视觉空间与图像类别的语义空间之间的联系,从而实现零样本图像分类。多组间因子分析的目标是将样本多个模态的特征映射至一个公共空间,使得所有样本映射后所有特征的协方差之和最大。在这个公共空间中,图像的视觉特征和相应的语义特征具有良好的对应关系。对于新输入的测试图像,将它的视觉特征映射到公共空间,找到与其最相近的未见过的类别的语义特征,就可以确定测试图像的所属类别。本专利技术的基于多组间因子分析的零样本图像分类方法,利用多组间因子分析技术,将图像的视觉特征及其对应的语义特征映射至公共空间,进而有效地比较映射后的视觉特征和语义特征之间的距离,从而可以更好的解决零样本图像分类问题。本专利技术的基于多组间因子分析的零样本图像分类方法,包括如下步骤:1)使用训练数据的视觉特征X1及其对应类别的语义特征X2,…Xc构建协方差矩阵M,所述的协方差矩阵M为:Mij=0,i=jXiXjT,i≠j.---(1)]]>式中,c是模态的个数。2)求解协方差矩阵M的特征值本文档来自技高网
...

【技术保护点】
一种基于多组间因子分析的零样本图像分类方法,其特征在于,包括如下步骤:1)使用训练数据的视觉特征X1及其相应类别的语义特征X2,...Xc构建协方差矩阵M;2)求解协方差矩阵M的特征值,选择最大的d个特征值对应的d维特征向量作为映射矩阵W;3)在验证集中学习得到下式中的权重αik*=argmaxk[Σi=2cαisim(W1Txj,WiTyik)],---(4)]]>k=1,2,...,n.式中,xj是验证数据的视觉特征,是与xj相对应类别的第k个模态的语义特征,sim(a,b)=aTb/(||a||·||b||),为两个向量的距离;4)使用映射矩阵W,将测试数据的视觉特征和未见过的类别的语义特征yk映射至公共空间;5)用步骤3)中的公式对测试数据进行分类,式中的k*是测试数据相应的类别。

【技术特征摘要】
1.一种基于多组间因子分析的零样本图像分类方法,其特征在于,包括如下步骤:
1)使用训练数据的视觉特征X1及其相应类别的语义特征X2,...Xc构建协方差矩阵M;
2)求解协方差矩阵M的特征值,选择最大的d个特征值对应的d维特征向量作为映射
矩阵W;
3)在验证集中学习得到下式中的权重αik*=argmaxk[Σi=2cαisim(W1Txj,WiTyik)],---(4)]]>k=1,2,...,n.
式中,xj是验证数据的视觉特征,是与xj相对应类别的第k个模态的语义特征,
sim(a,b)=aTb/(||a||·||b||),为两个向量的距离;
4)使用映射矩阵W,将测试数据的视觉特征和未见过的类别的语义特征yk映射至公
共空间;
5)用步骤3)中的公式对测试...

【专利技术属性】
技术研发人员:冀中谢于中
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1