当前位置: 首页 > 专利查询>北京大学专利>正文

基于多模态矩阵填充的自然图像分类方法及装置制造方法及图纸

技术编号:15356582 阅读:81 留言:0更新日期:2017-05-17 20:19
本发明专利技术涉及一种基于多模态矩阵填充的图像分类方法及装置,该方法包括:对带标签的、无标签的和测试的自然图像数据进行特征抽取,得到不同特征表示;采用矩阵填充算法生成带标签数据的各特征的估计标签;将各估计标签进行线性组合以逼近其对应的已知的真实标签,得到组合系数;对于各种特征,利用带标签的自然图像数据采用矩阵填充算法预测无标签的和测试的自然图像数据的标签;采用所述组合系数对预测的所有特征的标签进行组合,得到融合多种特征的标签;基于所述融合多种特征的标签对自然图像数据进行分类。本发明专利技术易于实现,能得到较高的分类正确率,同时继承了基于矩阵填充的图像分类的优点,适用于网络图片总结归类、图像检索等领域。

Natural image classification method and device based on multi mode matrix filling

The invention relates to a device and method of image classification based on multi modal matrix, this method includes: feature extraction of natural image data with the label, label and test, have different characteristics; estimation of each feature label filling algorithm to generate labeled data by using matrix; the tag estimation the linear combination of the corresponding approximation to the real known label, get the combination coefficient; for a variety of characteristics, natural image data filling algorithm to predict labels unlabeled and tested by the matrix using the natural image data with the label according to the combination of the label; the combination coefficients of all the features of the predicted by fusion of multiple features the label; the integration of a variety of features to classify natural tags based on image data. The invention has the advantages of easy realization, high classification accuracy, and the advantages of image classification based on matrix filling, and the utility model is suitable for the network picture summary, classification, image retrieval and other fields.

【技术实现步骤摘要】
基于多模态矩阵填充的自然图像分类方法及装置
本专利技术属于图像分类与多模态数据分析(多特征融合)
,涉及基于矩阵填充的多标签分类技术,具体涉及一种利用多模态矩阵填充的图像分类方法及装置。
技术介绍
与人脸、指纹等内容单一、形式一致的图像不同,一幅自然图像中通常包含多个物体,且分别呈现不同的形态。在自然图像分类中,往往需要给一幅图像分配多个类别标签。如图1所示,(a)“人”在骑“自行车”,(b)“天空”和“海洋”经常一起出现,(c)“狗”是一种“动物”。传统的单标签分类(一个样本只有一个类别标签)算法大多数无法直接用于多标签分类。比较可行的是多类分类中的“一对多”策略:为每个类别分别构建一个二值分类器,属于该类别的样本视为正例,其余的都视为负例。这种方法的一个明显缺陷是容易导致严重的数据偏斜问题,同时也忽略了类别之间相互关联(例如,“天空”和“海洋”的共现关系,以及“狗”和“动物”的从属关系)。因此,近年来有很多新的算法被提出来解决多标签的问题。其中,利用矩阵填充的多标签分类算法允许输入数据(特征和标签)有部分缺失,对噪声和野点具有很强的鲁棒性。矩阵填充,顾名思义,就是将一个有空缺值的矩阵M填满。如果对这个矩阵没有任务假设或者先验知识,则无法进行填充。因此,通常假设所需恢复的那个矩阵是低秩(low-rank)的(E.CandesandB.Recht,Exactmatrixcompletionviaconvexoptimization,Found.Comput.Math,9:717-772,2009)。矩阵填充的目标就是找到一个矩阵X使得X与M在已知项上的误差尽量小,同时X的秩尽可能低。这个秩最小化问题是个NP-难问题,因此几乎没有什么实用性。庆幸的是,秩rank(X)可以被它的凸封装,即核范数||X||*所替换(M.Fazel,Matrixrankminimizationwithapplications,Ph.D.thesis,StanfordUniversity,2002)。基于这一点,很多算法被开发出来用于矩阵填充。例如,Candes和Recht(E.CandesandB.Recht,Exactmatrixcompletionviaconvexoptimization,Found.Comput.Math,9:717-772,2009)指出最小化核范数||X||*和rank(X)具有相同的唯一解,并证明了恢复一个矩阵只需要有限的样本个数。此外,该文献的作者还提出了一种半正定优化的算法来求解最小化核范数的问题。为了处理大矩阵以及矩阵秩不是很低的情况,研究人员分别提出了奇异值阈值化(singularvaluethresholding,SVT)(J.Cai,E.CandesandZ.Shen,Asingularvaluethresholdingalgorithmformatrixcompletion,SIAM,20(4):1956-1982,2010)和定点延续(fixedpointcontinuation)(S.Ma,D.GoldfarbandL.Chen,FixedpointandBregmaniterativemethodsformatrixrankminimization,Math.Program.,128(1):321-353,2009)算法。最近,矩阵填充被引入到传导学习(A.Goldberg,X.Zhu,B.Recht,J.XuandR.Nowak,Transductionwithmatrixcompletion:threebirdswithonestone,NIPS,pp.757-765,2010)和多标签图像分类(R.Cabral,F.Torre,J.CosteiraandA.Bernardino,Matrixcompletionformulti-labelimageclassification,NIPS,pp.190-198,2011),基本思想就是将样本特征矩阵和样本标签矩阵拼在一起,然后通过矩阵填充算法将其中的未知特征和标签的值估计出来。这种基于矩阵填充的图像分类算法只能处理单种特征的数据。而事实上,目前为止还没有哪一种特征能够很好的描述自然图像的各种类别。因此,通常都要求使用多种特征(如SIFT(D.Lowe,Distinctiveimagefeaturesfromscale-invariantkeypoints,Int.J.Comput.Vis.,60(2):91-110,2004),GIST(A.Torralba,K.MurphyandW.Freeman,Modelingtheshapeofthescene:Aholisticrepresentationofthespatialenvelope,Int.J.Comput.Vis.,42(3):145-175,2001)和RGB等),融合多种特征的最直接的办法就是将各种特征串成一个长向量。这种做法不但会大大降低运算效率,而且会导致维数爆炸问题,同时缺乏物理解释,影响分类正确率。
技术实现思路
本专利技术的目的在于针对上述问题,提出一种基于多模态矩阵填充的图像分类方法及装置,采用多特征融合的矩阵填充算法,通过挖掘各个各种特征之间的互补性,实现高效、快速的多标签图像分类。多特征融合的分类算法大致可分为三种:特征层的融合(M.White,Y.Yu,X.ZhangandD.Schuurmans,Convexmulti-viewsubspacelearning,NIPS,pp.1682-1690,2012),交互式融合(A.BlumandT.Mitchell,Combininglabeledandunlabeleddatawithco-training,COLT,pp.92-100,1998)以及分类器层的融合(C.Snoek,M.WorringandA.Smeulders,Earlyversuslatefusioninsemanticvideoanalysis,Multimedia,pp.399-402,2005)。本专利技术采用的是在分类器层进行融合的策略。具体来说,本专利技术的基于多模态矩阵填充的图像分类方法,其步骤包括:1)对带标签的、无标签的和测试的自然图像数据进行特征抽取,得到不同特征表示;2)采用矩阵填充算法生成带标签数据的各特征的估计标签;3)将各估计标签进行线性组合以逼近其对应的已知的真实标签,得到组合系数;4)对于各种特征,利用带标签的自然图像数据采用矩阵填充算法预测无标签的和测试的自然图像数据的标签;5)采用所述组合系数对步骤4)预测的所有特征的标签进行组合,得到融合多种特征的标签;6)基于所述融合多种特征的标签对自然图像数据进行分类。进一步地,采用SIFT、GIST等特征抽取算法进行所述特征抽取。进一步地,对步骤1)所得各特征表示进行预处理,然后进行步骤2);优选使用核化主成分分析进行预处理,还可以采用随机映射(RandomProjection)等其它方法。本专利技术中,预处理不是必要步骤,但进行预处理能够大大提升算法的执行效率,同时也能在一定程度上提高分类正确率。进一步地,步骤2)的实现方法为:设预处理后得到X0(v)本文档来自技高网
...
基于多模态矩阵填充的自然图像分类方法及装置

【技术保护点】
一种基于多模态矩阵填充的自然图像分类方法,包括下列步骤:1)对带标签的、无标签的和测试的自然图像数据进行特征抽取,得到不同特征表示;2)采用矩阵填充算法生成带标签数据的各特征的估计标签;其实现方法为:对步骤1)所得各特征表示进行预处理,设预处理后得到X

【技术特征摘要】
1.一种基于多模态矩阵填充的自然图像分类方法,包括下列步骤:1)对带标签的、无标签的和测试的自然图像数据进行特征抽取,得到不同特征表示;2)采用矩阵填充算法生成带标签数据的各特征的估计标签;其实现方法为:对步骤1)所得各特征表示进行预处理,设预处理后得到X0(v),v=1,...,V,其中V是特征种类个数,X0表示原始数据矩阵,X0(v)表示第v种特征的输入数据矩阵;将带标签的自然图像数据分成两部分,假设第一部分数据的标签是未知的,第二部分数据的标签是已知的;采用矩阵填充算法使用第二部分数据对第一部分数据的标签进行估计,得到估计标签同理得到第二部分数据的估计标签将和拼在一起,得到第v种特征表示的估计标签Yl(v);对所有种类的特征实施上述过程,得到Yl(v),v=1,...,V;3)将各估计标签进行线性组合以逼近其对应的已知的真实标签,得到组合系数;4)对于各种特征,利用带标签的自然图像数据采用矩阵填充算法预测无标签的和测试的自然图像数据的标签;5)采用所述组合系数对步骤4)预测的所有特征的标签进行组合,得到融合多种特征的标签;6)基于所述融合多种特征的标签对自然图像数据进行分类。2.如权利要求1所述的方法,其特在于:使用核化主成分分析方法或者随机映射方法进行所述预处理。3.如权利要求1所述的方法,其特在于:设所述组合系数为{θv},通过求解以下优化问题寻找组合系数{θv}使得尽可能地逼近真实值

【专利技术属性】
技术研发人员:罗勇许超
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1