一种结合不同大小视觉词汇本的图像分类方法技术

技术编号:7611716 阅读:209 留言:0更新日期:2012-07-25 23:25
本发明专利技术公开了一种基于视觉词汇本集体的图像分类方法,涉及模式识别、计算机视觉、图像理解技术领域。本发明专利技术利用多分辨率信息来量化图像,来自于不同综合层的多种可用线索并行用来分类图像。为了利用不同粒度的信息来分类图像,图像在基于不同大小的视觉词汇本上量化,这些不同大小的视觉词汇本可以捕获不同的图像特征。然后基于不同大小的视觉词汇本,训练图像集得到不同的量化矢量集,从而可以学习到不同的分类器,每种分类器根据图像不同粒度的信息得到物体不同的模型,集成这些分类器模型来分类新的图像时能产生更好的效果。实验结果表明本发明专利技术能显著提高单一大小的视觉词汇本的性能,具有很强的鲁棒性,对不同的图像都能得到好的分类效果。

【技术实现步骤摘要】

本专利技术属于模式识别、计算机视觉、图像理解
,具体涉及一种图像分类方法。
技术介绍
图像分类的困难在于需要建立一个即能容纳类内的高度变化,又要能区分不同类的类模型。“Constellation”模型试图定位不同的物体局部并确定它们在空间上的关系。 尽管这些方法可能表示能力强,但是这种空间约束模型无法处理或识别大的变形,比如不在一个平面内的旋转和遮挡,也没有考虑局部数目不确定的物体,比如建筑物和树。许多用于图像分类的流行方法使用独立块的集合来表示图像,这些独立块由局部视觉描述子描述,其中最典型的是“bag-of-words”模型。它确定每类中特定的局部比例,而忽略局部间的空间关系。在检测到图像的兴趣点(独立块)且用描述子描述兴趣点(也就是特征表示) 后,必须为训练和测试图像表示它们的分布。一种流行的表示方法,也称为图像量化方法, 是通过对描述后的兴趣点集进行聚类得到一个视觉词汇本。然后图像表示成视觉单词标签的直方图。但是几乎所有流行的聚类算法都需要用户输入簇个数。为了提供这个参数,用户必需要有一些图像的先验知识或者通过许多的验证实验来选择一个合适的参数。最近, 许多基于“bag-of-words”模型的方法致力于融合多种特征来得到性能提升。计算机视觉领域中流行的结合多个特征的趋势是使用多核学习方法(Multiple Kernel Learning, MKL)。 从时间复杂性角度来说,MKL方法不能并行学习多个特征。本专利技术试图将集成学习技术的优势应用到图像分类中,集成学习的思想是应用多个学习器并结合他们的预测。图像分类对于传统的机器学习算法是非常困难的,因为描述图像的矢量的维度非常高。为了利用来自于不同信息综合层的线索来分类图像,不同大小的视觉词汇本成员用来构成视觉词汇本集体。当应用基于视觉词汇本集体上学习得到的分类器集体来分类新的图像时,可以得到性能的提升。而且,从时间复杂性角度来说,本专利技术可以并行学习成员视觉词汇本和相应的成员分类器,具有很好的并行性和可缩放性。本项专利技术的主要贡献在于提出了。 本专利技术能有效减少图像分类的监督程度,综合利用多种有效信息,并行学习物体模型,有效提高图像分类的效率和准确度。
技术实现思路
为了解决图像分类不能有效融合多种信息和由于描述图像的矢量的高维度,传统的机器学习方法趋向于产生非常不稳定且泛化能力差的模型的问题,本专利技术提供了。本专利技术将集成学习的优势应用到图像分类中,不同综合层次的特征用来形成视觉词汇本集体。基于视觉词汇本集体上,同一副图像能得到不同的量化矢量。所以,一个分类器集体能在同一训练图像集的不同表达矢量集上学习得到。既然每个成员利用一种图像信息,当用这个分类器集体来分类新的图像时,可以得到意想不到的满意结果。集成方法通过结合多个模型的预测来提高现存算法的性能。与分类器集体相似,使用视觉词汇本集体来提高视觉词汇本的质量和鲁棒性。词汇本一般是用标准的聚类算法从训练图像集中学习得到,所以使用词汇本集体也可以达到提高聚类算法质量的目的。视觉词汇本集体用来表达不同类型的图像信息。在构建了一个差异性视觉词汇本集体后,就可以得到高差异性的分类器集体,其中的每个成员分类器分别根据不同的图像特征来建立物体模型。所以使用此分类器集体去分类新的图像时,可以得到更好的、更鲁棒的结果。高差异性的集体对于减少建立一个准确模型所需要的监督程度也非常有效。本专利技术直接使用多分辨率信息来量化图像,并行使用来自于不同综合层的多种可用线索分类图像。为了利用不同粒度的信息来分类物体,图像在基于不同大小的视觉词汇本上量化,这些不同大小的视觉词汇本可以捕获不同粒度的图像特征。然后基于不同大小的视觉词汇本,训练图像集得到不同的量化矢量集,从而可以学习到不同的分类器,每种分类器根据图像不同粒度的信息得到物体不同的模型,集成这些分类器模型来分类新的图像,包括以下步骤步骤I.用兴趣点检测子提取训练图像的兴趣点,然后用描述子描述提取出来的兴趣占.步骤2.随机选择一部分描述好的兴趣点,在其上运行聚类算法得到一个成员视觉词汇本,通过设置不同的簇个数作为聚类算法的参数,得到具有不同大小的成员视觉词汇本;步骤3.基于这个成员视觉词汇本对训练图像集进行量化;步骤4.在量化后的训练数据集上学习一个分类器;步骤5.重复步骤2到步骤4,生成预设大小的视觉词汇本集体和分类器集体;步骤6.基于一个成员视觉词汇本,对新图像进行量化;步骤7.使用对应成员分类器分类新图像,得到分类结果;步骤8.重复步骤6到步骤7,直到每个成员分类器得到了自己的分类结果;步骤9.利用集成技术集成成员分类器的分类结果得到最终图像分类标签。实验结果表明本专利技术提出的方法能增加鲁棒性,因为在高维问题中很难评估分类器的好坏,所以用户通常不知道选择哪种方法好,集成方法可以使用许多的模型,然后结合它们产生稳定结果,集成方法能自动聚焦于最适合所给数据的信息。本专利技术有益效果是具有在不同领域图像上的平均性能更好,鲁棒性强的优点,且模型简单,非常适用于一般操作者,不需要复杂参数的调整,监督程度低,且对训练数据的要求低;利用集成学习固有的并行性,可以在多个处理器上利用少量训练数据并行学习,所以本专利技术的效率也相对较高。具体实施例方式本专利技术优选的具体实施例一个描述子对应到与它在欧拉空间中最近的单词。在形成一个成员词汇本后,为了量化图像,所有检测出来的兴趣点都用来建立基于此成员词汇本上的直方图。为了使直方图独立于描述子个数,直方图矢量规范化成总和为I。视觉词汇本是应用聚类算法到200,000个随机从训练图像集中选择来的描述子集合上得到的。加权LibSVM用来训练分类器。在训练阶段,正例样本的权值设为U pos ne 接 posirii Jiee 权利要求1.一种基于视觉词汇本的图像分类方法,其特征在于利用多分辨率信息来量化图像, 来自于不同综合层的多种可用线索并行用来分类图像,为了利用不同粒度的信息来分类图像,图像在基于不同大小的视觉词汇本上量化,这些不同大小的视觉词汇本可以捕获不同的图像特征,包括以下步骤(1)用兴趣点检测子提取训练图像的兴趣点,然后用描述子描述提取出来的兴趣点;(2)随机选择一部分描述好的兴趣点,在其上运行聚类算法得到一个成员视觉词汇本,通过设置不同的簇个数作为聚类算法的参数,得到具有不同大小的成员视觉词汇本;(3)基于这个成员视觉词汇本对训练图像集进行量化;(4)在量化后的训练数据集上学习一个分类器;(5)重复步骤2到步骤4,生成预设大小的视觉词汇本集体和分类器集体;(6)基于一个成员视觉词汇本,对新图像进行量化;(7)使用对应成员分类器分类新图像,得到分类结果;(8)重复步骤6到步骤7,直到每个成员分类器得到了自己的分类结果;(9)利用集成技术集成成员分类器的分类结果得到最终图像分类标签。2.根据权利要求I所述的方法,其特征在于所述成员视觉词汇本的大小分别设置成 200,400,800,1200,1300,1500,1600,1700,1900,2000,2200,2600,2800,3000,3600,4000, 4500,和5000,得到一个大小为18的集体。3.根据权利要求I所述的方法,其特征在于为了集成视觉词汇本集体和相应分类器集体分类图像,直本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:罗会兰廖列法胡中栋
申请(专利权)人:江西理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术