图像检索系统中数据聚类方法技术方案

技术编号:6054940 阅读:223 留言:0更新日期:2012-04-11 18:40
一种信息处理技术领域的图像检索系统中数据聚类方法,由离线过程和在线过程组成,离线过程中对标准图像提取SIFT特征,然后将SIFT特征进行离线聚类处理,在离线聚类结果的基础上通过矢量化处理建立标准图像矢量;在线过程中对待检索图像提取SIFT特征,然后在所述离线聚类结果的基础上通过矢量化处理得到待检索图像矢量,将待检索图像矢量在标准图像矢量中进行相似性搜索,本发明专利技术能够快速获得大规模数据中具有较强代表性和可区分能力的特征,解决了大规模数据的聚类问题,并在有效重用原始图像数据聚类结果的基础上,实现新增图像数据的快速增量聚类,最终实现高效的图像检索任务。

Data clustering method in image retrieval system

A retrieval method of data clustering system in image processing technology in the field of information, consisting of offline and online process, SIFT feature extraction of standard image offline process, then the SIFT feature for off-line clustering processing, through the establishment of standard image vector vector processing based on off-line clustering results; online process for image retrieval SIFT feature extraction, and then through the vector processing to obtain the vector image retrieval based on the off-line clustering results, the retrieval of image vector similarity search in the standard image vector, the invention can has strong characteristics of representation and distinguish ability rapidly in large scale data, to solve the clustering problem of large-scale data, and on the basis of reusing the original image data clustering results, to achieve the rapid growth of new image data Volume clustering, and finally achieve efficient image retrieval task.

【技术实现步骤摘要】

本专利技术涉及的是一种信息处理
的方法,具体是一种图像检索系统中数据 聚类方法。
技术介绍
早期的图像检索系统一般采用颜色、纹理、形状等信息来描述图像特征,随着研究 的深入,学者开始引入具有某种不变性的特征,如用经典SIFT (Scale Invariant Feature Transform)特征来表征图像信息,可以获得比传统方法更好的检索效果。这里所面临的主要挑战是图像特征数据量非常庞大,直接利用原始的特征进行检 索是非常低效的。传统的文本检索技术在实际应用中获得了巨大的成功,因此,学者们开始 将文本检索的技术引入到图像检索中来。目前比较典型的方法是将来自所有图像库的特征 聚类成一定数目的码字(即聚类中心),这些码字的数目要小于图像库所提取的特征数目, 再利用这些码字对每幅图像的特征进行编码,这样每幅图像就可以用一个描述码字的特征 向量来表示,从而可以有效的进行图像检索。在上述基于码字的图像检索系统中,在设计聚类方法时,值得关注的一个问题是 对于大型图像库能够提取的总特征数目往往很庞大,而且每个特征的维数也很高,本专利技术 采用的是1 维SIFT特征(测试表明十万图库的特征数量将达到千万量级),对这样的大 规模数据进行聚类,传统的聚类方法(如经典的K-means方法),由于没有良好的可扩展性, 不能有效的处理大规模数据的聚类问题。另一个具有现实意义的问题是,实际应用的图像 数据库是需要不断更新,最常见的情况就是在图库中增加图像,这样就有可能使得从新图 像中提取的特征与原聚类分析得到的结果不匹配。这时有必要获得新的聚类结果来适应新 增加的特征数据,而获得新的聚类的方法通常有两种;一是重新聚类,二是增量聚类。由于 聚类分析所面对的一般都是大数据集,所以重新聚类一方面是代价太大;另一方面,因未利 用前一次聚类的有关信息,而导致计算资源的浪费。因此,如何设计处理大规模数据和处理 新增图像数据的聚类方法,是当前图像检索领域的一个重要挑战。经对现有技术文献的检索发现,David Nister等在文献“Salable Recognition with a Vocabulary Tree”(公开时期2006 年 6 月 17 日;2006 IEEE Conference on Computer Vision and Pattern Recognition-Volume 2pp2161_2168,电气和电子工程学会 2006年计算机视觉和模式识别会议第2卷第2161-2168页;中文名用字典树实现可扩展 识别;其核心技术在美国申请专利,美国专利号为US7,725,484,公开日期为2010年5月 25日)中提到的分层K均值(Hierarchical k-means, HKM)方法。它在传统k-means方法 中引入了分层的概念,在传统k-means方法中k的含义是最终的类别数,而在HKM方法中 的k代表的是分支因子(即每个结点的子结点数目,因此HKM方法可以看作是k叉的树结 构)。HKM方法先设定k个类,在待聚类数据上运行k-means方法,那么待聚类数据就被分 成k组;对每一个组上递归地运行k-means方法,每次k值保持不变,每组的待聚类数据就 被递归地分成k组,该树结构逐层增加,直到预先设定的L层(根结点为第0层),所以最终的类别数最多为P个(这是因为,当某组的待聚类数据个数少于k,那么在该组上就不再进 行k-means运算,即有的分支的层数小于L)。但是该技术具有以下缺陷1.该技术在聚类过程中,递归地对待聚类数据进行分组,组与组之间的待聚类数 据在各自的迭代过程中是相互独立的,当先前分组错误,在后续的迭代过程中无法得到弥 补,且容易出现分组不均勻的情况,即部分组数据量极多,部分组数据量极少。2.该技术不能处理实际图像检索系统中增量聚类问题,即当预先建立的图像库有 新的图像需要加入时,对原来图像的聚类结果不能复用,只能重新进行聚类。进一步检索发现,JamesPhilbin 等在文献"Object Retrieval with Large Vocabularies and Fast Spatial matching”(公开时期2007年3月 12 日;出处2007IEEE Conference on Computer Vision and Pattern Recognition—Volume 3612ppl545_1552, 电气和电子工程学会2007年计算机视觉和模式识别会议第3612卷第1545-1552页; 文献中文名用大型码书和快速空间匹配实现目标识别)一文中提出的近似K均值 (Approximate k-means, AKM)方法。AKM方法是在改进传统k-means方法的基础上获得的。 传统k-means方法的主要运算代价在于数据寻找最近邻聚类中心的过程,而AKM方法利用 一种近似搜索最近邻的方法取代了经典方法中精确搜索最近邻的过程,即在每一次迭代开 始时,方法首先根据聚类中心创建一个由多棵随机kd树(kdimensional tree)构成的森 林,以此加速搜索最近邻聚类中心的过程。AKM方法将每次迭代的复杂度从k-means时的 O(NK)降低为O(NlogOO),其中N为进行聚类的总数据量,K表示初始类别数。较好的解决 了图像检索系统中处理大规模数据时,聚类方法的可扩展性问题。该技术具有以下缺陷该技术在图像检索系统中应用中,各个聚类中心所分配到 的数据量会出现不均勻的情况,即有的聚类中心分到的数据极少甚至不能分配到数据,而 有的聚类中心分配的数据又极多,且技术本身没有任何处理措施;该技术也不能处理实际 图像检索系统中新增图像所带来的增量聚类问题。
技术实现思路
本专利技术针对现有技术存在的上述不足,提供一种, 能够快速获得大规模数据中具有较强代表性和可区分能力的特征,解决了大规模数据的聚 类问题,并在有效重用原始图像数据聚类结果的基础上,实现新增图像数据的快速增量聚 类,最终实现高效的图像检索任务。本专利技术是通过以下技术方案实现的,本专利技术由离线过程和在线过程组成,其中离线过程对标准图像提取SIFT特征,然后将SIFT特征进行离线聚类处理,在离 线聚类结果的基础上通过矢量化处理建立标准图像矢量;在线过程对待检索图像提取SIFT特征,然后在所述离线聚类结果的基础上通过 矢量化处理得到待检索图像矢量,将待检索图像矢量在标准图像矢量中进行相似性搜索。所述的将SIFT特征进行离线聚类处理包含两种情况第一种是针对大规模数据 的聚类,即聚类开始前所有标准图像的SIFT特征都已经获得,且SIFT特征数量很庞大的情 况;第二种是针对新增图像数据时的增量聚类,即在完成对已有标准图像的SIFT特征聚类 后,又需要在该标准图像库中新增部分图像的情况。所述的针对大规模数据的聚类包括以下步骤第一步、预处理设置大规模数据聚类参数,具体有总的迭代次数maxlter,单个 聚类中心所包含数据个数的下限阈值numMin,单个聚类中心在所有图像中出现的比例(这 里“出现”的含义是指当第u幅图像中某个特征数据的最近聚类中心是第ν个聚类中心,那 么称第ν个聚类中心在第u幅图像出现,设M表示所有标准图像数目,则单个聚类中心在所 有标本文档来自技高网
...

【技术保护点】
1.一种图像检索系统中数据聚类方法,其特征在于,由离线过程和在线过程组成,其中:离线过程:对标准图像提取SIFT特征,然后将SIFT特征进行离线聚类处理,在离线聚类结果的基础上通过矢量化处理建立标准图像矢量;在线过程:对待检索图像提取SIFT特征,然后在所述离线聚类结果的基础上通过矢量化处理得到待检索图像矢量,将待检索图像矢量在标准图像矢量中进行相似性搜索。

【技术特征摘要】

【专利技术属性】
技术研发人员:顾王一杨杰
申请(专利权)人:上海交通大学
类型:发明
国别省市:31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1