图像检索系统中数据聚类方法技术方案

技术编号：6054940 阅读：239 留言：0更新日期：2012-04-11 18:40

一种信息处理技术领域的图像检索系统中数据聚类方法，由离线过程和在线过程组成，离线过程中对标准图像提取SIFT特征，然后将SIFT特征进行离线聚类处理，在离线聚类结果的基础上通过矢量化处理建立标准图像矢量；在线过程中对待检索图像提取SIFT特征，然后在所述离线聚类结果的基础上通过矢量化处理得到待检索图像矢量，将待检索图像矢量在标准图像矢量中进行相似性搜索，本发明专利技术能够快速获得大规模数据中具有较强代表性和可区分能力的特征，解决了大规模数据的聚类问题，并在有效重用原始图像数据聚类结果的基础上，实现新增图像数据的快速增量聚类，最终实现高效的图像检索任务。

Data clustering method in image retrieval system

A retrieval method of data clustering system in image processing technology in the field of information, consisting of offline and online process, SIFT feature extraction of standard image offline process, then the SIFT feature for off-line clustering processing, through the establishment of standard image vector vector processing based on off-line clustering results; online process for image retrieval SIFT feature extraction, and then through the vector processing to obtain the vector image retrieval based on the off-line clustering results, the retrieval of image vector similarity search in the standard image vector, the invention can has strong characteristics of representation and distinguish ability rapidly in large scale data, to solve the clustering problem of large-scale data, and on the basis of reusing the original image data clustering results, to achieve the rapid growth of new image data Volume clustering, and finally achieve efficient image retrieval task.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及的是一种信息处理
的方法，具体是一种图像检索系统中数据聚类方法。
技术介绍
早期的图像检索系统一般采用颜色、纹理、形状等信息来描述图像特征，随着研究的深入，学者开始引入具有某种不变性的特征，如用经典SIFT (Scale Invariant Feature Transform)特征来表征图像信息，可以获得比传统方法更好的检索效果。这里所面临的主要挑战是图像特征数据量非常庞大，直接利用原始的特征进行检索是非常低效的。传统的文本检索技术在实际应用中获得了巨大的成功，因此，学者们开始将文本检索的技术引入到图像检索中来。目前比较典型的方法是将来自所有图像库的特征聚类成一定数目的码字(即聚类中心)，这些码字的数目要小于图像库所提取的特征数目，再利用这些码字对每幅图像的特征进行编码，这样每幅图像就可以用一个描述码字的特征向量来表示，从而可以有效的进行图像检索。在上述基于码字的图像检索系统中，在设计聚类方法时，值得关注的一个问题是对于大型图像库能够提取的总特征数目往往很庞大，而且每个特征的维数也很高，本专利技术采用的是1 维SIFT特征(测试表明十万图库的特征数量将达到千万量级)，对这样的大规模数据进行聚类，传统的聚类方法(如经典的K-means方法)，由于没有良好的可扩展性，不能有效的处理大规模数据的聚类问题。另一个具有现实意义的问题是，实际应用的图像数据库是需要不断更新，最常见的情况就是在图库中增加图像，这样就有可能使得从新图像中提取的特征与原聚类分析得到的结果不匹配。这时有必要获得新的聚类结果来适应新增加的特征数据...

【技术保护点】
１．一种图像检索系统中数据聚类方法，其特征在于，由离线过程和在线过程组成，其中：离线过程：对标准图像提取ＳＩＦＴ特征，然后将ＳＩＦＴ特征进行离线聚类处理，在离线聚类结果的基础上通过矢量化处理建立标准图像矢量；在线过程：对待检索图像提取ＳＩＦＴ特征，然后在所述离线聚类结果的基础上通过矢量化处理得到待检索图像矢量，将待检索图像矢量在标准图像矢量中进行相似性搜索。

【技术特征摘要】

【专利技术属性】
技术研发人员：顾王一，杨杰，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：31

全部详细技术资料下载我是这个专利的主人