一种基于分层聚类的均衡图像聚类方法技术

技术编号:8594018 阅读:267 留言:0更新日期:2013-04-18 07:12
本发明专利技术公开了一种基于分层聚类的均衡图像聚类方法,本发明专利技术针对服饰类商品图像高维特征数据,采用基于层次聚类的方法,获得大小均衡的聚类簇,且单个聚类簇包含的数据量不超过限定的阈值。检索时,将被检索数据与所有聚类中心进行距离计算后,选取最近的多个聚类簇,在多个聚类簇内部进行数据遍历,获得最后的查询结果。相对于通用的基于聚类的索引方法,该方法避免了当被检索数据处于大聚类簇时遍历数据量过大的问题,保证了查询的性能。同时,通过遍历多聚类簇的方式,查询结果与SSA的查询结果有更高的重合度,提高了查询效果。

【技术实现步骤摘要】

本专利技术涉及图像搜索
,尤其涉及一种基于分层聚类的图像高维向量快速近似k_近邻检索方法。
技术介绍
在基于内容的图像搜索技术(Content-Based Image Retrieval, CBIR)中,当用户上传一幅商品图像并期望搜寻与该图相同或相近的商品时,搜索引擎对用户上传的商品图像进行特征提取,并从索引图像特征矢量数据库中选取与其在高维空间中距离最近的k个图像作为结果返回。在大量索引特征数据库中查询最近的k个图像特征,最基本的方法是SSA方法。SSA方法通过计算被检索图像与每ー个已入库图像的距离,然后对这些距离进行排序的方式获得最近的k个图像。这是ー种精确的k近邻检索(k-Nearest Neighbor, kNN)。但是,当图像特征维度以及库内图像数量较大时,该方法的查询耗时较大,无法满足工程需要。聚类的方法被引入CBIR中。采用聚类的方法,将数据按照其在高维空间的分布,聚集成为聚类簇;检索时,首先计算被检索图像与所有簇的中心的距离,确定被检索图像所属的聚类簇,然后对簇内的数据进行遍历,获得最近的k个图像。由于需要遍历的数据量的減少,该方法相对于正向遍历的方式检索效率有所提高,但是存在以下问题1、查询时间效率依赖于被查询图像所属的簇的大小,如果聚类产生的簇的大小不均衡,会导致查询时间产生不均衡性。当被查询图像属于包含图像个数较大的簇时,需要遍历的图像量及查询耗时増大。由于包含数据量大的簇代表更“常见”的图像特征,被查询图像落在其中的概率大于包含数据量少的聚类簇。因此,如果某个聚类簇包含的数据量远高于平均值,将会严重影响商品图像搜索引擎的平均响应时间。2、数据遍历被限定在簇内,如果有k_近邻数据处于其他簇中,则在检索结果中被丢失,导致查询效果降低。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供ー种优化的图像聚类方法。本专利技术的目的是通过以下技术方案来实现的,包含如下步骤(I)在建立索引时,首先对图像特征数据进行初始聚类;(2)对步骤(I)得到的每个聚类簇进行聚类切分操作。具体步骤为检查该聚类所包含的图像个数。如果该聚类中心包含的图像个数小于设置的上限Nttjp,则在聚类内部进行二分聚类。如果二分聚类的结果包含的数据量仍超过Nttjp,则对二分聚类的结果迭代此过程。将数据量不超过N_的聚类簇中心记录到聚类中心文件中。之后将该类目所有图像特征数据按照获得的聚类中心进行组织。(3)在检索时,对查询图像的特征数据,计算其到所属类目的所有聚类中心的距离,并且对这些距离进行升序排序,获取距离最小的前c个聚类簇标识,C值由系统參数指定。之后在C个聚类簇的内部进行数据遍历,得到最后的查询结果。本专利技术的有益效果是,本专利针对服饰类商品图像高维特征数据,采用基于层次聚类的方法,获得大小均衡的聚类簇,且单个聚类簇包含的数据量不超过限定的阈值。检索吋,将被检索数据与所有聚类中心进行距离计算后,选取最近的多个聚类簇,在多个聚类簇内部进行数据遍历,获得最后的查询结果。相对于通用的基于聚类的索引方法,该方法避免了当被检索数据处于大聚类簇时遍历数据量过大的问题,保证了查询的性能。同时,通过遍历多聚类簇的方式,查询结果与SSA的查询结果有更高的重合度,提高了查询效果。附图说明图1是商品图像特征数据索引建立流程;图2是商品图像特征数据聚类切分流程图;图3是商品图像特征数据入库流程图;图4是检索流程图; 图5是ニ维情况下“边缘效应”示意图。具体实施例方式下面以服饰类商品图像的聚类,索引建立、检索及维护为例,结合附图详细描述本专利技术,本专利技术的目的和效果将变得更加明显。如图1所示,本专利技术基于分层聚类的均衡图像聚类方法的索引建立包括如下步骤步骤1:对商品图像进行图像特征提取,将图像数据转换成特征矢量数据。特征提取的目的是获得图像的低级结构描述。通过d维矢量来代表各特征。本专利技术采用的是图像的全局特征,即每一副图像对应ー个高维特征矢量。特征矢量的每ー维数值都用来表征图像在某ー个方面的特征,例如形状、顔色、纹理、结构等信息。图像特征提取方法很多,MPEG-7视觉特征提取工具是ー种比较流行的方法。该方法包括颜色布局描述(Color Layout Descriptor, CLD)、边缘直方图描述符(Edge HistogramDescriptor, EHD)等。其中,CLD使用8*8DCT的12个系数,适合于很紧凑并且分辨率不变的颜色表示。EHD使用80个直方图窗来描述来自16个子图像的内容。为了便于数据存储和计算,我们将每ー维特征值量化为范围内的整数。量化后的特征向量,每ー个维度可以存储为ー个字节。步骤2 :对步骤I得到的原始特征数据进行初始聚类,聚类中心个数设置为ー个较小的整数。对数据进行初始聚类的目的是为了大概体现出数据的分布状态。聚类所使用的算法是k-均值(K-Means )。K-Means算法将输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。K-Means算法的主要參数包括聚类个数k和距离公式d(x,y)。由于只是对数据进行初始聚类,这里设置比较小的k值。我们希望在进行初始聚类之后,每个聚类簇包含的平均数据量为ー个固定的值Ns。初始聚类的k值可以通过索引建立时的数据总量Ntotal和Ns算出本文档来自技高网
...

【技术保护点】
一种基于分层聚类的均衡图像聚类方法,其特征在于,包含如下步骤:(1)在建立索引时,首先对图像特征数据进行初始聚类;(2)对步骤(1)得到的每个聚类簇进行聚类切分操作。具体步骤为:检查该聚类所包含的图像个数。如果该聚类中心包含的图像个数小于设置的上限Ntop,则在聚类内部进行二分聚类。如果二分聚类的结果包含的数据量仍超过Ntop,则对二分聚类的结果迭代此过程。将数据量不超过Ntop的聚类簇中心记录到聚类中心文件中。之后将该类目所有图像特征数据按照获得的聚类中心进行组织。(3)在检索时,对查询图像的特征数据,计算其到所属类目的所有聚类中心的距离,并且对这些距离进行升序排序,获取距离最小的前c个聚类簇标识,c值由系统参数指定。之后在c个聚类簇的内部进行数据遍历,得到最后的查询结果。

【技术特征摘要】
1.一种基于分层聚类的均衡图像聚类方法,其特征在于,包含如下步骤 (1)在建立索引时,首先对图像特征数据进行初始聚类; (2)对步骤(I)得到的每个聚类簇进行聚类切分操作。具体步骤为检查该聚类所包含的图像个数。如果该聚类中心包含的图像个数小于设置的上限Nttjp,则在聚类内部进行二分聚类。如果二分聚类的结果包含的数据量仍超过Ν_,则对二分聚类的结果迭代此过程。将数据量不超过Ν_的聚类簇中心记录到聚类中心文件中。之后将该类目所有图像特征数据按照获得的聚类中心进行组织。(3)在检索时,对查询图像的特征数据,计算其到所属类目的所有聚类中心的距离,并且对这些距离进行升序排序,获取距离最小的前c个聚类簇标识,c值由系统参数指定。之后在c个聚类簇的内部进行数据遍历,得到最后的查询结果。2.根据权利要求1所述的聚类方法,其特征在于,所述聚类分2个步骤进行,并且两个步骤使用相同的视觉特征和距离公...

【专利技术属性】
技术研发人员:薛亮孙凯
申请(专利权)人:杭州淘淘搜科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1