【技术实现步骤摘要】
本专利技术涉及图像搜索
,尤其涉及一种基于分层聚类的图像高维向量快速近似k_近邻检索方法。
技术介绍
在基于内容的图像搜索技术(Content-Based Image Retrieval, CBIR)中,当用户上传一幅商品图像并期望搜寻与该图相同或相近的商品时,搜索引擎对用户上传的商品图像进行特征提取,并从索引图像特征矢量数据库中选取与其在高维空间中距离最近的k个图像作为结果返回。在大量索引特征数据库中查询最近的k个图像特征,最基本的方法是SSA方法。SSA方法通过计算被检索图像与每ー个已入库图像的距离,然后对这些距离进行排序的方式获得最近的k个图像。这是ー种精确的k近邻检索(k-Nearest Neighbor, kNN)。但是,当图像特征维度以及库内图像数量较大时,该方法的查询耗时较大,无法满足工程需要。聚类的方法被引入CBIR中。采用聚类的方法,将数据按照其在高维空间的分布,聚集成为聚类簇;检索时,首先计算被检索图像与所有簇的中心的距离,确定被检索图像所属的聚类簇,然后对簇内的数据进行遍历,获得最近的k个图像。由于需要遍历的数据量的減少,该方法相对于正向遍历的方式检索效率有所提高,但是存在以下问题1、查询时间效率依赖于被查询图像所属的簇的大小,如果聚类产生的簇的大小不均衡,会导致查询时间产生不均衡性。当被查询图像属于包含图像个数较大的簇时,需要遍历的图像量及查询耗时増大。由于包含数据量大的簇代表更“常见”的图像特征,被查询图像落在其中的概率大于包含数据量少的聚类簇。因此,如果某个聚类簇包含的数据量远高于平均值,将会严重影响商品图像搜索引擎的平 ...
【技术保护点】
一种基于分层聚类的均衡图像聚类方法,其特征在于,包含如下步骤:(1)在建立索引时,首先对图像特征数据进行初始聚类;(2)对步骤(1)得到的每个聚类簇进行聚类切分操作。具体步骤为:检查该聚类所包含的图像个数。如果该聚类中心包含的图像个数小于设置的上限Ntop,则在聚类内部进行二分聚类。如果二分聚类的结果包含的数据量仍超过Ntop,则对二分聚类的结果迭代此过程。将数据量不超过Ntop的聚类簇中心记录到聚类中心文件中。之后将该类目所有图像特征数据按照获得的聚类中心进行组织。(3)在检索时,对查询图像的特征数据,计算其到所属类目的所有聚类中心的距离,并且对这些距离进行升序排序,获取距离最小的前c个聚类簇标识,c值由系统参数指定。之后在c个聚类簇的内部进行数据遍历,得到最后的查询结果。
【技术特征摘要】
1.一种基于分层聚类的均衡图像聚类方法,其特征在于,包含如下步骤 (1)在建立索引时,首先对图像特征数据进行初始聚类; (2)对步骤(I)得到的每个聚类簇进行聚类切分操作。具体步骤为检查该聚类所包含的图像个数。如果该聚类中心包含的图像个数小于设置的上限Nttjp,则在聚类内部进行二分聚类。如果二分聚类的结果包含的数据量仍超过Ν_,则对二分聚类的结果迭代此过程。将数据量不超过Ν_的聚类簇中心记录到聚类中心文件中。之后将该类目所有图像特征数据按照获得的聚类中心进行组织。(3)在检索时,对查询图像的特征数据,计算其到所属类目的所有聚类中心的距离,并且对这些距离进行升序排序,获取距离最小的前c个聚类簇标识,c值由系统参数指定。之后在c个聚类簇的内部进行数据遍历,得到最后的查询结果。2.根据权利要求1所述的聚类方法,其特征在于,所述聚类分2个步骤进行,并且两个步骤使用相同的视觉特征和距离公...
【专利技术属性】
技术研发人员:薛亮,孙凯,
申请(专利权)人:杭州淘淘搜科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。