特征向量的聚类方法、检索方法、装置及存储介质制造方法及图纸

技术编号:23025081 阅读:129 留言:0更新日期:2020-01-03 16:55
本发明专利技术提供一种特征向量的聚类方法、检索方法、装置及存储介质,在所述聚类方法中,对通过初始聚类处理得到的各聚类进行检测,确定不适当聚类;然后将不适当聚类中的特征向量重新分派到其他聚类中,以消除不适当聚类,优化得到的聚类结果,从而提升检索的效率和精度。

Clustering method, retrieval method, device and storage medium of eigenvector

【技术实现步骤摘要】
特征向量的聚类方法、检索方法、装置及存储介质
本申请涉及一种图像处理技术,尤其涉及对特征向量的聚类技术,以及基于该聚类技术的检索技术。
技术介绍
当前,越来越多的对图像的索引和检索业务需要依赖数据库中的海量信息。以对人脸图像的索引和检索为例,将视频监控设备捕获的人脸图像记录在数据库中(图像索引过程),之后可在需要时(如接收到用户查询请求时),从数据库中提取、查找特定的人脸图像(图像检索过程)。图像索引过程包括:(1)提取数据库中存储的图像的特征向量;(2)对提取的各图像的特征向量进行聚类处理,其中,生成的每个聚类中包含多个特征向量,图1示出了生成的多个聚类以及各聚类的聚类中心的示意图。对人脸图像检索过程包括:(1)基于待查询图像的特征向量与各聚类的聚类中心之间的距离,确定出与待查询图像的特征向量距离最短的聚类(最相似的聚类);(2)从确定出的距离最短的聚类中提取与待查询图像的特征向的相似度较高的特征向量(最相似的特征向量)作为检索结果。图2示出了提取出的相似度较高的特征向量。由于人脸图像的检索过程的精度和效率受聚类结果的影响,因此,采用优良的聚类方法对图像进行聚类就显得尤为重要。K均值(K-means)聚类方法是一种已知的高精度的聚类方法,图3示出了K-mean聚类方法的示意图。但是,由于K-means的需要处理超大规模的数据、在特征空间中计算大量的距离且需要多次迭代才能收敛,因此,K-means的索引速度较慢。近年来,在K-means的基础上,提出了K-means++算法,通过调整聚类中心(例如尽量远地选择聚类中心),来提高索引速度。在K-means++算法中,首先需要在特征空间中设置相互具有一定距离的、预定数量的初始聚类中心,图4(a)示出了随机选择一个聚类中心的示例,计算该聚类中心到其他成员(特征向量)的距离;以“距离越远,被选中的可能性越高”的原则,从其他成员中继续设置聚类中心,参见图4(b);然后循环执行之前的设置聚类中心的过程,直至设置了预定数量的聚类中心作为初始聚类中心,参见图4(c)。在设置初始聚类中心后,将数据库中的各特征向量分别指派到与其最近的聚类中心,得到多个聚类。接着再重复上述过程进行多次迭代,直至得到的聚类结果达到预定的收敛要求,完成聚类过程。在利用K-means++聚类方法进行聚类处理时,如果出现图5所示的聚类结果时,即生成的聚类中存在特征向量的数量过多的聚类和/或特征向量的数量过少的聚类时,可能会存在以下问题:1)由于在基于聚类结果进行图像检索时需要在每个聚类中进行检索,因此,如果对包含的特征向量的数量过少的聚类也都分别进行检索的话,会增加检索过程所需的时间,降低检索效率。2)而在对包含特征向量的数量过多的聚类进行检索时,由于从该聚类的聚类中心到各成员之间的距离较大,各成员之间的相似度有较大的误差,这会带来检索精度降低的问题。日本第JP5155025号专利公开了一种基于索引系统的在线聚类方法,将特征向量按照诸如K-means或K-means++规聚类方法进行聚类后,当存在包含的特征向量的数量达到最大值(如达到500)的聚类时,将该聚类分裂为多个包含较少特征向量数量的聚类,避免出现包含的特征向量的数量过多的聚类。日本第JP5155025号专利虽然能够避免出现包含过多特征向量的聚类,但是,随着聚类的分裂,聚类的数量也越来越多,而聚类的数量越多,检索所需的时间就越长;另外,日本第JP5155025号专利仍旧没有解决包含的特征向量过少的聚类所带来的问题。
技术实现思路
本专利技术旨在提供一种聚类技术,以避免出现不适当的聚类。根据本专利技术的一个方面,提供了一种特征向量的聚类方法,所述聚类方法包括:基于特征向量生成聚类;对生成的聚类进行检测,确定不适当聚类;将不适当聚类中的特征向量重新分派到其他聚类中。根据本专利技术的另一个方面,提供了一种基于上述聚类方法得到的聚类结果的检索方法,所述检索方法包括:在接收到待查询特征向量后,根据待查询特征向量与所述聚类结果中各聚类的聚类中心的距离,确定满足距离要求的至少一个聚类;从确定的聚类中查询出与待查询特征向量满足相似度要求的至少一个特征向量作为检索结果。根据本专利技术的另一个方面,提供了一种特征向量的聚类装置,所述聚类装置包括:聚类生成单元,其被配置为基于特征向量生成聚类;聚类确定单元,其被配置为对生成的聚类进行检测,确定不适当聚类;分派单元,其被配置为将不适当聚类中的特征向量重新分派到其他聚类中。根据本专利技术的另一个方面,提供了一种基于上述聚类装置得到的聚类结果的检索装置,所述检索装置包括:聚类确定单元,其被配置为在接收到待查询特征向量后,根据待查询特征向量与所述聚类结果中各聚类的聚类中心的距离,确定满足距离要求的至少一个聚类;查询单元,其被配置为从确定的聚类中查询出与待查询特征向量满足相似度要求的至少一个特征向量作为检索结果。根据本专利技术的另一个方面,提供了一种存储指令的非暂时性计算机可读存储介质,所述指令在由计算机执行时使所述计算机进行特征向量的聚类方法,所述聚类方法包括:基于特征向量生成聚类;对生成的聚类进行检测,确定不适当聚类;将不适当聚类中的特征向量重新分派到其他聚类中。根据本专利技术的另一个方面,提供了一种存储指令的非暂时性计算机可读存储介质,所述指令在由计算机执行时使所述计算机进行基于上述聚类方法得到的聚类结果的检索方法,所述检索方法包括:在接收到待查询特征向量后,根据待查询特征向量与所述聚类结果中各聚类的聚类中心的距离,确定满足距离要求的至少一个聚类;从确定的聚类中查询出与待查询特征向量满足相似度要求的至少一个特征向量作为检索结果。从以下参照附图对示例性实施例的描述,本专利技术的其它特征将变得清楚。附图说明并入说明书中并且构成说明书的一部分的附图示出了本专利技术的实施例,并且与实施例的描述一起用于解释本专利技术的原理。图1是聚类和聚类中心的示意图。图2是特征检索的示意图。图3是K-mean聚类方法的示意图。图4(a)至图4(c)是K-means++聚类方法中设置聚类中心的示意图。图5是聚类结果的示意图。图6是过大聚类、过小聚类和适当聚类的示意图。图7是本申请的聚类方法的流程示意图。图8(a)和图8(b)是适当度线的示意图。图8(c)是经过本实施例一后的聚类结果。图9是本申请实施例一的聚类过程示意图。图10是本申请实施例一的聚类方法流程示意图。图11是在不适当聚类为过大聚类时的聚类过程示意图。图12是在不适当聚类为过小聚类时的聚类过程示意图。图13是本申请实施例二中具有不同密度的聚类的示意图。图14是本申请实施例四中聚类过程的示意图。图15是本申请所应用在的硬件结构示意图。图16是本申请实施例六的图像检索系统的示意图。图17是本申请实施例七的聚类装置的示意图。图18是本申请实施例八的检索装置的示意图。...

【技术保护点】
1.一种特征向量的聚类方法,所述聚类方法包括:/n基于特征向量生成聚类;/n对生成的聚类进行检测,确定不适当聚类;/n将不适当聚类中的特征向量重新分派到其他聚类中。/n

【技术特征摘要】
1.一种特征向量的聚类方法,所述聚类方法包括:
基于特征向量生成聚类;
对生成的聚类进行检测,确定不适当聚类;
将不适当聚类中的特征向量重新分派到其他聚类中。


2.根据权利要求1所述的聚类方法,其中,根据聚类中包括的特征向量的数量确定不适当聚类。


3.根据权利要求2所述的聚类方法,其中,根据聚类中包括的特征向量的数量确定不适当聚类,具体包括:
将包括的特征向量的数量大于第一上限值或小于第一下限值的聚类确定为不适当聚类;或者,
设置多个数量范围以及每个数量范围对应的适当度,根据聚类中包括的特征向量的数量所在的数量范围确定该聚类的适当度,将适当度低于第一设定值的聚类确定为不适当聚类。


4.根据权利要求1所述的聚类方法,其中,根据聚类中包括的特征向量的密度确定不适当聚类。


5.根据权利要求4所述的聚类方法,其中,根据聚类中包括的特征向量的密度确定不适当聚类,具体包括:
将包括的特征向量的密度大于第二上限值或小于第二下限值的聚类确定为不适当聚类;或者,
设置多个密度范围以及每个密度范围对应的适当度,根据聚类中包括的特征向量的密度所在的密度范围确定该聚类的适当度,将适当度低于第二设定值的聚类确定为不适当聚类。


6.根据权利要求1所述的聚类方法,其中,根据聚类中包括的特征向量的属性一致性确定不适当聚类。


7.根据权利要求6所述的聚类方法,其中,根据聚类中包括的特征向量的属性一致性确定不适当聚类,具体包括:
以对应不同属性的特征向量的数量越接近得分越低、数量差别越大得分越高的原则,确定聚类中的特征向量的属性一致性得分;
将属性一致性得分小于第三下限值的聚类确定为不适当聚类;或者,设置多个属性一致性得分范围以及每个属性一致性得分范围对应的适当度,根据属性一致性得分所在的范围确定聚类的适当度,将适当度低于第三设定值的聚类确定为不适当聚类。


8.根据权利要求1所述的聚类方法,在对各聚类进行检测之前,所述方法还包括:
利用设定的初始聚类中心,对存储的特征向量进行初始聚类处理,得到多个聚类,其中,所述初始聚类中心的数量多于实际所需的聚类数量。


9.根据权利要求1所述的聚类方法,其中,将不适当聚类中的特征向量重新分派到其他聚类中,具体包括:
将不适当聚类中的特征向量重新分派到生成的聚类中的适当聚类中。


10.根据权利要求9所述的聚类方法,其中,当所述不适当聚类包括特征向量的数量大于第一上限值的聚类和特征向量的数量小于第一下限值的聚类时,将特征向量的数量大于第一上限值的聚类中的特征向量重新分派到适当聚类和/或特征向量的数量小于第一下限值的聚类中,若还存在特征向量的数量小于第一下限值的聚类,则将...

【专利技术属性】
技术研发人员:谭诚黄耀海
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1