聚类方法及相关产品技术

技术编号:20546717 阅读:18 留言:0更新日期:2019-03-09 19:37
本申请实施例公开了一种聚类方法及相关产品,其中方法包括:获取包含同种类型数据的第一数据集;按照第一聚类算法和第一相似度阈值对第一数据集进行第一次聚类,并获得第一聚类结果,第一聚类结果中包含多个第一类簇;从多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据,组成第二数据集;按照第一聚类算法对第二数据集进行第二次聚类,获得第二聚类结果;结合第一聚类结果和第二聚类结果,确定第一数据集的最终聚类结果。本申请实施例通过第一次聚类提升了类内精确率高,通过第二次聚类降低了类间误聚率。整个聚类过程提升了聚类的精确率和有效率。

Clustering Method and Related Products

The embodiment of this application discloses a clustering method and related products, in which methods include: obtaining the first data set containing the same type of data; first clustering of the first data set according to the first clustering algorithm and the first similarity threshold, and obtaining the first clustering result, the first clustering result contains multiple first cluster; and selecting from each cluster of the first cluster. The second data set is composed of the best quality data as representative data. The second data set is clustered according to the first clustering algorithm and the second clustering result is obtained. The final clustering result of the first data set is determined by combining the first clustering result with the second clustering result. The application embodiment improves the intra-class accuracy rate by the first clustering, and reduces the inter-class misclustering rate by the second clustering. The whole clustering process improves the accuracy and efficiency of clustering.

【技术实现步骤摘要】
聚类方法及相关产品
本申请涉及数据处理
,具体涉及一种聚类方法及相关产品。
技术介绍
在数据处理的过程中,很多时候都需要进行聚类,获得多个类簇,同一个类簇中的数据相似度高,不同类簇间的数据相似度低。但是在这个过程中,存在着类内精确率和类间误聚率的矛盾,类内精确率是指类簇中正确分类的数据量占该类簇中总数据量的比值,内类精确率越高越好,类间误聚率是指类簇中重复类别的数据量占总类簇数量的比值,类间误聚率越低越好。如何使得聚类结果同时满足类内精确率和内间误聚率的需求,是一个亟待解决的问题。
技术实现思路
本申请实施例提供了一种聚类方法及相关产品,以期通过二次聚类,使得聚类结果同时满足类内精确率和内间误聚率的需求。第一方面,本申请实施例提供一种聚类方法,所述方法包括:获取包含同种类型数据的第一数据集;按照第一聚类算法和第一相似度阈值对所述第一数据集进行第一次聚类,并获得第一聚类结果,所述第一聚类结果中包含多个第一类簇;从所述多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据,组成第二数据集;按照所述第一聚类算法对所述第二数据集进行第二次聚类,获得第二聚类结果;结合所述第一聚类结果和所述第二聚类结果,确定所述第一数据集的最终聚类结果。可选情况下,所述按照第一聚类算法对所述第一数据集进行第一次聚类,包括:S21:获取第一数据集中的第一个数据作为基准数据;S22:计算所述第一数据集中除了所述基准数据之外的剩余数据与所述基准数据之间的相似度,并将所述基准数据、以及与所述基准数据之间的相似度大于第一相似度阈值的数据划分到同一个类簇中;S23:将所述第一数据集中剩余的未划分到类簇中的数据作为新的第一数据集,重复步骤S21和S22,直到第一数据集中的所有数据全部划分到类簇中,得到所述多个第一类簇。可选情况下,所述第二聚类结果中包括多个第二类簇,所述多个为N个,N为大于1的整数,所述多个第二类簇中的每个第二类簇中包括一个或多个所述代表数据,所述结合所述第一聚类结果和所述第二聚类结果,确定所述第一数据集的最终聚类结果,包括:S41、获取所述多个第二类簇中的第i个第二类簇,i为正整数;S42、确定所述第i个第二类簇中的所有代表数据对应的所有第一类簇,并将所述所有第一类簇中的数据放置到同一个第三类簇中;S43、赋值i=i+1,执行步骤S41和S42,直到遍历完所述多个第二类簇,得到多个第三类簇,即为最终聚类结果,i小于或等于N-1。可选情况下,在所述从所述多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据之前,所述方法还包括:获取所述第一数据集中每个数据对应的属性值;根据所述属性值确定所述第一数据集中每一个数据的质量高低。可选情况下,所述获取所述第一数据集中每个数据对应的属性值,包括:S51:确定所述第一数据集中第j个数据被划分到的目标第一类簇,所述第一数据集中包含M个数据,j≤M;S52:获取所述第j个数据与所述目标第一类簇中除第j个数据之外的每个数据之间的簇内相似度;S53:对所述第j个数据对应的全部所述簇内相似度求和,获得第j个相似度和;S54:将所述第j个相似度和作为所述第j个数据的属性值;S55:重复步骤S51-S54,直到确定所述第一数据集中每个数据对应的属性值。可选情况下,所述获取包含同种类型数据的第一数据集包括:获取指定时间段由指定区域内的多个摄像头拍摄的视频集,得到多个视频集;对所述多个视频集中每一视频集进行视频解析,得到多张视频图像;对所述多张视频图像中每一张视频图像进行图像分割,得到多个人脸图像;确定所述多个人脸图像的人脸角度,得到多个角度值;从所述多个角度值中选取角度值处于预设角度范围的角度值,并确定其对应的多个目标人脸图像;对所述多个目标人脸图像中每一目标人脸图像进行图像质量评价,得到多个图像质量评价值;将所述多个图像质量评价值中大于预设质量评价阈值的图像质量评价值对应的目标人脸图像作为所述第一数据集。第二方面,本申请提供一种聚类装置,所述聚类装置包括:获取单元,用于获取包含同种类型数据的第一数据集;第一聚类单元,按照第一聚类算法和第一相似度阈值对所述第一数据集进行第一次聚类,并获得第一聚类结果,所述第一聚类结果中包含多个第一类簇;第二聚类单元,用于从所述多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据,组成第二数据集;按照第一聚类算法对所述第二数据集进行第二次聚类,获得第二聚类结果,所述第二聚类结果中包括多个第二类簇,所述多个第二类簇中的每个第二类簇中包括一个或多个所述代表数据;结合单元,用于结合所述第一聚类结果和所述第二聚类结果,确定所述第一数据集的最终聚类结果。第三方面,本申请实施例提供一种电子装置,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行第一方面任一方法中的步骤的指令。第四方面,本申请实施例提供了一种计算机可读存储介质,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行第一方面任一方法所述的步骤的指令。第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。可以看出,本申请实施例中,首先获取需要进行聚类的第一数据集,然后按照第一聚类算法对第一数据集进行第一次聚类,获得第一聚类结果,第一聚类结果中包括多个第一类簇;然后从多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据,组成第二数据集;按照第一聚类算法对第二数据集进行第二次聚类,获得第二聚类结果;最后结合第一聚类结果和第二聚类结果,确定第一数据集的最终聚类结果。在这个过程中,通过第一次聚类获得类内相似度大于第一相似度阈值的多个第一类簇,因为第一相似度阈值是一个较大的值,因此第一次聚类提升了类内精确率高;然后从第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据进行二次聚类,降低了类间误聚率。整个聚类过程提升了聚类的精确率和有效率。附图说明下面将对本申请实施例所涉及到的附图作简单地介绍。图1A是本申请实施例提供的一种聚类方法流程示意图;图1B是本申请实施例提供的一种第一次聚类过程示意图;图1C是本申请实施例提供的一种第二次聚类过程示意图;图1D是本申请实施例提供的一种获取最终聚类结果的示意图;图2是申请实施例提供的另一种聚类方法流程示意图;图3是本申请实施例提供的另一种聚类方法流程示意图;图4是本申请实施例提供的一种电子装置的结构示意图;图5是是本申请实施例公开的一种聚类装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是本文档来自技高网
...

【技术保护点】
1.一种聚类方法,其特征在于,所述方法包括:获取包含同种类型数据的第一数据集;按照第一聚类算法和第一相似度阈值对所述第一数据集进行第一次聚类,并获得第一聚类结果,所述第一聚类结果中包含多个第一类簇;从所述多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据,组成第二数据集;按照所述第一聚类算法对所述第二数据集进行第二次聚类,获得第二聚类结果;结合所述第一聚类结果和所述第二聚类结果,确定所述第一数据集的最终聚类结果。

【技术特征摘要】
1.一种聚类方法,其特征在于,所述方法包括:获取包含同种类型数据的第一数据集;按照第一聚类算法和第一相似度阈值对所述第一数据集进行第一次聚类,并获得第一聚类结果,所述第一聚类结果中包含多个第一类簇;从所述多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据,组成第二数据集;按照所述第一聚类算法对所述第二数据集进行第二次聚类,获得第二聚类结果;结合所述第一聚类结果和所述第二聚类结果,确定所述第一数据集的最终聚类结果。2.根据权利要求1所述的方法,其特征在于,所述按照第一聚类算法和第一相似度阈值对所述第一数据集进行第一次聚类,包括:S21:获取第一数据集中的第一个数据作为基准数据;S22:计算所述第一数据集中除了所述基准数据之外的剩余数据与所述基准数据之间的相似度,并将所述基准数据、以及与所述基准数据之间的相似度大于第一相似度阈值的数据划分到同一个类簇中;S23:将所述第一数据集中剩余的未划分到类簇中的数据作为新的第一数据集,重复步骤S21和S22,直到第一数据集中的所有数据全部划分到类簇中,得到所述多个第一类簇。3.根据权利要求2所述的方法,其特征在于,所述第二聚类结果中包括多个第二类簇,所述多个为N个,N为大于1的整数,所述多个第二类簇中的每个第二类簇中包括一个或多个所述代表数据,所述结合所述第一聚类结果和所述第二聚类结果,确定所述第一数据集的最终聚类结果,包括:S41、获取所述多个第二类簇中的第i个第二类簇,i为正整数;S42、确定所述第i个第二类簇中的所有代表数据对应的所有第一类簇,并将所述所有第一类簇中的数据放置到同一个第三类簇中;S43、赋值i=i+1,执行步骤S41和S42,直到遍历完所述多个第二类簇,得到多个第三类簇,即为最终聚类结果,i小于或等于N-1。4.根据权利要求1-3任一项所述的方法,其特征在于,在所述从所述多个第一类簇中的每个类簇中挑选一个质量最好的数据作为代表数据之前,所述方法还包括:获取所述第一数据集中每个数据对应的属性值;根据所述属性值确定所述第一数据集中每一个数据的质量好坏。5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取包含同种类型数据的第一数据集包括:获取指定时间段由指定区域内的多个摄像头拍摄的视频集,得到多个视频集;对所述多个视频集中每一视频集进行视频解析,得到多张视频图像;对所述多张视频图像中每一张视频图像进行图像分割,得到多个人脸图像;确定所述多个人脸图像的人脸角度,得到多个角度值;从所述多个角度值中选取角度值处于预设角度范围的角度值,并确定其对应的多个目标人脸图像;对所述多个目标人脸图像中每一目标人脸图像进行图像质量评价,得到多个图像质量评价值;将所述多个图像质量评价值中大于预设质量评价阈值的图像质量评价值对应的目标人脸图像作为所述第一数据集。...

【专利技术属性】
技术研发人员:高增辉曾佐祺屈亚鹏张义钟斌
申请(专利权)人:深圳云天励飞技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1