数据聚类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:27206130 阅读:19 留言:0更新日期:2021-01-31 12:29
本申请实施例公开了一种数据聚类方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:根据多个数据所属的第一聚类集群以及每个第一聚类集群对应的第一质心,创建多个第一质心的目标关系数据,根据多个数据及多个第一质心的目标关系数据,分别确定每个数据与多个第一质心之间的相关度;将每个数据分配给最大相关度对应的第一质心,将同一个第一质心分配的数据构成一个第二聚类集群,得到多个第二聚类集群。基于为每个质心创建的目标关系数据,能够确定数据与每个质心之间的相关度,以相关度为参考基准,将多个数据进行聚类,保证了同一个聚类集群中的数据的相似度高,保证了聚类集群的准确性,从而提高了数据聚类的准确性。准确性。准确性。

【技术实现步骤摘要】
数据聚类方法、装置、计算机设备及存储介质


[0001]本申请实施例涉及计算机
,特别涉及一种数据聚类方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,网络中的数据越来越多。为了便于对网络中的数据进行管理,通常会将这些数据进行聚类。
[0003]相关技术中提供了一种数据聚类方法,针对多个数据进行聚类时,根据每个数据与每个质心之间的距离,将每个数据分配给距离最近的质心,则每个质心分配的数据构成一个聚类集群。
[0004]由于上述方法仅是根据数据与质心之间的距离进行聚类处理,聚类的准确性差。

技术实现思路

[0005]本申请实施例提供了一种数据聚类方法、装置、计算机设备及存储介质,能够提高数据聚类的准确性。所述技术方案如下:
[0006]一方面,提供了一种数据聚类方法,所述方法包括:
[0007]根据多个数据所属的第一聚类集群以及每个第一聚类集群对应的第一质心,创建多个第一质心的目标关系数据,所述目标关系数据用于指示任一质心、任一数据及相关度之间的关系,所述相关度表示所述任一数据属于所述任一质心对应的聚类集群的可能性;
[0008]根据所述多个数据及所述多个第一质心的目标关系数据,分别确定每个数据与所述多个第一质心之间的相关度;
[0009]将所述每个数据分配给最大相关度对应的第一质心;
[0010]将同一个第一质心分配的数据构成一个第二聚类集群,得到多个第二聚类集群。
[0011]另一方面,提供了一种数据聚类装置,所述装置包括:
[0012]创建模块,用于根据多个数据所属的第一聚类集群以及每个第一聚类集群对应的第一质心,创建多个第一质心的目标关系数据,所述目标关系数据用于指示任一质心、任一数据及相关度之间的关系,所述相关度表示所述任一数据属于所述任一质心对应的聚类集群的可能性;
[0013]确定模块,用于根据所述多个数据及所述多个第一质心的目标关系数据,分别确定每个数据与所述多个第一质心之间的相关度;
[0014]第一分配模块,用于将所述每个数据分配给最大相关度对应的第一质心;
[0015]第一构成模块,用于将同一个第一质心分配的数据构成一个第二聚类集群,得到多个第二聚类集群。
[0016]在一种可能实现方式中,所述装置还包括:
[0017]更新模块,用于根据所述第二聚类集群中的数据,对所述第二聚类集群对应的第一质心进行更新,得到更新后的第二质心。
[0018]在另一种可能实现方式中,所述更新模块,包括:
[0019]更新单元,用于将所述第二聚类集群中数据的平均值,确定为所述更新后的第二质心。
[0020]在另一种可能实现方式中,所述装置还包括:
[0021]轮次切换模块,用于响应于至少一个第二质心与对应的第一质心之间的距离不小于第二参考距离,根据所述多个数据所属的第二聚类集群以及每个第二聚类集群对应的第二质心,重新对所述多个数据进行下一轮次的聚类。
[0022]在另一种可能实现方式中,所述确定模块,包括:
[0023]距离确定单元,用于确定所述多个数据中的任一数据与所述多个第一质心中的任一第一质心之间的距离;
[0024]相关度确定单元,用于根据所述数据对应的距离及所述第一质心的目标关系数据,确定所述数据与所述第一质心之间的相关度。
[0025]在另一种可能实现方式中,所述装置还包括:
[0026]第二分配模块,用于根据所述每个数据与每个第一质心之间的距离,将所述每个数据分配给距离最近的第一质心;
[0027]第二构成模块,用于将同一个第一质心分配的数据构成一个第一聚类集群,得到所述多个数据所属的第一聚类集群。
[0028]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的数据聚类方法中所执行的操作。
[0029]另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的数据聚类方法中所执行的操作。
[0030]再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的数据聚类方法中所执行的操作。
[0031]本申请实施例提供的技术方案带来的有益效果至少包括:
[0032]本申请实施例提供的方法、装置、计算机设备及存储介质,基于为每个质心创建的目标关系数据,能够确定数据与每个质心之间的相关度,以相关度为参考基准,将多个数据进行聚类,以使聚类后的任一质心对应的聚类集群中的数据,均与该质心之间具有最大的相关度,即保证了同一个聚类集群中的数据的相似度高,保证了聚类集群的准确性,从而提高了数据聚类的准确性。
附图说明
[0033]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1是本申请实施例提供的一种实施环境的结构示意图;
[0035]图2是本申请实施例提供的一种数据聚类方法的流程图;
[0036]图3是本申请实施例提供的一种数据聚类方法的流程图;
[0037]图4是本申请实施例提供的一种质心与其他聚类集群中的数据之间的距离的示意图;
[0038]图5是本申请实施例提供的一种数据聚类装置的结构示意图;
[0039]图6是本申请实施例提供的一种数据聚类装置的结构示意图;
[0040]图7是本申请实施例提供的一种终端的结构示意图;
[0041]图8是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
[0042]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0043]本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一质心称为第二质心,且类似地,可将第二质心称为第一质心。
[0044]本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个质心包括3个质心,而每个是指这3个质心中的每一个质心,任一是指这3个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据聚类方法,其特征在于,所述方法包括:根据多个数据所属的第一聚类集群以及每个第一聚类集群对应的第一质心,创建多个第一质心的目标关系数据,所述目标关系数据用于指示任一质心、任一数据及相关度之间的关系,所述相关度表示所述任一数据属于所述任一质心对应的聚类集群的可能性;根据所述多个数据及所述多个第一质心的目标关系数据,分别确定每个数据与所述多个第一质心之间的相关度;将所述每个数据分配给最大相关度对应的第一质心;将同一个第一质心分配的数据构成一个第二聚类集群,得到多个第二聚类集群。2.根据权利要求1所述的方法,其特征在于,所述根据多个数据所属的第一聚类集群以及每个第一聚类集群对应的第一质心,创建多个第一质心的目标关系数据,包括:创建第三质心的初始关系数据,所述第三质心为所述多个第一质心中任一第一质心,所述初始关系数据中包括取值未确定的参数;从其他第一质心对应的第一聚类集群中,选取多个参考数据;根据所述多个参考数据,对所述初始关系数据进行拟合处理,确定所述参数的取值;将确定所述参数的取值后得到的关系数据,确定为所述第三质心的目标关系数据。3.根据权利要求2所述的方法,其特征在于,在所述其他第一质心对应的第一聚类集群中,所述参考数据与所述第三质心的距离,小于其他数据与所述第三质心的距离。4.根据权利要求2所述的方法,其特征在于,所述根据所述多个参考数据,对所述初始关系数据进行拟合处理,确定所述参数的取值,包括:将所述多个参考数据与所述第三质心之间的距离中的最大距离,确定为第一参考距离;确定每个参考数据对应的距离与所述第一参考距离之间的距离差值;根据所述每个参考数据对应的距离差值,对所述初始关系数据进行拟合处理,确定所述参数的取值。5.根据权利要求1所述的方法,其特征在于,所述将同一个第一质心分配的数据构成一个第二聚类集群,得到多个第二聚类集群之后,所述方法还包括:根据所述第二聚类集群中的数据,对所述第二聚类集群对应的第一质心进行更新,得到更新后的第二质心。6.根据权利要求5所述的方法,其特征在于,所述根据所述第二聚类集群中的数据,对所述第二聚类集群对应的第一质心进行更新,得到更新后的第二质心,包括:将所述第二聚类集群中数据的平均值,确定为所述更新后的第二质心。7.根据权利要求5所述的方法,其特征在于,所述根据所述第二聚类集群中的数据,对所述第二聚类集群对应的第一质心进行更新,得到更新后的第二质心之后,所述方法还包括:响应于至少一个第二质心与对应的第一质心之间的距离不小于第二参考距离,根据所述多个数据所属的第二聚类集群以及每个第二聚类集群对应的第二质心,重新对所述多个数据进行下一轮次的聚类。8.根据权利要求1所述的方法,其特征在于,所述根据所述多个数据及所述多个第一质心的目标关系数据,分别确定每个数据与所述多个第一质心之间的相关度,包括:
...

【专利技术属性】
技术研发人员:郑思晓罗泽坤王亚彪汪铖杰李季檩
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1