数据聚类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：27206130 阅读：19 留言：0更新日期：2021-01-31 12:29

本申请实施例公开了一种数据聚类方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：根据多个数据所属的第一聚类集群以及每个第一聚类集群对应的第一质心，创建多个第一质心的目标关系数据，根据多个数据及多个第一质心的目标关系数据，分别确定每个数据与多个第一质心之间的相关度；将每个数据分配给最大相关度对应的第一质心，将同一个第一质心分配的数据构成一个第二聚类集群，得到多个第二聚类集群。基于为每个质心创建的目标关系数据，能够确定数据与每个质心之间的相关度，以相关度为参考基准，将多个数据进行聚类，保证了同一个聚类集群中的数据的相似度高，保证了聚类集群的准确性，从而提高了数据聚类的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
数据聚类方法、装置、计算机设备及存储介质

[0001]本申请实施例涉及计算机
，特别涉及一种数据聚类方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的发展，网络中的数据越来越多。为了便于对网络中的数据进行管理，通常会将这些数据进行聚类。
[0003]相关技术中提供了一种数据聚类方法，针对多个数据进行聚类时，根据每个数据与每个质心之间的距离，将每个数据分配给距离最近的质心，则每个质心分配的数据构成一个聚类集群。
[0004]由于上述方法仅是根据数据与质心之间的距离进行聚类处理，聚类的准确性差。

技术实现思路

[0005]本申请实施例提供了一种数据聚类方法、装置、计算机设备及存储介质，能够提高数据聚类的准确性。所述技术方案如下：
[0006]一方面，提供了一种数据聚类方法，所述方法包括：
[0007]根据多个数据所属的第一聚类集群以及每个第一聚类集群对应的第一质心，创建多个第一质心的目标关系数据，所述目标关系数据用于指示任一质心、任一数据及相关度之间的关系，所述相关度表示所述任一数据属于所述任一质心对应的聚类集群的可能性；
[0008]根据所述多个数据及所述多个第一质心的目标关系数据，分别确定每个数据与所述多个第一质心之间的相关度；
[0009]将所述每个数据分配给最大相关度对应的第一质心；
[0010]将同一个第一质心分配的数据构成一个第二聚类集群，得到多个第二聚类集群。
[0011]另一方面，提供了一种数据聚...

【技术保护点】

【技术特征摘要】
1.一种数据聚类方法，其特征在于，所述方法包括：根据多个数据所属的第一聚类集群以及每个第一聚类集群对应的第一质心，创建多个第一质心的目标关系数据，所述目标关系数据用于指示任一质心、任一数据及相关度之间的关系，所述相关度表示所述任一数据属于所述任一质心对应的聚类集群的可能性；根据所述多个数据及所述多个第一质心的目标关系数据，分别确定每个数据与所述多个第一质心之间的相关度；将所述每个数据分配给最大相关度对应的第一质心；将同一个第一质心分配的数据构成一个第二聚类集群，得到多个第二聚类集群。2.根据权利要求1所述的方法，其特征在于，所述根据多个数据所属的第一聚类集群以及每个第一聚类集群对应的第一质心，创建多个第一质心的目标关系数据，包括：创建第三质心的初始关系数据，所述第三质心为所述多个第一质心中任一第一质心，所述初始关系数据中包括取值未确定的参数；从其他第一质心对应的第一聚类集群中，选取多个参考数据；根据所述多个参考数据，对所述初始关系数据进行拟合处理，确定所述参数的取值；将确定所述参数的取值后得到的关系数据，确定为所述第三质心的目标关系数据。3.根据权利要求2所述的方法，其特征在于，在所述其他第一质心对应的第一聚类集群中，所述参考数据与所述第三质心的距离，小于其他数据与所述第三质心的距离。4.根据权利要求2所述的方法，其特征在于，所述根据所述多个参考数据，对所述初始关系数据进行拟合处理，确定所述参数的取值，包括：将所述多个参考数据与所述第三质心之间的距离中的最大距离，确定为第一参考距离；确定每个参考数据对应的距离与所述第一参考距离之间的距离差值；根据所述每个参考数据对应的距离差值，对所述初始关系数据进行拟合处理，确定所述参数的取值。5.根据权利要求1所述的方法，其特征在于，所述将同一个第一质心分配的数据构成一个第二聚类集群，得到多个第二聚类集群之后，所述方法还包括：根据所述第二聚类集群中的数据，对所述第二聚类集群对应的第一质心进行更新，得到更新后的第二质心。6.根据权利要求5所述的方法，其特征在于，所述根据所述第二聚类集群中的数据，对所述第二聚类集群对应的第一质心进行更新，得到更新后的第二质心，包括：将所述第二聚类集群中数据的平均值，确定为所述更新后的第二质心。7.根据权利要求5所述的方法，其特征在于，所述根据所述第二聚类集群中的数据，对所述第二聚类集群对应的第一质心进行更新，得到更新后的第二质心之后，所述方法还包括：响应于至少一个第二质心与对应的第一质心之间的距离不小于第二参考距离，根据所述多个数据所属的第二聚类集群以及每个第二聚类集群对应的第二质心，重新对所述多个数据进行下一轮次的聚类。8.根据权利要求1所述的方法，其特征在于，所述根据所述多个数据及所述多个第一质心的目标关系数据，分别确定每个数据与所述多个第一质心之间的相关度，包括：
...

【专利技术属性】
技术研发人员：郑思晓，罗泽坤，王亚彪，汪铖杰，李季檩，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人