一种数据聚类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：24577707 阅读：27 留言：0更新日期：2020-06-21 00:37

本发明专利技术适用于计算机技术领域，提供了一种数据聚类方法、装置、计算机设备和存储介质，其中数据聚类方法包括：对多个聚类中心数据分别进行处理，生成多个对应的核心数据集合；对剩余的边界数据进行处理，分别确定各个边界数据所关联的核心数据集合，并加入到对应的核心数据集合中；根据核心数据集合对待聚类数据进行聚类划分。本发明专利技术提供的数据聚类方法先将最可能属于同一簇的数据划分到一个核心数据集合当中，然后确定剩余数据与集合的关联性，相比于现有技术中是确定剩余数据与已划分数据之间的关联性，即使集合中某一个点划分错误，也不会对剩余边界数据的划分产生严重的影响，解决了现有聚类算法对标签准确率高度依赖技术问题。

A data clustering method, device, computer equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种数据聚类方法、装置、计算机设备和存储介质
本专利技术属于计算机
，尤其涉及一种数据聚类方法、装置、计算机设备和存储介质。
技术介绍
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个簇(或者类)的过程，即将对象分类到不同的簇，同一个簇中的对象有很大的相似性，不同簇中的对象有很大的相异性。目前的聚类算法有很多种，例如DBSCAN算法(Density-BasedSpatialClusteringofApplicationswithNoise，一种基于密度的聚类算法)、DPCA算法(DesityPeaksCluseringAlgorithm，一种基于密度峰值的聚类算法)、KNN算法(k-NearestNeighbor，k-最近邻聚类算法)，其中较为常用的聚类算法为DPCA算法。然而，对于DPCA算法而言，由于算法最后的过程中需要将剩下的每一个非聚类中心点归类到比它密度更大的最相近的点所属的簇中，因此存在着较为严重的标签依赖问题，在非聚类中心点的分配过程中，一旦某个点被归类到错误的簇中，则可能导致密度比较小的点都会被分配到同一个错误的簇中，产生连锁反应，影响聚类效果。可见，现有的DPCA算法还存在着对标签依赖度高，效果不够理想的技术问题。
技术实现思路
本专利技术实施例的目的在于提供一种数据聚类方法，旨在解决现有的DPCA算法还存在着对标签依赖度高，效果不够理想的技术问题。本专利技术实施例是这样实现的，一种数据聚类方法，包括：根据预设的核心数据确定规则，对多个...

【技术保护点】
1.一种数据聚类方法，其特征在于，包括：/n根据预设的核心数据确定规则，对多个聚类中心数据分别进行处理，生成多个与所述聚类中心数据对应的核心数据集合；所述多个聚类中心数据为待聚类数据经过密度峰值聚类算法处理确定，所述核心数据集合包括第一核心数据以及所有与所述第一核心数据的距离小于预设的核心距离阈值的数据；/n根据预设的边界数据处理规则对边界数据进行处理，分别确定各个边界数据所关联的核心数据集合，并将所述各个边界数据分别加入与所述边界数据所对应的核心数据集合中；所述边界数据是指不包含在任一核心数据集合内的待聚类数据；/n根据所述核心数据集合对所述待聚类数据进行聚类划分。/n

【技术特征摘要】
1.一种数据聚类方法，其特征在于，包括：
根据预设的核心数据确定规则，对多个聚类中心数据分别进行处理，生成多个与所述聚类中心数据对应的核心数据集合；所述多个聚类中心数据为待聚类数据经过密度峰值聚类算法处理确定，所述核心数据集合包括第一核心数据以及所有与所述第一核心数据的距离小于预设的核心距离阈值的数据；
根据预设的边界数据处理规则对边界数据进行处理，分别确定各个边界数据所关联的核心数据集合，并将所述各个边界数据分别加入与所述边界数据所对应的核心数据集合中；所述边界数据是指不包含在任一核心数据集合内的待聚类数据；
根据所述核心数据集合对所述待聚类数据进行聚类划分。

2.根据权利要求1所述的数据聚类方法，其特征在于，所述多个聚类中心数据的确定，包括：
计算各个待聚类数据的局部密度以及与高密度点之间的距离；
将所有局部密度大于预设的第一密度阈值且与高密度点之间的距离大于预设的距离阈值的待聚类数据确定为聚类中心数据。

3.根据权利要求2所述的数据聚类方法，其特征在于，还包括：
将所有局部密度小于预设的第二密度阈值且与高密度点之间的距离大于预设的距离阈值的待聚类数据确定为噪音数据。

4.根据权利要求1所述的数据聚类方法，其特征在于，所述根据预设的核心数据确定规则，对多个聚类中心数据分别进行处理的步骤具体包括：
基于核心距离算法对加入到与所述聚类中心数据关联的核心数据集合中的第一数据进行处理，确定符合预设的处理条件的第二数据；
将所述第二数据加入到所述核心数据集合中，并确定为加入到与所述聚类中心数据关联的核心数据集合中的第一数据；其中
在第一次处理时，加入到与所述聚类中心数据关联的核心数据集合中的第一数据为聚类中心数据；
基于核心距离算法对待处理数据进行处理的步骤具体为：
从所述待处理数据的K个最近邻数据中确定出核心数据，所述核心数据是指与所述待处理数据之间距离小于预设的核心距离阈值的数据；
所述符合预设的处理条件的第二数据是指不在所述核心数据集合中的核心数据。

5.根据权利要求1所述的数据聚类方法，其特征在于，所述根据预设的边界数据处理规则对边界数据进行处理，分别确定各个边界数据所关联的核心数据集合的步骤具体包括：
确定第一边界数据的K个最近邻数据；
根据所述K个最近邻数据的关联核心数据集合以及与所述第一边界数据之间的距离分别确定所述第一边界数据属于各个核心数据集合的概...

【专利技术属性】
技术研发人员：于会，陈芦园，王星南，张洁，董文敏，杨海泽，
申请(专利权)人：重庆亿创西北工业技术研究院有限公司，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人