一种数据聚类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24577707 阅读:27 留言:0更新日期:2020-06-21 00:37
本发明专利技术适用于计算机技术领域,提供了一种数据聚类方法、装置、计算机设备和存储介质,其中数据聚类方法包括:对多个聚类中心数据分别进行处理,生成多个对应的核心数据集合;对剩余的边界数据进行处理,分别确定各个边界数据所关联的核心数据集合,并加入到对应的核心数据集合中;根据核心数据集合对待聚类数据进行聚类划分。本发明专利技术提供的数据聚类方法先将最可能属于同一簇的数据划分到一个核心数据集合当中,然后确定剩余数据与集合的关联性,相比于现有技术中是确定剩余数据与已划分数据之间的关联性,即使集合中某一个点划分错误,也不会对剩余边界数据的划分产生严重的影响,解决了现有聚类算法对标签准确率高度依赖技术问题。

A data clustering method, device, computer equipment and storage medium

【技术实现步骤摘要】
一种数据聚类方法、装置、计算机设备和存储介质
本专利技术属于计算机
,尤其涉及一种数据聚类方法、装置、计算机设备和存储介质。
技术介绍
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个簇(或者类)的过程,即将对象分类到不同的簇,同一个簇中的对象有很大的相似性,不同簇中的对象有很大的相异性。目前的聚类算法有很多种,例如DBSCAN算法(Density-BasedSpatialClusteringofApplicationswithNoise,一种基于密度的聚类算法)、DPCA算法(DesityPeaksCluseringAlgorithm,一种基于密度峰值的聚类算法)、KNN算法(k-NearestNeighbor,k-最近邻聚类算法),其中较为常用的聚类算法为DPCA算法。然而,对于DPCA算法而言,由于算法最后的过程中需要将剩下的每一个非聚类中心点归类到比它密度更大的最相近的点所属的簇中,因此存在着较为严重的标签依赖问题,在非聚类中心点的分配过程中,一旦某个点被归类到错误的簇中,则可能导致密度比较小的点都会被分配到同一个错误的簇中,产生连锁反应,影响聚类效果。可见,现有的DPCA算法还存在着对标签依赖度高,效果不够理想的技术问题。
技术实现思路
本专利技术实施例的目的在于提供一种数据聚类方法,旨在解决现有的DPCA算法还存在着对标签依赖度高,效果不够理想的技术问题。本专利技术实施例是这样实现的,一种数据聚类方法,包括:根据预设的核心数据确定规则,对多个聚类中心数据分别进行处理,生成多个与所述聚类中心数据对应的核心数据集合;所述多个聚类中心数据为待聚类数据经过密度峰值聚类算法处理确定,所述核心数据集合包括第一核心数据以及所有与所述第一核心数据的距离小于预设的核心距离阈值的数据;根据预设的边界数据处理规则对边界数据进行处理,分别确定各个边界数据所关联的核心数据集合,并将所述各个边界数据分别加入与所述边界数据所对应的核心数据集合中;所述边界数据是指不包含在任一核心数据集合内的待聚类数据;根据所述核心数据集合对所述待聚类数据进行聚类划分。本专利技术实施例的另一目的在于提供一种数据聚类装置,包括:核心数据确定模块,用于根据预设的核心数据确定规则,对确定的多个聚类中心数据分别进行处理,生成与所述多个聚类中心数据分别对应的多个核心数据集合,所述多个聚类中心数据为待聚类数据经过密度峰值聚类算法处理确定,所述多个核心数据集合包括第一核心数据以及所有与所述第一核心数据的距离小于预设的核心距离阈值的数据;边界数据处理模块,根据根据预设的边界数据处理规则对边界数据进行处理,分别确定各个边界数据所关联的核心数据集合,并将所述各个边界数据分别加入与所述边界数据所对应的核心数据集合中,所述边界数据是指不包含在任一核心数据集合内的待聚类数据;数据聚类模块,根据所述核心数据集合对所述待聚类数据进行聚类划分。本专利技术实施例的另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述所述数据聚类方法的步骤。本专利技术实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述所述数据聚类方法的步骤。本专利技术实施例提供的一种数据聚类方法,通过根据预设的核心数据确定规则,先对多个聚类中心分别进行处理,得到多个与所述聚类中心数据对应的核心数据集合,其中所述多个聚类中心数据为待聚类数据经过密度峰值聚类算法处理确定,且每个核心数据集合内都包括第一核心数据以及所有与所述第一核心数据的距离小于预设的核心距离阈值的数据,在确定核心数据集合后,再将剩余的数据也就是边界数据分别划分到可能的核心数据集合中,此时每一个核心数据集合都可理解为一个分类簇,根据核心数据集合就可直接实现对待聚类数据的聚类。本专利技术的数据聚类方法,先通过预设的核心数据方法确定出以聚类中心数据为核心的包括多个核心数据在内的核心数据集合,由于每个核心数据集合都满足:针对该核心数据集合当中的任一数据,与该核心数据的距离小于预设的核心距离阈值的全部数据也都在该核心数据集合中,即可以理解为,每一个核心数据集合当中的全部数据距离足够近,具有极高的概率属于同一簇,再将剩余的边界数据划分到可能属于的簇中,这样的划分规则依赖与对点和集合之间关系的划分,相比于现有技术中依赖于点与点之间关系的划分,即使某个核心数据集合中的一个点划分错误,也不会对剩余边界数据的划分产生严重的影响,有效的提高了聚类的稳定性。附图说明图1为本专利技术实施例提供的一种数据聚类方法的步骤流程图;图2为本专利技术实施例提供的一种确定聚类中心数据的步骤流程图;图3为本专利技术实施例提供的另一种确定聚类中心数据的步骤流程图;图4为本专利技术实施例提供的一种根据预设的核心数据确定规则,对多个聚类中心数据分别进行处理的步骤流程图;图5为本专利技术实施例提供的一种根据预设的边界数据处理规则对边界数据进行处理,分别确定各个边界数据所关联的核心数据集合的步骤流程图;图6为本专利技术实施例提供的另一种根据预设的边界数据处理规则对边界数据进行处理,分别确定各个边界数据所关联的核心数据集合的步骤流程图;图7为本专利技术实施例提供的又一种根据预设的边界数据处理规则对边界数据进行处理,分别确定各个边界数据所关联的核心数据集合的步骤流程图;图8为本专利技术实施例提供的一种数据聚类装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。首先,为便于理解本专利技术,在对各步骤进行具体的论述之前,提供多个需要用到的专业技术词语解释说明、计算公式等,具体如下:①K-近邻数据:对于某个数据p,其K-近邻数据KNNp表示为:其中dpq为样本p和q的欧式距离,欧氏距离的计算公式属于本领域技术人员常规技术手段,在此不再赘述,代表样本p和K个最近邻中的最大距离,K为预设值。简而言之,数据p的K-近邻数据即为与数据p距离最近的K个数据所构成的集合(不包含p)。②局部密度:对于某个数据p,其局部密度ρp表示为:其中,dpq、KNNp的具体含义不再具体说明,exp表示以自然对数的底数的幂函数。简而言之,数据p的局部密度即为以自然对数为底数,与数据p的K-近邻数据与数据p之间欧氏距离的相反数分别为指数的多个幂函数的求和。③与高密度点之间的距离:对于某个数据p,其与高密度点之间的距离δp表示为:其中,q:ρp<ρq即表示所有局部密度高于数据p的全部数据q,关于局部密度的定义请参阅前述②。简而言之,数据p与高密度点之间的距离即为所有局部密度高于数据p的局部本文档来自技高网...

【技术保护点】
1.一种数据聚类方法,其特征在于,包括:/n根据预设的核心数据确定规则,对多个聚类中心数据分别进行处理,生成多个与所述聚类中心数据对应的核心数据集合;所述多个聚类中心数据为待聚类数据经过密度峰值聚类算法处理确定,所述核心数据集合包括第一核心数据以及所有与所述第一核心数据的距离小于预设的核心距离阈值的数据;/n根据预设的边界数据处理规则对边界数据进行处理,分别确定各个边界数据所关联的核心数据集合,并将所述各个边界数据分别加入与所述边界数据所对应的核心数据集合中;所述边界数据是指不包含在任一核心数据集合内的待聚类数据;/n根据所述核心数据集合对所述待聚类数据进行聚类划分。/n

【技术特征摘要】
1.一种数据聚类方法,其特征在于,包括:
根据预设的核心数据确定规则,对多个聚类中心数据分别进行处理,生成多个与所述聚类中心数据对应的核心数据集合;所述多个聚类中心数据为待聚类数据经过密度峰值聚类算法处理确定,所述核心数据集合包括第一核心数据以及所有与所述第一核心数据的距离小于预设的核心距离阈值的数据;
根据预设的边界数据处理规则对边界数据进行处理,分别确定各个边界数据所关联的核心数据集合,并将所述各个边界数据分别加入与所述边界数据所对应的核心数据集合中;所述边界数据是指不包含在任一核心数据集合内的待聚类数据;
根据所述核心数据集合对所述待聚类数据进行聚类划分。


2.根据权利要求1所述的数据聚类方法,其特征在于,所述多个聚类中心数据的确定,包括:
计算各个待聚类数据的局部密度以及与高密度点之间的距离;
将所有局部密度大于预设的第一密度阈值且与高密度点之间的距离大于预设的距离阈值的待聚类数据确定为聚类中心数据。


3.根据权利要求2所述的数据聚类方法,其特征在于,还包括:
将所有局部密度小于预设的第二密度阈值且与高密度点之间的距离大于预设的距离阈值的待聚类数据确定为噪音数据。


4.根据权利要求1所述的数据聚类方法,其特征在于,所述根据预设的核心数据确定规则,对多个聚类中心数据分别进行处理的步骤具体包括:
基于核心距离算法对加入到与所述聚类中心数据关联的核心数据集合中的第一数据进行处理,确定符合预设的处理条件的第二数据;
将所述第二数据加入到所述核心数据集合中,并确定为加入到与所述聚类中心数据关联的核心数据集合中的第一数据;其中
在第一次处理时,加入到与所述聚类中心数据关联的核心数据集合中的第一数据为聚类中心数据;
基于核心距离算法对待处理数据进行处理的步骤具体为:
从所述待处理数据的K个最近邻数据中确定出核心数据,所述核心数据是指与所述待处理数据之间距离小于预设的核心距离阈值的数据;
所述符合预设的处理条件的第二数据是指不在所述核心数据集合中的核心数据。


5.根据权利要求1所述的数据聚类方法,其特征在于,所述根据预设的边界数据处理规则对边界数据进行处理,分别确定各个边界数据所关联的核心数据集合的步骤具体包括:
确定第一边界数据的K个最近邻数据;
根据所述K个最近邻数据的关联核心数据集合以及与所述第一边界数据之间的距离分别确定所述第一边界数据属于各个核心数据集合的概...

【专利技术属性】
技术研发人员:于会陈芦园王星南张洁董文敏杨海泽
申请(专利权)人:重庆亿创西北工业技术研究院有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1