聚类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35590644 阅读:16 留言:0更新日期:2022-11-16 15:07
本申请涉及一种聚类方法、装置、计算机设备和存储介质。该方法包括:获取类簇密度相关属性;从待聚类的数据点集中筛选符合类簇密度相关属性的中心点;从筛选出的中心点中确定当前中心点,针对当前中心点按照第一扩展半径进行扩展得到初始类簇;基于最小扩增数量阈值对初始类簇再次进行半径扩展,得到与当前中心点对应的目标类簇;从筛选出的中心点中确定新的当前中心点,返回执行针对当前中心点按照第一扩展半径进行扩展得到初始类簇以迭代聚类,直至针对数据点集中选取的各个中心点聚类处理完毕。采用本方法能够提高聚类结果准确性。完毕。采用本方法能够提高聚类结果准确性。完毕。采用本方法能够提高聚类结果准确性。

【技术实现步骤摘要】
聚类方法、装置、计算机设备和存储介质


[0001]本申请涉及软件
,特别是涉及一种聚类方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着计算机的不断发展,各行各业所产生的数据越来越多。聚类分析算法是用于对数据进行挖掘的一种重要算法。聚类算法需要对事先未定义类别的一组数据集进行分类得到类型簇,保证一个类型簇中的数据点之间存在相似性,不同类型簇中的数据点之间存在差异性。
[0003]目前的聚类算法的分类思想过于单一,导致聚类结果也具有单一性。比如,通过密度进行聚类的聚类算法是将密度相近的样本区域连接在一起成为一个类簇,最终所得到的类簇只是一些密度相近的类簇,即所得到的聚类结果具有一定的单一性,不够丰富,导致聚类结果不够准确。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高聚类结果准确性的聚类方法、装置、计算机设备、存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种聚类方法。所述方法包括:
[0006]获取类簇密度相关属性;
[0007]从待聚类的数据点集中筛选符合所述类簇密度相关属性的中心点;
[0008]从筛选出的中心点中确定当前中心点,针对所述当前中心点按照第一扩展半径进行扩展得到初始类簇;
[0009]基于最小扩增数量阈值对所述初始类簇再次进行半径扩展,得到与所述当前中心点对应的目标类簇;
[0010]从筛选出的中心点中确定新的当前中心点,返回执行所述针对所述当前中心点按照第一扩展半径进行扩展得到初始类簇以迭代聚类,直至针对所述数据点集中选取的各个中心点聚类处理完毕。
[0011]第二方面,本申请还提供了一种聚类装置。所述装置包括:
[0012]中心点确定模块,用于获取类簇密度相关属性;从待聚类的数据点集中筛选符合所述类簇密度相关属性的中心点;
[0013]聚类模块,用于从筛选出的中心点中确定当前中心点,针对所述当前中心点按照第一扩展半径进行扩展得到初始类簇;基于最小扩增数量阈值对所述初始类簇再次进行半径扩展,得到与所述当前中心点对应的目标类簇;
[0014]迭代模块,用于从筛选出的中心点中确定新的当前中心点,返回执行所述针对所述当前中心点按照第一扩展半径进行扩展得到初始类簇以迭代聚类,直至针对所述数据点集中选取的各个中心点聚类处理完毕。
[0015]在其中一个实施例中,在对所述数据点集中选取的各个中心点聚类处理完毕之后,所述迭代模块还用于往减小类簇密度的方向调整所述类簇密度相关属性,将未被划入所述目标类簇的数据点的集合作为新的待聚类的数据点集,重新返回执行所述从待聚类的数据点集中筛选符合所述类簇密度相关属性的中心点及后续步骤,直至满足参数调整停止条件后停止迭代。
[0016]在其中一个实施例中,所述参数调整停止条件包括以下任意一种:未被划分到目标类簇中的剩余数据点的数量占比小于预设阈值;调整所述类簇密度相关属性的次数达到预设调整次数阈值。
[0017]在其中一个实施例中,所述类簇密度相关属性包括类簇数据点数量和类簇数据点密度;所述类簇数据点数量是类簇中的数据点的数量;所类簇数据点密度是类簇中的数据点的密度;所述迭代模块还用于减小所述类簇数据点数量和所述类簇数据点密度中的至少一种。
[0018]在其中一个实施例中,筛选出的中心点是符合类簇密度相关属性的潜在类簇的中心点;所述聚类模块还用于计算每个筛选出的中心点的密度值;所述密度值是基于在所述中心点所属潜在类簇中的数据点与所述中心点的距离计算得到;将所述密度值最大的中心点作为当前中心点。
[0019]在其中一个实施例中,所述聚类模块还用于以所述初始类簇作为待扩展的类簇,按照第二扩展半径进行扩展;若扩展后的类簇所增加的数据点大于或等于所述最小扩增数量阈值,则确认扩展有效,将扩展后的类簇重新作为待扩展的类簇,返回执行所述按照第二扩展半径进行扩展的步骤;若扩展后的类簇所增加的数据点不满足所述最小扩增数量阈值,则停止扩展,将最后一次扩展前的类簇作为所述当前中心点对应的目标类簇。
[0020]在其中一个实施例中,所述聚类模块还用于若扩展次数达到预设扩展轮次,则停止扩展,并将最后一次扩展后的类簇作为所述当前中心点对应的目标类簇。
[0021]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述聚类方法的步骤。
[0022]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述聚类方法的步骤。
[0023]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行上述聚类方法的步骤。
[0024]上述聚类方法、装置、计算机设备、存储介质和计算机程序产品,通过获取类簇密度相关属性。从待聚类的数据点集中筛选符合所述类簇密度相关属性的中心点。从筛选出的中心点中确定当前中心点,针对所述当前中心点按照第一扩展半径进行扩展得到初始类簇。基于最小扩增数量阈值对所述初始类簇再次进行半径扩展,得到与所述当前中心点对应的目标类簇。这样,所得到的目标类簇可以是非球状的类簇。从筛选出的中心点中确定新的当前中心点,返回执行所述针对所述当前中心点按照第一扩展半径进行扩展得到初始类簇以迭代聚类,直至针对所述数据点集中选取的各个中心点聚类处理完毕。这样,本方法在中心点的确认,初始类簇的生成和目标类簇的生成这三个环节使用了具有不同维度的判断条件,不再是单一地从某一个角度进行聚类,从而提高了聚类结果的准确性。
附图说明
[0025]图1为一个实施例中聚类方法的应用环境图;
[0026]图2为一个实施例中聚类方法的流程示意图;
[0027]图3为一个实施例中聚类方法的流程示意图;
[0028]图4为一个实施例中聚类方法的原理示意图;
[0029]图5为一个实施例中聚类装置的结构框图;
[0030]图6为一个实施例中计算机设备的内部结构图;
[0031]图7为一个实施例中计算机设备的内部结构图。
具体实施方式
[0032]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0033]本申请实施例提供的聚类方法,可以应用于如图1所示的应用环境中。其中,终端110通过网络与服务器120进行通信。数据存储系统可以存储服务器120需要处理的数据。数据存储系统可以集成在服务器120上,也可以放在云上或其他网络服务器上。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0034]终端110可以将待聚类的数据点集发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聚类方法,其特征在于,所述方法包括:获取类簇密度相关属性;从待聚类的数据点集中筛选符合所述类簇密度相关属性的中心点;从筛选出的中心点中确定当前中心点,针对所述当前中心点按照第一扩展半径进行扩展得到初始类簇;基于最小扩增数量阈值对所述初始类簇再次进行半径扩展,得到与所述当前中心点对应的目标类簇;从筛选出的中心点中确定新的当前中心点,返回执行所述针对所述当前中心点按照第一扩展半径进行扩展得到初始类簇以迭代聚类,直至针对所述数据点集中选取的各个中心点聚类处理完毕。2.根据权利要求1所述的方法,其特征在于,在对所述数据点集中选取的各个中心点聚类处理完毕之后,所述方法还包括:往减小类簇密度的方向调整所述类簇密度相关属性,将未被划入所述目标类簇的数据点的集合作为新的待聚类的数据点集,重新返回执行所述从待聚类的数据点集中筛选符合所述类簇密度相关属性的中心点及后续步骤,直至满足参数调整停止条件后停止迭代。3.根据权利要求2所述的方法,其特征在于,所述参数调整停止条件包括以下任意一种:未被划分到目标类簇中的剩余数据点的数量占比小于预设阈值;调整所述类簇密度相关属性的次数达到预设调整次数阈值。4.根据权利要求2所述的方法,其特征在于,所述类簇密度相关属性包括类簇数据点数量和类簇数据点密度;所述类簇数据点数量是类簇中的数据点的数量;所类簇数据点密度是类簇中的数据点的密度;所述往减小类簇密度的方向调整所述类簇密度相关属性包括:减小所述类簇数据点数量和所述类簇数据点密度中的至少一种。5.根据权利要求1所述的方法,其特征在于,筛选出的中心点是符合类簇密度相关属性的潜在类簇的中心点;所述从筛选出的中心点中确定当前中心点包括:计算每个筛选出的中心点的密度值;所述密度值是基于在所述中心点所属潜在类簇中的数据点与所述中心点的...

【专利技术属性】
技术研发人员:刘赫阳林仕锋梁昊远
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1