一种聚类方法、装置、设备及存储介质制造方法及图纸

技术编号:34128190 阅读:13 留言:0更新日期:2022-07-14 14:44
本申请实施例公开了一种聚类方法、装置、设备及存储介质,其中,所述方法包括:确定待聚类数据的分布密度信息;基于所述待聚类数据的分布密度信息,确定所述待聚类数据的至少两个分布密度中每一所述分布密度下数据的中心数据和聚类参数;基于每一所述分布密度下数据的中心数据和聚类参数,对所述待聚类数据进行聚类,得到聚类结果。得到聚类结果。得到聚类结果。

【技术实现步骤摘要】
一种聚类方法、装置、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种聚类方法、装置、设备及存储介质。

技术介绍

[0002]相关技术中,使用空间聚类(Density

Based Spatial Clustering of Applications with Noise,DBSCAN)进行聚类分析时,需要设置统一的聚类半径和最少点数目值。当数据集中的数据密度不均时,DBSCAN聚类会造成较大误差。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种聚类方法、装置、设备及存储介质。
[0004]第一方面,本申请实施例提供一种聚类方法,所述方法包括:
[0005]确定待聚类数据的分布密度信息;
[0006]基于所述待聚类数据的分布密度信息,确定所述待聚类数据的至少两个分布密度中每一所述分布密度下数据的中心数据和聚类参数;
[0007]基于每一所述分布密度下数据的中心数据和聚类参数,对所述待聚类数据进行聚类,得到聚类结果。
[0008]第二方面,本申请实施例提供一种聚类装置,包括:
[0009]第一确定模块,用于确定待聚类数据的分布密度信息;
[0010]第二确定模块,用于基于所述待聚类数据的分布密度信息,确定所述待聚类数据的至少两个分布密度中每一所述分布密度下数据的中心数据和聚类参数;
[0011]第一处理模块,用于基于每一所述分布密度下数据的中心数据和聚类参数,对所述待聚类数据进行聚类,得到聚类结果。
[0012]第三方面,本申请实施例提供一种电子设备,包括处理器、存储器和通信总线;
[0013]所述通信总线用于实现所述处理器和所述存储器之间的通信连接;
[0014]所述处理器用于执行所述存储器中的程序,以实现上述聚类方法。
[0015]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例任一所述电子设备控制方法的步骤。
[0016]在本申请实施例中,首先,确定待聚类数据的分布密度信息;其次,基于所述待聚类数据的分布密度信息,确定所述待聚类数据的至少两个分布密度中每一所述分布密度下数据的中心数据和聚类参数;如此,能够为每一分布密度匹配合适的聚类参数;最后,基于每一所述分布密度下数据的中心数据和聚类参数,对所述待聚类数据进行聚类,得到聚类结果;如此,能够为不同的分布密度匹配不同的聚类参数,进而得到更加准确的聚类结果。
附图说明
[0017]图1为本申请实施例提供的一种聚类方法的流程示意图;
[0018]图2为本申请实施例提供的一种聚类方法的流程示意图;
[0019]图3为本申请实施例提供的一种聚类方法的流程示意图;
[0020]图4为本申请实施例提供的一种聚类方法的流程示意图;
[0021]图5为本申请实施例提供的一种聚类方法的流程示意图;
[0022]图6为本申请实施例提供的一种聚类方法的流程示意图;
[0023]图7为本申请实施例提供的一种聚类方法的流程示意图;
[0024]图8为本申请实施例提供的一种聚类方法的流程示意图;
[0025]图9为本申请实施例提供的相关技术的聚类效果展示图;
[0026]图10A为本申请实施例提供的一种基于DBSCAN的可视化聚类分析方法的实现流程示意图的流程示意图;
[0027]图10B为本申请实施例提供的一种基于DBSCAN的可视化聚类分析方法的实现流程示意图的流程示意图;
[0028]图11为本申请实施例提供的一种聚类装置的结构示意图;
[0029]图12为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0030]下面结合附图和实施例对本申请的技术方案进一步详细阐述。
[0031]图1为本申请实施例提供的一种聚类方法的实现流程示意图,如图1所示,该方法包括:
[0032]步骤S101:确定待聚类数据的分布密度信息。
[0033]在一些实施例中,分布密度信息是指待聚类数据在坐标系中的分布密度。在待聚类数据分布均匀的情况下,分布密度信息包括一个分布密度;在待聚类数据分布不均匀的情况下,分布密度信息包括多个分布密度。
[0034]在一些实施例中,以二维数据绘制在二维坐标系为例,待聚类数据的分布密度可以通过以下过程确定:首先,基于数据点的坐标,将所有数据点的坐标表示为N
×
2的矩阵,其中,N为数据点的数量,N
×
2的矩阵中N行对应N个数据点,2列中第一列对应x坐标,第二列对应y坐标;其次,利用直方图把所有数据点的二维分布统计出来,即,将每一直方图网格中数据点的数量统计出来,其中,直方图默认是10
×
10的网格,可以根据实际需要进行调整;最后,每一网格中数据点的数据除以总点数,得到每一网格中数据点的密度。此外,可以将数据点密度相同且相邻的网格连通为同一网格。
[0035]步骤S102:基于所述待聚类数据的分布密度信息,确定所述待聚类数据的至少两个分布密度中每一所述分布密度下数据的中心数据和聚类参数。
[0036]在一些实施例中,中心数据是邻域半径内数据点的数量大于或等于最少点数目值的数据;其中,数据点可以理解为将待聚类数据降维处理后绘制在坐标系形成的点;最少点数目值是衡量邻域半径内数据点的密集程度的;一般地,当邻域半径内数据点的数量大于最少点数目值时,视为密集。
[0037]在一些实施例中,聚类参数可以是上述邻域半径和最少点数目值。
[0038]在一些实施例中,可以按照待聚类数据的获取顺序为每一数据进行编码,在每一分布密度下的数据点中,顺序扫描数据点,将首次扫描出的邻域半径内数据点的数量大于或等于最少点数目值的数据确定为中心数据。
[0039]在一些实施例中,基于分布密度的大小,确定邻域半径;一般地,分布密度比较小,说明数据点分布比较稀疏,因此,可以取较大的邻域半径;分布密度比较大,说明数据点分布比较密集,因此,可以取较小的邻域半径;如此,在数据点分布不均的情况下,能够为每一分布密度匹配合适的邻域半径,使得聚类结果更准确,
[0040]在一些实施例中,最少点数目值可以根据经验取值,一般地,最少点数目值取3或4。
[0041]步骤S103:基于每一所述分布密度下数据的中心数据和聚类参数,对所述待聚类数据进行聚类,得到聚类结果。
[0042]在一些实施例中,聚类结果,即将待聚类数据划分成的所有簇;其中,每一簇包括对应分布密度下数据。
[0043]在一些实施例中,可以根据每一分布密度下数据的中心数据和聚类参数对待聚类数据进行聚类。
[0044]在本申请实施例中,首先,确定待聚类数据的分布密度信息;其次,基于所述待聚类数据的分布密度信息,确定所述待聚类数据的至少两个分布密度中每一所述分布密度下数据的中心数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聚类方法,所述方法包括:确定待聚类数据的分布密度信息;基于所述待聚类数据的分布密度信息,确定所述待聚类数据的至少两个分布密度中每一所述分布密度下数据的中心数据和聚类参数;基于每一所述分布密度下数据的中心数据和聚类参数,对所述待聚类数据进行聚类,得到聚类结果。2.根据权利要求1所述的方法,所述聚类参数包括:聚类半径和散点数量阈值,所述基于所述待聚类数据的分布密度信息,确定所述待聚类数据的至少两个分布密度中每一所述分布密度下数据的中心数据和聚类参数,包括:基于所述待聚类数据的分布密度,确定不同分布密度中每一所述分布密度下数据的所述聚类半径;基于所述聚类半径和所述散点数量阈值,确定每一所述分布密度下数据的中心数据。3.根据权利要求2所述的方法,所述基于所述聚类半径和所述散点数量阈值,确定每一所述分布密度下数据的所述中心数据,包括:在每一所述分布密度下数据中取一数据,得到第一数据;如果所述第一数据的聚类半径内所包括的数据的数量大于所述散点数量阈值,将所述第一数据确定为所述分布密度下数据的中心数据。4.根据权利要求1所述的方法,所述基于所述待聚类数据的分布密度信息,确定所述待聚类数据的至少两个分布密度中每一所述分布密度下数据的聚类参数,包括:获取表征不同分布密度与聚类参数之间的对应关系的映射信息;基于所述映射信息,根据所述分布密度信息中的每一密度,确定与每一所述密度相匹配的所述聚类参数。5.根据权利要求1所述的方法,所述基于每一所述分布密度下数据的中心数据和聚类参数,对所述待聚类数据进行聚类,得到聚类结果,包括:基于每一所述分布密度下数据的聚类半径和散点数量阈值,确定每一所述分布密度下中心数据的密度连接数据;...

【专利技术属性】
技术研发人员:张俊丽王奇刚舒红乔
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1