聚类方法、装置和计算设备制造方法及图纸

技术编号:33018068 阅读:8 留言:0更新日期:2022-04-15 08:50
一种聚类方法,包括:在聚类装置获取到第一待聚类数据后,从聚类算法池包含的多个聚类算法中选择第一聚类算法,按照第一聚类算法完成对第一待聚类数据的聚类,使得第一聚类算法对第一待聚类数据的聚类效果优于聚类算法池中其他算法的聚类效果。由于聚类过程中所选择的聚类算法可以根据待聚类数据进行自适应调整,能够满足不同待聚类数据的需求,获得更准确的聚类结果。确的聚类结果。确的聚类结果。

【技术实现步骤摘要】
聚类方法、装置和计算设备


[0001]本申请涉及机器学习领域,尤其涉及一种聚类方法、装置和计算设备。

技术介绍

[0002]在大数据时代,海量的数据已远远超出了人类的理解能力。为了获取海量的数据所蕴含的信息,可以使用机器学习领域的算法对海量的数据进行挖掘。聚类是对数据集进行分组的一种非监督学习技术。聚类过程可以使用不同算法实现聚类,按照聚类算法可以将数据集分成若干个簇(cluster),确保同一簇内的数据之间具有相同的属性或者特征。但往往基于一种聚类算法对具有不同特征的数据进行聚类,由于不同的数据(如:文本、数字、图像数据)的特征分布不同,如果采用一种聚类算法对不同特征分布的数据进行聚类,无法保证聚类结果的合理性。因此,如何提供一种更合理的聚类方法成为亟待解决的问题。

技术实现思路

[0003]本申请提供了一种聚类方法、装置和计算设备,由此提供一种更合理的聚类方法。
[0004]第一方面,本申请提供了一种聚类方法,该方法可以应用于聚类装置,具体包括如下步骤:获取到第一待聚类数据后,从聚类算法池中选择第一聚类算法,按照第一聚类算法完成对第一待聚类数据的聚类,使得第一聚类算法对第一待聚类数据的聚类效果优于聚类算法池中其他算法的聚类效果。其中,聚类算法池包括至少两个聚类算法,第一聚类算法为聚类算法池中任意一个算法。
[0005]如此,在聚类过程中可以从多个预设的聚类算法中自适应选择聚类算法,使得选择到的第一聚类算法适用于待聚类数据的特征分布,利用适应不同待聚类数据的需求,最终获得更准确的聚类结果。
[0006]在一种可能的实现方式中,从聚类算法池中选择第一聚类算法,包括:利用聚类算法池中多个聚类算法分别对第二待聚类数据进行聚类得到聚类结果,依据多个聚类算法的聚类结果选择第一聚类算法。其中,第一待聚类数据和所述第二待聚类数据的特征分布相同。可选的,多个聚类算法可以是用户指示的聚类算法池中的聚类算法。
[0007]具体的,评估多个聚类算法的聚类结果得到多个评估结果;根据多个评估结果选择第一聚类算法。
[0008]示例的,评估多个聚类算法的聚类结果得到多个评估结果,包括:确定多个聚类算法的聚类结果的评估系数,得到多个评估结果,多个评估结果包括第一聚类算法的评估结果,第一聚类算法的评估系数优于聚类算法池中其他算法的评估系数,评估系数用于衡量每个聚类结果中同一类内数据的相似程度,以及每个聚类结果中不同类的数据的差异程度;则根据多个评估结果选择第一聚类算法,包括:选择多个评估结果的评估系数中趋于阈值的评估系数对应的聚类算法作为第一聚类算法。
[0009]可选的,评估系数可以是紧凑度和分离度。紧凑度用于衡量每个聚类结果中同一类内数据的相似程度。分离度用于衡量每个聚类结果中不同类的数据的差异程度。
[0010]调用预先配置的多个聚类算法对待聚类数据进行聚类后,综合评估多个聚类结果,最终选择一个适用于待聚类数据的特征分布的第一聚类算法,有效地提高了聚类装置的整体适应性,获得最优的聚类结果。
[0011]在另一种可能的实现方式中,在按照第一聚类算法完成对第一待聚类数据的聚类之前,方法还包括:按照预设规则调整第一聚类算法的参数,预设规则为依据第一聚类算法对第二待聚类数据进行聚类的收敛趋势调整第一聚类算法的参数。
[0012]在另一种可能的实现方式中,按照预设规则调整第一聚类算法的参数,包括:根据预设步长调整第一聚类算法的参数的初始值,得到第一聚类算法的参数的中间值;利用第一聚类算法的参数的中间值对第二待聚类数据进行聚类,直到第一聚类算法收敛,将第一聚类算法的参数的中间值确定为第一聚类算法的参数的调整值。
[0013]依据第一聚类算法对待聚类数据进行聚类时的聚类趋势,自动调整第一聚类算法的参数,来得到一组最优第一聚类算法的参数的值,进一步提高对待聚类数据进行聚类的效率和准确度。
[0014]示例的,利用第一聚类算法的参数的中间值对第二待聚类数据进行聚类,直到第一聚类算法收敛,将第一聚类算法的参数的中间值确定为第一聚类算法的参数的调整值,包括:根据第一聚类算法的参数的初始值对第二待聚类数据进行聚类,得到初始聚类结果;根据第一聚类算法的参数的中间值对第二待聚类数据进行聚类,得到中间聚类结果;根据初始聚类结果和中间聚类结果得到聚类趋势,聚类趋势指示第一聚类算法的收敛速度;当聚类趋势指示第一聚类算法收敛,将第一聚类算法的参数的中间值确定为第一聚类算法的参数的调整值。
[0015]在另一种可能的实现方式中,方法还包括:显示第一聚类算法的聚类结果和聚类算法池中除了第一聚类算法的聚类算法的聚类结果的对比结果。从而,使用户可以直观地看到不同的聚类算法对待聚类数据进行聚类的聚类效果。
[0016]可选的,显示第一聚类算法的聚类结果、第一聚类算法的中间聚类结果和聚类算法池中除了第一聚类算法的聚类算法的聚类结果的对比结果。
[0017]在另一种可能的实现方式中,方法还包括:删除聚类算法池中多次评估后评估结果较差的聚类算法,或者,增加聚类算法池中聚类算法,或者,优化聚类算法池中的聚类算法。从而,提高聚类算法池中聚类算法的可靠性,确保每一种聚类算法适用于一种特征分布的待聚类数据。
[0018]在另一种可能的实现方式中,第二待聚类数据可以是预处理后的数据。预处理包括采样和降维。如此,在保留待聚类数据的整体分布的同时尽量地减小了待聚类数据的数据量,提高了数据聚类的速度。
[0019]第二方面,提供了一种聚类装置,所述装置包括用于执行第一方面或第一方面任一种可能设计中的聚类方法的各个模块。
[0020]第三方面,提供一种计算设备,该计算设备包括至少一个处理器和存储器,存储器用于存储一组计算机指令;当处理器执行所述一组计算机指令时,执行第一方面或第一方面任一种可能实现方式中的聚类方法的操作步骤。
[0021]第四方面,提供一种计算机可读存储介质,包括:计算机软件指令;当计算机软件指令在计算设备中运行时,使得计算设备执行如第一方面或第一方面任意一种可能的实现
方式中所述方法的操作步骤。
[0022]第五方面,提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算设备执行如第一方面或第一方面任意一种可能的实现方式中所述方法的操作步骤。
[0023]本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
[0024]图1为本申请实施例提供的一种聚类装置部署示意图;
[0025]图2为本申请实施例提供的一种基于顾客位置分布进行商业选址的界面示意图;
[0026]图3为本申请实施例提供的另一种聚类装置部署示意图;
[0027]图4为本申请实施例提供的一种聚类方法的流程图;
[0028]图5为本申请实施例提供的一种聚类结果的界面示意图;
[0029]图6为本申请实施例提供的另一种聚类结果的界面示意图;
[0030]图7为本申请实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聚类方法,其特征在于,包括:获取第一待聚类数据;从聚类算法池中选择第一聚类算法,所述聚类算法池包括至少两个聚类算法,所述第一聚类算法为所述聚类算法池中任意一个算法;按照所述第一聚类算法完成对所述第一待聚类数据的聚类,所述第一聚类算法对所述第一待聚类数据的聚类效果优于所述聚类算法池中其他算法的聚类效果。2.根据权利要求1所述的方法,其特征在于,所述从聚类算法池中选择第一聚类算法,包括:利用所述聚类算法池中多个聚类算法分别对第二待聚类数据进行聚类得到聚类结果,所述第一待聚类数据和所述第二待聚类数据的特征分布相同;根据所述聚类结果选择所述第一聚类算法。3.根据权利要求2所述的方法,其特征在于,所述根据所述聚类结果选择所述第一聚类算法,包括:评估所述多个聚类算法的聚类结果得到多个评估结果;根据所述多个评估结果选择所述第一聚类算法。4.根据权利要求3所述的方法,其特征在于,所述评估所述多个聚类算法的聚类结果得到多个评估结果,包括:确定所述多个聚类算法的聚类结果的评估系数,所述第一聚类算法的评估系数优于所述聚类算法池中其他算法的评估系数,所述评估系数用于衡量每个聚类结果中同一类内数据的相似程度,以及所述每个聚类结果中不同类的数据的差异程度;则所述根据所述多个评估结果选择所述第一聚类算法,包括:选择所述多个评估结果的评估系数中趋于阈值的评估系数对应的聚类算法作为所述第一聚类算法。5.根据权利要求1-4中任一项所述的方法,其特征在于,在按照所述第一聚类算法完成对所述第一待聚类数据的聚类之前,所述方法还包括:按照预设规则调整所述第一聚类算法的参数,所述预设规则为依据所述第一聚类算法对第二待聚类数据进行聚类的收敛趋势调整所述第一聚类算法的参数。6.根据权利要求5所述的方法,其特征在于,按照预设规则调整所述第一聚类算法的参数,包括:根据预设步长调整所述第一聚类算法的参数的初始值,得到所述第一聚类算法的参数的中间值;利用所述第一聚类算法的参数的中间值对所述第二待聚类数据进行聚类,直到所述第一聚类算法收敛,将所述第一聚类算法的参数的中间值确定为所述第一聚类算法的参数的调整值。7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:显示所述第一聚类算法的聚类结果和所述聚类算法池中除了所述第一聚类算法的聚类算法的聚类结果的对比结果。8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:更新所述聚类算法池,所述更新包括删除、增加或优化所述聚类算法池中的聚类算法。
9.一种聚类装置,其特征在于,包括:通信模块,用于获取第一待聚类数据;算法自适应模...

【专利技术属性】
技术研发人员:胥鹏鹏许利霞郑卫炎
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1