一种数据的聚类方法、装置和电子设备制造方法及图纸

技术编号:37595566 阅读:10 留言:0更新日期:2023-05-18 11:41
本申请实施例公开了一种数据的聚类方法、装置、电子设备及存储介质,该方法包括:获取初始样本集合;应用每轮聚类确定的聚类中心点对各个目标样本进行聚类;每一轮的聚类过程中,针对多个初始样本中的一个初始样本,对一个初始样本中的离散特征进行连续化处理,得到处理后的连续特征;将一个初始样本中的连续特征与处理后的连续特征进行拼接,得到一个初始样本对应的目标样本;在确定相邻两轮聚类过程中应用的聚类中心点之间的距离小于预设距离阈值,或聚类次数达到预设次数阈值时,停止聚类;并将最后一轮聚类的聚类结果作为用户特征数据的目标聚类结果。提高了对包括离散特征的用户数据在聚类时的准确性和解释性。数据在聚类时的准确性和解释性。数据在聚类时的准确性和解释性。

【技术实现步骤摘要】
一种数据的聚类方法、装置和电子设备


[0001]本申请涉及数据处理
,尤其涉及一种数据的聚类方法、装置、电子设备及存储介质。

技术介绍

[0002]聚类算法通常应用在各个领域中,但是,领域不同,参与聚类的数据的特征也不同,部分领域中的参与聚类的数据的特征不仅包括连续特征,还包括离散特征,例如对人进行聚类过程中的性别和所在城市等特征均为离散特征。
[0003]相关技术中,聚类的常用算法为kmeans聚类算法,但是,如果采用kmeans聚类算法处理离散型数据,经过计算得到的离散特征的中心点通常为小数,而性别等离散特征为整数,这样,则无法确定小数表征何种离散特征。因此,会丧失结果的解释性,导致聚类的准确性较低。

技术实现思路

[0004]本申请实施例提供一种数据的聚类方法、装置、电子设备及存储介质,用以提高对包括离散特征的用户数据在聚类时的准确性和解释性。
[0005]第一方面,本申请一实施例提供了一种数据的聚类方法,包括:
[0006]获取初始样本集合;其中,所述初始样本集合中包括多个初始样本,每个初始样本为用户特征数据,一个初始样本包括多个连续特征和多个离散特征;
[0007]应用每轮聚类确定的聚类中心点对各个目标样本进行聚类;其中,每一轮的聚类过程中,针对多个初始样本中的一个初始样本,对所述一个初始样本中的离散特征进行连续化处理,得到处理后的连续特征;将所述一个初始样本中的连续特征与所述处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本;
[0008]在确定相邻两轮聚类过程中应用的聚类中心点之间的距离小于预设距离阈值,或聚类次数达到预设次数阈值时,停止聚类;并将最后一轮聚类的聚类结果作为所述用户特征数据的目标聚类结果。
[0009]在一些示例性的实施方式中,对所述一个初始样本中的离散特征进行连续化处理,得到处理后的连续特征,包括:
[0010]确定所述一个初始样本中的离散特征与本轮聚类对应的聚类中心点之间的杰卡德距离;其中,所述本轮聚类对应的聚类中心点为在多个初始样本的多个离散特征中确定的一个离散特征;
[0011]将所述杰卡德距离作为所述一个初始样本的离散特征对应的处理后的连续特征。
[0012]在一些示例性的实施方式中,所述确定所述一个初始样本的离散特征与本轮聚类对应的聚类中心点的杰卡德距离,包括:
[0013]确定所述一个初始样本的离散特征与本轮聚类对应的聚类中心点的杰卡德相似度;
[0014]根据所述杰卡德相似度确定相应的杰卡德距离。
[0015]在一些示例性的实施方式中,在将所述一个初始样本中的连续特征与所述处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本之前,还包括:
[0016]对所述一个初始样本中的连续特征进行标准化处理,得到标准化处理后的多个连续特征;
[0017]将所述一个初始样本中的多个连续特征与所述处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本,包括:
[0018]将各个所述一个初始样本的杰卡德距离与所述标准化处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本。
[0019]在一些示例性的实施方式中,所述对所述一个初始样本中的连续特征进行标准化处理,包括:
[0020]针对所述一个初始样本中的一个连续特征,应用多个初始样本中的所述一个连续特征的最大值、最小值,以及所述一个初始样本的所述一个连续特征的值,对所述一个初始样本的所述一个连续特征进行标准化处理。
[0021]第二方面,本申请一实施例提供了一种数据的聚类装置,包括:样本获取单元,被配置为执行获取初始样本集合;其中,所述初始样本集合中包括多个初始样本,每个初始样本为用户特征数据,一个初始样本包括多个连续特征和多个离散特征;
[0022]聚类单元,被配置为执行应用每轮聚类确定的聚类中心点对各个目标样本进行聚类;其中,每一轮的聚类过程中,所述聚类单元具体被配置为执行针对多个初始样本中的一个初始样本,对所述一个初始样本中的离散特征进行连续化处理,得到处理后的连续特征;将所述一个初始样本中的连续特征与所述处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本;
[0023]聚类结果确定单元,被配置为执行在确定相邻两轮聚类过程中应用的聚类中心点之间的距离小于预设距离阈值,或聚类次数达到预设次数阈值时,停止聚类;并将最后一轮聚类的聚类结果作为所述用户特征数据的目标聚类结果。
[0024]在一些示例性的实施方式中,所述聚类单元具体被配置为执行:
[0025]确定所述一个初始样本中的离散特征与本轮聚类对应的聚类中心点之间的杰卡德距离;其中,所述本轮聚类对应的聚类中心点为在多个初始样本的多个离散特征中确定的一个离散特征;
[0026]将所述杰卡德距离作为所述一个初始样本的离散特征对应的处理后的连续特征。
[0027]在一些示例性的实施方式中,所述聚类单元具体被配置为执行:
[0028]确定所述一个初始样本的离散特征与本轮聚类对应的聚类中心点的杰卡德相似度;
[0029]根据所述杰卡德相似度确定相应的杰卡德距离。
[0030]在一些示例性的实施方式中,还包括标准化处理单元,在将所述一个初始样本中的连续特征与所述处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本之前,所述标准化处理单元被配置为执行:
[0031]对所述一个初始样本中的连续特征进行标准化处理,得到标准化处理后的多个连续特征;
[0032]所述聚类单元具体被配置为执行:
[0033]将各个所述一个初始样本的杰卡德距离与所述标准化处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本。
[0034]在一些示例性的实施方式中,所述标准化处理单元具体被配置为执行:
[0035]针对所述一个初始样本中的一个连续特征,应用多个初始样本中的所述一个连续特征的最大值、最小值,以及所述一个初始样本的所述一个连续特征的值,对所述一个初始样本的所述一个连续特征进行标准化处理。
[0036]连续化处理第三方面,本申请一实施例提供了一种电子设备,包括:
[0037]处理器;
[0038]用于存储所述处理器可执行指令的存储器;
[0039]其中,所述处理器被配置为执行所述指令,以实现上述数据的聚类方法中的任意一种方法。
[0040]第四方面,本申请一实施例提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述数据的聚类方法中的任意一种方法。
[0041]第五方面,本申请一实施例提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述数据的聚类方法中的任意一种方法。
[0042]本申请的实施例提供的技术方案至少带来以下有益效果:
[0043]由于初始样本中不仅包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据的聚类方法,其特征在于,包括:获取初始样本集合;其中,所述初始样本集合中包括多个初始样本,每个初始样本为用户特征数据,一个初始样本包括多个连续特征和多个离散特征;应用每轮聚类确定的聚类中心点对各个目标样本进行聚类;其中,每一轮的聚类过程中,针对多个初始样本中的一个初始样本,对所述一个初始样本中的离散特征进行连续化处理,得到处理后的连续特征;将所述一个初始样本中的连续特征与所述处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本;在确定相邻两轮聚类过程中应用的聚类中心点之间的距离小于预设距离阈值,或聚类次数达到预设次数阈值时,停止聚类;并将最后一轮聚类的聚类结果作为所述用户特征数据的目标聚类结果。2.根据权利要求1所述的方法,其特征在于,对所述一个初始样本中的离散特征进行连续化处理,得到处理后的连续特征,包括:确定所述一个初始样本中的离散特征与本轮聚类对应的聚类中心点之间的杰卡德距离;其中,所述本轮聚类对应的聚类中心点为在多个初始样本的多个离散特征中确定的一个离散特征;将所述杰卡德距离作为所述一个初始样本的离散特征对应的处理后的连续特征。3.根据权利要求2所述的方法,其特征在于,所述确定所述一个初始样本的离散特征与本轮聚类对应的聚类中心点的杰卡德距离,包括:确定所述一个初始样本的离散特征与本轮聚类对应的聚类中心点的杰卡德相似度;根据所述杰卡德相似度确定相应的杰卡德距离。4.根据权利要求2所述的方法,其特征在于,在将所述一个初始样本中的连续特征与所述处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本之前,还包括:对所述一个初始样本中的连续特征进行标准化处理,得到标准化处理后的多个连续特征;将所述一个初始样本中的多个连续特征与所述处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本,包括:将各个所述一个初始样本的杰卡德距离与所述标准化处理后的连续特征进行拼接,得到所述一个初始样本对应的目标样本。5.根据权利要求4所述的方法,其特征在于,所述对所述一个初始样本中的连续特征进行标准...

【专利技术属性】
技术研发人员:王硕郑祺星
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1