一种银行数据集的聚类方法、装置及设备制造方法及图纸

技术编号:32435474 阅读:37 留言:0更新日期:2022-02-24 19:08
本申请公开了一种银行数据集的聚类方法、装置及设备,可应用于大数据领域以及金融领域,能够对不同形状的银行数据集进行聚类,达到较好的聚类效果。该方法包括:首先获取包含n个样本点的目标银行数据集;然后运用K

【技术实现步骤摘要】
一种银行数据集的聚类方法、装置及设备


[0001]本申请涉及大数据
,尤其涉及一种银行数据集的聚类方法、装置及设备。

技术介绍

[0002]随着信息时代的到来,需要处理的信息量呈现几何级别的增长。尤其对于银行业来说,需要处理的银行数据越来越多。在数据处理中,聚类是先将样本划分为簇,再根据各簇的特征确定类别,所以在面对大量无标记样本时,聚类可以适应样本的各种分布变化,都能得到聚类结果,这也是聚类的优势之一,因此,在银行业发展中引入数据集的聚类分析是有益且必要的。比如,在银行资产配置、客户价值评估以及精准营销策略制定等方面,对于数据集的聚类分析均可发挥积极作用。
[0003]但是目前许多现有的聚类算法和聚类有效性指标都存在着非常多的局限性,如无法对多种形状的数据集进行聚类等,导致聚类过程不稳定,且聚类效果较差。

技术实现思路

[0004]本申请实施例的主要目的在于提供一种银行数据集的聚类方法、装置及设备,能够对不同形状的银行数据集进行聚类,且可以有效找到最佳类簇数和最优划分,同时降低时间消耗,达到较好的聚类效果。...

【技术保护点】

【技术特征摘要】
1.一种银行数据集的聚类方法,其特征在于,所述方法包括:获取待聚类的目标银行数据集;所述目标银行数据集包含n个样本点;所述n为大于0的正整数;运用K

means算法,将所述目标银行数据集划分成K1个类簇;所述K1为大于的正整数;运用层次聚类算法,通过调整新聚类有效性指标的取值,将所述K1个类簇进行逐步合并,直至缩减为2个类簇;所述新聚类有效性指标为将所述目标银行数据集被划分成K2个类簇的平均聚类综合度与将所述目标银行数据集被划分成K2+1个类簇的平均聚类综合度的差;所述K2为向上取整对应的正整数;当所述新聚类有效性指标达到最大值时,将对应的类簇数量作为最佳类簇数量,并根据所述最佳类簇数量,实现对所述目标银行数据集的聚类划分。2.根据权利要求1所述的方法,其特征在于,所述运用K

means算法,将所述目标银行数据集划分成K1个类簇,包括:从所述目标银行数据集选取K1个点,作为初始类簇中心点;计算所述目标银行数据集中每个样本点与所述初始类簇中心点的欧氏距离;将所述目标银行数据集中每个样本点分配到与之最近的类簇中心点所在的类簇中;计算每个类簇的平均值,并将其作为新的类簇中心点;计算所述新的类簇中心点与更新前的聚类中心点之间的欧氏距离;若所述欧氏距离为零,则得到所述目标银行数据集划分好的K1个类簇;若所述欧氏距离不为零,则重复执行计算所述目标银行数据集中每个样本点与所述初始类簇中心点的欧氏距离及后续步骤,直至得到所述目标银行数据集划分好的K1个类簇。3.根据权利要求1所述的方法,其特征在于,所述运用层次聚类算法,通过调整新聚类有效性指标的取值,将所述K1个类簇进行逐步合并,直至缩减为2个类簇,包括:重复计算所述K1个类簇中每两个类簇之间的最小距离,并将最小距离最近的两个类簇合并为一个新的类簇,直至合并后的类簇数量为2;其中,在每一次合并过程中,计算类簇数为K2时的所有类簇的聚类综合度的平均值,直至合并后的类簇数量为2。4.根据权利要求1所述的方法,其特征在于,在所述当所述新聚类有效性指标达到最大值时,将对应的类簇数量作为最佳类簇数量,并根据所述最佳类簇数量,实现对所述目标银行数据集的聚类划分之前,所述方法还包括:计算类簇数量从2到时各自对应的新聚类有效性指标。5.一种银行数据集的聚类装置,其特征在于,所述装置包括:获取单元,用于获取待聚类的目标银行数据集;所述目标银行数据集包含n个样本点;所述n为大于0的正整数;划分单元,用于运用K

means算法,将所述目标...

【专利技术属性】
技术研发人员:张远翔
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1