一种数据聚类方法、系统、存储介质及设备技术方案

技术编号:27451804 阅读:25 留言:0更新日期:2021-02-25 04:37
本发明专利技术提供一种数据聚类方法、系统、存储介质及设备,所述方法包括:基于BIRCH聚类算法构建数据库的CF Tree;基于K 2 means中心点算法计算CF Tree的每一叶子节点的语义中心,并且叶子节点仅保留语义中心,以构建Core 2 Tree;获取数据库的满足预设条件属性的对象和满足预设决策属性的对象,并根据满足预设条件属性的对象和满足预设决策属性的对象计算出确信因子和包容因子;根据确信因子和所述包容因子,对Core 2 Tree进行评价。本发明专利技术通过引入确信因子和包容因子,并根据数据库中预设条件属性的对象和满足预设决策属性的对象来计算出确信因子和包容因子,以最终利用确信因子和包容因子来对数据聚类得到的Core 2 Tree结构的规则进行评价,以保障聚类结果的输出质量。以保障聚类结果的输出质量。以保障聚类结果的输出质量。

【技术实现步骤摘要】
一种数据聚类方法、系统、存储介质及设备


[0001]本专利技术涉及数据分析
,特别涉及一种数据聚类方法、系统、存储介质及设备。

技术介绍

[0002]聚类分析是指对一个已给的数据对象集合,依照一定的规则将数据对象分成多类的过程,聚类使得同一聚类中的数据对象彼此尽可能相似,不同聚类中的数据对象彼此尽可能相异。在金融外汇领域当中,已经开始利用数据聚类方法对金融电汇数据进行聚类分析,并基于聚类结果进行数据侦测分析。
[0003]然而,目前使用的数据聚类方法缺乏评价标准,导致无法保障聚类结果的输出质量。

技术实现思路

[0004]基于此,本专利技术的目的是提供一种数据聚类方法、系统、存储介质及设备,以解决现有无法保障聚类结果的输出质量的技术问题。
[0005]根据本专利技术实施例的一种数据聚类方法,所述方法包括:
[0006]基于BIRCH聚类算法构建数据库的CF Tree;
[0007]基于K 2 means中心点算法计算所述CF Tree的每一叶子节点的语义中心,并且所述叶子节点仅保留所述语义中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据聚类方法,其特征在于,所述方法包括:基于BIRCH聚类算法构建数据库的CF Tree;基于K 2 means中心点算法计算所述CF Tree的每一叶子节点的语义中心,并且所述叶子节点仅保留所述语义中心,以构建Core 2 Tree;获取所述数据库的满足预设条件属性的对象和满足预设决策属性的对象,并根据所述满足预设条件属性的对象和所述满足预设决策属性的对象计算出确信因子和包容因子;根据所述确信因子和所述包容因子,对所述Core 2 Tree进行评价。2.根据权利要求1所述的数据聚类方法,其特征在于,基于BIRCH聚类算法构建数据库的CF Tree的步骤包括:计算出所述数据库中的对象之间的相异度;将相异度小于阈值的对象分到同一个类,以构建所述CF Tree,其中,每个类对应一个叶子节点。3.根据权利要求2所述的数据聚类方法,其特征在于,在计算出所述数据库中的对象之间的相异度的步骤之前,还包括:对所述数据库中的对象进行归一化处理。4.根据权利要求1所述的数据聚类方法,其特征在于,所述确信因子和所述包容因子的计算公式如下:k(Y)=|Xi∩Yj|/|Yj|其中,为所述确信因子,k(Y)为所述包容因子,Xi∈T(C),Yj∈T(D),T(C)为所述满足预设条件属性的对象集合,T(D)为所述满足预设决策属性的对象集合。5.根据权利要求1或4所述的数据聚类方法,其特征在于,根据所述确信因子和所述包容因子,对所述Core 2 Tree进行评价的步骤包括:判断所述确信因子和所述包容因子是否均大于等于预设值;若是,则判定所述Core 2 Tree的结构规则成立;其中,所述预设值为β,0<β≤0.5。6.根据权利要求1所述的数据聚类方法,其特征在于,在基于BIRC...

【专利技术属性】
技术研发人员:杨暘戚华春
申请(专利权)人:杭州安恒信息安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1