一种数据聚类方法技术

技术编号:23672743 阅读:44 留言:0更新日期:2020-04-04 18:08
本发明专利技术提供一种数据聚类方法,该方法包括步骤1:获取原始样本;步骤2:通过原始样本随机生成新样本;步骤3:将原始样本标记为第一样本,并将新样本标记为第二样本,混合得到混合样本;步骤4:对混合样本进行分类训练,并得到具有样本节点的分类模型;步骤5:统计分类模型的样本节点数量,并对分类模型内的样本节点进行特征标记;步骤6:提取样本节点的路径,并基于路径得到样本节点的逻辑结构;步骤7:运用节点筛选算法,筛选重要样本节点;步骤8:统计重要样本节点覆盖的样本,得到聚类的簇。该方法可生成具有局部相似性、可解释性的簇,该方法可更好的应用在现实的聚类问题当中。

A data clustering method

【技术实现步骤摘要】
一种数据聚类方法
本专利技术涉及数据处理领域,本专利技术特别涉及了一种数据挖掘方法。
技术介绍
伴随着大数据的蓬勃发展,数据的价值日益增大,挖掘数据背后的规律是商业竞争不可缺少的部分,数据挖掘已经成为当今各行各业不可缺少的技术。数据挖掘是指从大数据中,通过各类数据挖掘与机器学习的方法,挖掘分析得出数据背后的规律的方法。传统的聚类分析是基于计算数据的距离,从而得到不同的类别划分的聚类方法,是数据挖掘领域中的重要分支,属于无监督的机器学习方法。目前模式识别、机器学习、图像、语音及大数据及数据挖掘领域都广泛应用该技术。其中热门的聚类算法包括:kmeans、DBSCAN、EM算法、层次聚类等,此类算法均基于数据距离进行计算,而聚类的类别结果均存在主观规定的参数,具有严重的不确定性和随机性。以kmeans为例,聚类类别个数基于人为主观判断,初始的类别中心点也具有很强的随机性。上述传统的聚类方法在实际应用中存在两个缺陷:1、全局相似性,使用数据的距离来进行数据聚类,而在现实中,真实的数据聚类其实是只需要局部相似即可聚为一类。2、不可解释性,本文档来自技高网...

【技术保护点】
1.一种数据聚类方法,其特征在于,该方法包括以下步骤:/n步骤1:获取原始样本;/n步骤2:通过原始样本随机生成新样本;/n步骤3:将原始样本标记为第一样本,并将新样本标记为第二样本,混合得到混合样本;/n步骤4:对混合样本进行分类训练,并得到具有样本节点的分类模型;/n步骤5:统计分类模型的样本节点数量,并对分类模型内的样本节点进行特征标记;/n步骤6:提取样本节点的路径,并基于路径得到样本节点的逻辑结构;/n步骤7:运用节点筛选算法,筛选重要样本节点;/n步骤8:统计重要样本节点覆盖的样本,得到聚类的簇。/n

【技术特征摘要】
1.一种数据聚类方法,其特征在于,该方法包括以下步骤:
步骤1:获取原始样本;
步骤2:通过原始样本随机生成新样本;
步骤3:将原始样本标记为第一样本,并将新样本标记为第二样本,混合得到混合样本;
步骤4:对混合样本进行分类训练,并得到具有样本节点的分类模型;
步骤5:统计分类模型的样本节点数量,并对分类模型内的样本节点进行特征标记;
步骤6:提取样本节点的路径,并基于路径得到样本节点的逻辑结构;
步骤7:运用节点筛选算法,筛选重要样本节点;
步骤8:统计重要样本节点覆盖的样本,得到聚类的簇。


2.如权利要求1所述的一种数据聚类方法,其特征在于,步骤1中原始样本包括待聚类的样本以及待处理数据的指定聚类目标数。


3.如权利要求2所述的一种数据聚类方法,其特征在于,所述步骤4中分类训练的算法为...

【专利技术属性】
技术研发人员:柴磊许靖
申请(专利权)人:深圳市魔数智擎人工智能有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1