【技术实现步骤摘要】
一种基于差分特征的数据聚类方法
[0001]本申请涉及数据挖掘
,特别地涉及一种基于差分特征的数据聚类方法。
技术介绍
[0002]随着大数据技术和计算机技术的发展,大量的数据被计算机处理,在数据处理过程中通过聚类分析从大量的数据中发现潜在的内容,目前聚类分析已被广泛应用于图像处理、机器学习等领域。
[0003]K均值聚类算法是常用的聚类算法之一,有着简单、快速的优点,在具体的聚类过程中,需要预先设定K个聚类中心,基于各个样本点与K个聚类中心之间的距离对样本数据进行迭代聚类,得到聚类结果。其中,K个聚类中心的设置会对最终的聚类结果产生影响,导致聚类效果不影响。
技术实现思路
[0004]针对上述问题,本申请提供一种基于差分特征的数据聚类方法,在聚类的初期基于差分分析方法对聚类得到的部分信息进行分析处理,基于得到的分析结果对聚类过程进行调整,以增强聚类效果。
[0005]本申请的技术方案为:一种基于差分特征的数据聚类方法,包括:获取待处理数据,对所述待处理数据进行归一化处理,得到样本数据; ...
【技术保护点】
【技术特征摘要】
1.一种基于差分特征的数据聚类方法,其特征在于,包括:获取待处理数据,对所述待处理数据进行归一化处理,得到样本数据;预设K个第一聚类中心点,遍历所述样本数据中的所有样本点,基于K个第一聚类中心点将所述样本数据中的所有样本点进行聚类得到K个第一类簇,分别对K个第一类簇进行重新选取聚类中心,得到K个第二聚类中心点,基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征;遍历K个第一类簇中的所有样本点,基于K个第二聚类中心点将K个第一类簇中的所有样本点进行聚类得到K个第二类簇,分别对K个第二类簇进行重新选取聚类中心,得到K个第三聚类中心点,基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征;基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点;对于M个第一目标聚类中心点对应的M个第三聚类中心点,分别获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点,基于第二目标聚类中心点对样本数据进行聚类分析,得到聚类结果。2.如权利要求1所述的一种基于差分特征的数据聚类方法,其特征在于,所述基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征,包括:分别计算K个第二聚类中心点中每个第二聚类中心点与对应的第一聚类中心点的欧氏距离,得到所述一阶差分特征;所述基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征,包括:分别计算K个第三聚类中心点中每个第三聚类中心点与对应的第二聚类中心点的欧氏距离,得到所述二阶差分特征。3.如权利要求1所述的一种基于差分特征的数据聚类方法,其特征在于,所述基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,包括:基于所述一阶差分特征和所述二阶差分特征得到K个参考集合,每个参考集合包括分别来源于所述一阶差分特征和所述二阶差分特征的两个欧氏距离值,两个欧氏距离值关联同一个第二聚类中心点;分别计算K个参考集合中,来源于所述二阶差分特征的欧氏距离值与来源于所述一阶差分特征的欧氏距离值的比值,得到分别与K个第一聚类中心点中每个第一聚类中心点对应的参考值。4.如权利要求3所述的一种基于差分特征的数据聚类方法,...
【专利技术属性】
技术研发人员:陈丽,刘玉华,李荣,曹晓东,
申请(专利权)人:南京北极光生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。