【技术实现步骤摘要】
一种基于可拓关联函数的改进密度峰值聚类方法
本专利技术涉及一种基于可拓关联函数的改进密度峰值聚类方法。
技术介绍
随着大数据技术以及可拓学的快速发展,如何融合可拓学分析和挖掘数据中隐藏的知识,成为一个企业是否具有竞争力的重要因素。聚类是数据分析的重要手段,在数据挖掘、图像处理等领域被广泛应用,密度峰值聚类是2014年提出的高效聚类算法,但其存在选取的簇心质量不佳、非簇心点分配不准确引起“多米诺骨牌效应”等问题,使得聚类效果不理想,准确率不高。因此需要提出一种基于可拓关联函数的密度峰值聚类方法,基于可拓关联函数充分考虑样本点间的相关性,对其隶属程度进行定量描述,从而实现精准聚类,具有更好的准确率。
技术实现思路
本专利技术为了克服现有密度峰值聚类方法中密度度量不准确及一步分配策略所引起的聚类准确率低的不足,提供一种基于可拓关联的改进密度峰值聚类方法,借助可拓关联函数对样本间相关性的准确描述,实现更好的聚类效果。本专利技术解决其技术问题所采用的技术方案是:S1:样本点密度和相对距离的获取:将样本数据归一化处理,利用经典距计算归一化后样本间间距集,根据公式(1)、(2)计算 ...
【技术保护点】
1.一种基于可拓关联函数的密度峰值聚类方法,包括以下步骤:S1:样本点密度和相对距离的获取:将样本数据归一化处理,利用经典距计算归一化后样本间间距集,根据公式(1)、(2)计算各数据点平均差异度作为密度指标ρ;根据公式(2)计算相对距离δ:设样本集O={O1,O2,…,On},其中Oi为m维向量(i=1,2,…,n),有如下定义:
【技术特征摘要】
1.一种基于可拓关联函数的密度峰值聚类方法,包括以下步骤:S1:样本点密度和相对距离的获取:将样本数据归一化处理,利用经典距计算归一化后样本间间距集,根据公式(1)、(2)计算各数据点平均差异度作为密度指标ρ;根据公式(2)计算相对距离δ:设样本集O={O1,O2,…,On},其中Oi为m维向量(i=1,2,…,n),有如下定义:其中dc为截断误差,dij是样本i和j之间的欧式距离;S2:绘制决策图,选取簇心:根据ρ和δ值,绘制样本点决策图,选出较大密度值且相对距离值也大的样本点作为聚类簇心ζ;S3:计算簇心的k距离及k距离邻域:由S2中所述的簇心ζ计算得到其k最近邻的最大距离称为簇心的k距离k_dist(ζ)并将获得的与簇心ζ距离小于k_dist(ζ)的样本点集合称为k距离邻域N(ζi);所述的k值过大会影响聚类正确率,过小会增加算法运行时间,一般取值为簇心个数的2~4倍;S4:建立雏形簇:将S3中所述的k距离邻域N(ζi)中的样本点分别分配到对应簇心所在的簇中,形成雏形簇,并将这些样本点标记已分配点;S5:综合关联函数的建立:根据样本数据及S4中所述的雏形簇,构造该样本集所对应的各属性关联函数;在步骤S5中,包括如下子步骤:S51:样本集物元构建及节域获取:对样本集根据公式(4)建立物元模型;根据公式(5)计算样本集节域:样本物元模型:样...
【专利技术属性】
技术研发人员:赵燕伟,朱芬,徐晨,桂方志,任设东,黄程侃,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。