当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于KNN的改进k-means++算法制造技术

技术编号:33463323 阅读:78 留言:0更新日期:2022-05-19 00:43
本发明专利技术公开了一种基于KNN的改进k

【技术实现步骤摘要】
一种基于KNN的改进k

means++算法


[0001]本专利技术涉及数据挖掘
,具体为一种基于KNN的改进k

means++算法。

技术介绍

[0002]近些年来,随着通信技术的飞速发展,全球的数据产量正呈现出爆炸性的增长态势。由国家数据公司(IDC)的报告可以知道,在2010年时,全球的数据产量首次突破1ZB,此后,全球数据的产量以每年40%的速度增长,在短短十年后,2021的今天已经突破了40ZB。从如此大量的数据中获取有价值的信息的过程称为数据挖掘,数据挖掘已经是当今互联网最重要的技术之一。
[0003]在数据挖掘过程中,聚类分析最广泛且常用的技术,截止目前,研究人员们已经提出了许多种不同的聚类算法并将这些聚类算法与实际应用相结合,发挥了重要作用。这些聚类算法可以划分成六种不同的类别:基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法和基于图的聚类算法。而在众多的算法中,基于划分的K

means算法,凭借其实现简单,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于KNN的改进k

means++算法,包括K

means++算法,其特征在于,所述方法包括以下步骤:S1:输入包含n个数据对象的目标数据集D,数据集待聚类类簇数k;S2:根据公式计算目标数据集D内所有数据对象之间的欧氏距离,将欧氏距离信息存入距离分布矩阵D
n*n
中;S3:基于数据集中所包含数据对象的个数n,根据公式计算Eps邻域参数η;S4:基于数据集距离分布矩阵D
n*n
,每一行取出第η小的距离参数得到距离数组D
η
;S5:基于距离数组D
η
,根据公式对数组中的距离数据求平均,得到邻域参数Eps;S6:根据公式A和公式B,统计数据对象的密度信息,即数据集中与该数据对象欧式距离小于或者等于邻域参数Eps的数据对象个数;S7:定义一个空的集合T,将数据集D中的数据对象信息与对应数据对象的密度信息放入集合T;S8:定义一个空的集合V,用于存放类簇中心点;S9:从集合T中随机选取一个数据对象放入V,作为初始聚类中心点,然后从集合T中移除该点;S10:根据公式统计集合T中数据对象与集合V中类簇中心点欧氏距离的最小值;S11:从集合T中选取一个数据对象V加入类簇中心点集中,作为新的簇中心点,对于集合T中的数据对象,根据公式(确定被选定为类簇中心点的权重),数据对象被加入的概率为从集合T中移除被加入类簇中心点集V的数据对象;S12:重复迭代S10、S11,直到集合V中的数据对象个数为k为止;S13:将S12中得到的集合V中的数据对象作为K

means++聚类算法...

【专利技术属性】
技术研发人员:朱静陈宇瀚薛穗华潘梓沛韦国强陈泳轩叶志强林静旖尹邦政
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1