A genetic algorithm based neighborhood propagation clustering method belongs to the field of data mining. It is characterized by preprocessing the data first, and then clustering analysis of the data set using the nearest neighbor propagation clustering algorithm. Cluster analysis is to
【技术实现步骤摘要】
一种基于遗传算法的近邻传播聚类方法
本专利技术应用背景为数据挖掘技术,即从数据中挖掘知识。
技术实现思路
是指在数据的海洋中运用聚类算法对数据进行聚类,分析聚类结果,发现或获取有用信息,其旨在克服近邻传播聚类算法对偏向参数和阻尼因子的敏感问题,提高聚类算法的准确率,属于数据挖掘机
最重要的组成部分之一。
技术介绍
聚类分析(clusteranalysis)简称聚类(clustering),是把一个数据对象划分成子集的过程。每一个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似。目前,聚类分析已经在商务智能、图像模式识别、Web搜索和数字医疗等方面得到广泛应用。聚类是一种不需要提供类标号的无监督学习方式。目前数据聚类比较典型的算法有K-Means聚类、层次聚类、FCM聚类等。但是上述几种算法均存在不同程度上的缺点,如K-Means聚类算法对离群点、孤立点和初始聚类中心敏感,聚类数目需要人为设定且容易陷入局部最优解等缺点;层次聚算法的树形视图不会真正将数据拆分成不同的组,且计算量非常大,算法的运行速度慢等 ...
【技术保护点】
1.一种基于遗传算法的近邻传播聚类方法,其特征在于,包括数据预处理、遗传算法寻找最优偏向参数和阻尼因子以及AP算法完成数据聚类。数据的预处理包括缺失值填充和数据规范化;遗传算法寻找最优解是指偏向参数和阻尼因子的求解;数据聚类则是根据遗传算法获得的最优解完成数据的聚类分析。/n
【技术特征摘要】
1.一种基于遗传算法的近邻传播聚类方法,其特征在于,包括数据预处理、遗传算法寻找最优偏向参数和阻尼因子以及AP算法完成数据聚类。数据的预处理包括缺失值填充和数据规范化;遗传算法寻找最优解是指偏向参数和阻尼因子的求解;数据聚类则是根据遗传算法获得的最优解完成数据的聚类分析。
2.根据权利要求1所述,一种基于遗传算法的近邻传播聚类方法,其特征在于数据的预处理首先是对已下载的数据集进行预处理。若存在缺失值,则选用和给定元组所属的类的所有样本的属性均值进行填充;其次,采用零均值规范化对数据进行规范化...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。