基于密度的数据预处理优化方法技术

技术编号：33834079 阅读：28 留言：0更新日期：2022-06-16 11:24

本发明专利技术是公开了一种基于密度的数据预处理优化方法，首先计算样本对象的欧氏距离与平均距离，然后进行粗聚类；利用密度权重找出聚类的中心点，将中心点为中心，平均距离为半径里的所有数据对象归为一类，得到聚类数目；最后，将预处理后得到的聚类中心点与聚类数目利用K

全部详细技术资料下载

【技术实现步骤摘要】
基于密度的数据预处理优化方法

[0001]本专利技术涉及聚类分析
，具体是一种基于密度的数据预处理优化方法。

技术介绍

[0002]聚类分析已经被广泛研究和使用了多年，它是数据挖掘中非常重要的一部分，通过挖掘海量数据中的有效信息，通过了解数据的分布情况，找出所需的关键信息。聚类将数据对象分组为若干类或簇，使得在同一簇中的对象之间具有较高的相似度，而不同簇中的对象之间相似度尽可能低。
[0003]根据聚类方法的不同，聚类方法可以分为基于划分的方法、基于层次的方法、基于密度的方法等。划分的方法中最经典的是K
‑
medoids算法，它是选取最靠近中心点的样本来代表整个簇，所以它在存在噪声和离群点时更加鲁棒，但是算法的时间复杂度很高。
[0004]在进行数据聚类之前，如果不对数据进行预处理，那么聚类分析出的结果将产生较大误差，划分和层次的方法的预处理步骤往往采用Canopy方法，Canopy算法需要设置两个距离阈值T1和T2，并且随机选取聚类中心点，计算样本对象与聚类中心之间的欧氏距离，根据阈...

【技术保护点】

【技术特征摘要】
1.一种基于密度的数据预处理聚类优化方法，包括以下步骤：(1)计算数据集中数据对象之间的欧氏距离，并计算数据集中所有数据元素的平均距离AverD，通过求出的AverD来计算每个数据对象的密度值ρ，密度值以落在数据对象为中心，AverD为半径的区域中的数据对象的数量来表示。(2)计算出所有的数据对象的密度，选取最大的密度数据对象b1作为第1个聚类中心，将聚类中心b1添加到中心点集合中，同时将所有满足剩余数据对象与第1个聚类中心之间的距离小于AverD的数据对象从数据集中删除。(3)计算余下数据的类簇距离与数据对象间的平均距离，数据对象间的平均距离由欧氏距离和密度共同决定，类簇距离表示为两个数据对象簇间的距离，将类簇距离、数据对象间的平均距离、密度三者结合得到一个密度的权重，第2个聚类中心b2由最大密度权重决定，并将b2添加到中心点集合中，同样将满足条件的数据从数据集中删除。(4)重复上述步骤(2)(3)，直至数据集为空，数据集被划分为几个类簇，计算得到的每个类簇中的数据对象到簇内其他数据对象距离之和最小的数据对象作为聚类中心，得到最优的聚类数目K和初始聚类中心。(5)基于得到的聚类数目K和初始聚类中心进行K
‑
medoid，将前面已经得到的K个数据样本作为质点，遍历簇中所有点，将剩余的数据对象根据质点最相近原则分到当前最佳的簇中，对于第i个类中除对应质点外的所有其他点，按顺序计算当其为新的质点是，准则函数的值，...

【专利技术属性】
技术研发人员：弋琨，万静，赫斌，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人