一种基于密度聚类的数据清洗方法及装置制造方法及图纸

技术编号：22167033 阅读：14 留言：0更新日期：2019-09-21 10:38

本发明专利技术提供一种基于密度聚类的数据清洗方法及装置，能够提高清洗结果的准确率。所述方法包括：获取待清洗的数据集，其中，所述数据集中样本的属性值包括：数值型数据和字符型数据；对数值型数据和字符型数据分别采用标准化的欧式距离和基于编辑距离的字符串相似度算法，确定数据集中样本间的距离；根据确定的数据集中样本间的距离，对DBSCAN算法的eps和minPts进行估计；将估计的eps和minPts值作为DBSCAN参数值，对待清洗的数据集进行密度聚类；根据聚类结果，对待清洗的数据集中的数据进行清洗。本发明专利技术涉及数据挖掘领域。

A Data Cleaning Method and Device Based on Density Clustering

全部详细技术资料下载

【技术实现步骤摘要】
一种基于密度聚类的数据清洗方法及装置
本专利技术涉及数据挖掘领域，特别是指一种基于密度聚类的数据清洗方法及装置。
技术介绍
目前已经进入了信息爆炸的时代，数据已经成为推动行业发展的重要动力。数据中隐藏的巨大的财富，企业可以从中获取大量有用信息，从商务管理，市场分析，科学探索等各个方面为企业的发展决策提供支持，促进自身企业的发展。然而现实中的数据往往是错综复杂的，不同结构的数据，以及数据中存在不同类型的脏数据，如错误数据，无效数据和缺失重复数据等，都极大地加大了数据分析的难度。机器学习方法已经广泛应用到数据清洗领域，机器学习方法的核心目的是对数据集进行聚类。聚类分析又称群分析，是一种研究样本分类的统计学方法。聚类的目的是使同一类对象之间的相似度尽可能大，不同类对象之间的相似度尽可能小。具有噪声的基于密度的聚类(Density-BasedSpatialClusteringofApplicationswithNoise，DBSCAN)算法是一种经典的聚类算法，DBSCAN最终的聚类结果非常依赖eps和minPts参数值的选择，如果eps和minPts参数值选取不当，将导致聚类结果较差，甚至出现错误聚类，其中，eps表示扫描半径，minPts表示最小包含点数，现有技术中，一般是由人工根据经验设置DBSCAN算法的参数eps和minPts，导致聚类结果准确性低。
技术实现思路
本专利技术要解决的技术问题是提供一种基于密度聚类的数据清洗方法及装置，以解决现有技术所存在的由人工根据经验设置DBSCAN算法的参数eps和minPts，导致聚类结果准确性低的问题。为解决上述技术...

【技术保护点】
1.一种基于密度聚类的数据清洗方法，其特征在于，包括：获取待清洗的数据集，其中，所述数据集中样本的属性值包括：数值型数据和字符型数据；对数值型数据和字符型数据分别采用标准化的欧式距离和基于编辑距离的字符串相似度算法，确定数据集中样本间的距离；根据确定的数据集中样本间的距离，对DBSCAN算法的eps和minPts进行估计，其中，eps表示扫描半径，minPts表示最小包含点数，DBSCAN表示具有噪声的基于密度的聚类；将估计的eps和minPts值作为DBSCAN参数值，对待清洗的数据集进行密度聚类；根据聚类结果，对待清洗的数据集中的数据进行清洗。

【技术特征摘要】
1.一种基于密度聚类的数据清洗方法，其特征在于，包括：获取待清洗的数据集，其中，所述数据集中样本的属性值包括：数值型数据和字符型数据；对数值型数据和字符型数据分别采用标准化的欧式距离和基于编辑距离的字符串相似度算法，确定数据集中样本间的距离；根据确定的数据集中样本间的距离，对DBSCAN算法的eps和minPts进行估计，其中，eps表示扫描半径，minPts表示最小包含点数，DBSCAN表示具有噪声的基于密度的聚类；将估计的eps和minPts值作为DBSCAN参数值，对待清洗的数据集进行密度聚类；根据聚类结果，对待清洗的数据集中的数据进行清洗。2.根据权利要求1所述的基于密度聚类的数据清洗方法，其特征在于，样本间的距离表示为：其中，dist(X,Y)表示样本X、Y间的距离，wk表示样本第k个属性值的权值，表示当样本第k个属性值为数值型时样本属性间的标准化欧式距离，sim(xsk,ysk)表示当样本第k个属性值为字符型时样本属性的基于编辑距离的字符串相似度，n表示样本中包含的属性个数，εk表示第k条属性的缺失状态，xnk和ynk分别表示X和Y的第k个属性为数值型的值，xsk,ysk分别表示X和Y的第k个属性为字符型的值，X和Y表示数据集两个样本，z(xnk)、z(ynk)分别表示标准化后的xnk、ynk。3.根据权利要求2所述的基于密度聚类的数据清洗方法，其特征在于，εk表示为：4.根据权利要求2所述的基于密度聚类的数据清洗方法，其特征在于，z(xnk)表示为：其中，u为数据集中所有样本第k个属性的均值，σ为数据集中所有样本标准差。5.根据权利要求1所述的基于密度聚类的数据清洗方法，其特征在于，基于编辑距离的字符串相似度表示为：其中，sim(S,T)表示基于编辑距离字符串S和T间的相似度，S和T表示数据集中2个样本的字符型属性值，m、d分别表示字符串S和T中字符的数目，ld表示字符串S变化到字符串T所需的最小编辑操作次数。6.根据权利要求1所述的基于密度聚类的数据清洗方法，其特征在于，所述根据确定的数据集中样本间的距离，对DBSCAN算法的eps和minPts进行估计包括：根据确定的数据集中样本间的距离，构建数据集样本距离矩阵；对样本距离矩阵的每一行数据进行升序排序，排序后的矩阵的第K列表示每个样本点距离...

【专利技术属性】
技术研发人员：许海涛，张晓鹏，周贤伟，林福宏，吕兴，安建伟，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人