一种基于数据仓库的数据清洗方法技术

技术编号：11603515 阅读：128 留言：0更新日期：2015-06-15 17:12

本发明专利技术公开了一种基于数据仓库的数据清洗方法，该数据清洗方法包括预处理、给属性分配权值、重复记录检测、数据库级的重复记录聚类以及冲突处理；预处理：选择用于记录匹配的属性，该属性能代表记录特征；给属性分配权值：根据属性在决定两条记录相似性中重要程度的不同，为每个属性分配不同的权重；数据库级的重复记录聚类：在数据库应用检测重复记录的算法中减少比较记录的范围，对整个数据集中的重复记录进行聚类；冲突处理：合并或者删除检测出的同一重复记录聚类的重复记录，保留其中正确的记录。本发明专利技术能检测大批量的数据源的错误并改正，有效降低清洗过程的复杂程度，提高清洗效率，保证了数据集的质量，提高数据仓库的运行效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机数据处理
，具体地说是一种基于数据仓库的数据清洗方法。
技术介绍
信息技术的飞速发展，使组织领导者对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境——数据仓库。但是从异构的数据源导入数据仓库的数据中会存在各种各样的问题，所以必须对其进行数据清洗来提高其质量。数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合，数据仓库是对多个异构数据源的集合，集成后按照主题进行了重组。在数据库中从多数据源中抽取数据时，由于各数据源数据表结构的设计可能不相同，完成从多数据源到数据仓库的数据迁移时，同样会产生一些冗余或者错误信息。若不进行清洗，这些脏数据会对数据仓库系统造成不良影响，扭曲从数据中或得的信息，影响数据仓库的运行效果。由于存在多种不同的脏数据，而检测这些脏数据往往需要借助特定的领域知识。缺损数据，相似重复记录都是最为常见的脏数据，对他们进行清洗有一定的困难。数据集的数据质量，是由很多因素造成的，包括数据集的正确性、完整性、一致性和可用性等诸多因素。根据数据清洗的实现方式与内容，可将数据清洗分为四类：1）用人工检测所有的错误并改正。这只能针对小批量的数据源。2）通过专门编写的程序，但通常数据清洗是一个反复进行的过程，导致清洗过程复杂。3）某类特定应用领域的问题。如根据概率统计学原理查找数值异常记录。4）与特定领域无关的数据清洗。主要指在特地行业中，业务表间关联的清洗，业务表与公用数据字典间的关联清洗，表中空值...

【技术保护点】
一种基于数据仓库的数据清洗方法，其特征在于，该数据清洗方法通过预处理、给属性分配权值、重复记录检测、数据库级的重复记录聚类以及冲突处理五个步骤实现；预处理：选择用于记录匹配的属性，该属性能代表记录特征；给属性分配权值：根据属性在决定两条记录相似性中重要程度的不同，为每个属性分配不同的权重；数据库级的重复记录聚类：在数据库应用检测重复记录的算法中减少比较记录的范围，对整个数据集中的重复记录进行聚类；冲突处理：合并或者删除检测出的同一重复记录聚类的重复记录，保留其中正确的记录。

【技术特征摘要】
1.一种基于数据仓库的数据清洗方法，其特征在于，该数据清洗方法通过预处理、给属性分配权值、重复记录检测、数据库级的重复记录聚类以及冲突处理五个步骤实现；
预处理：选择用于记录匹配的属性，该属性能代表记录特征；
给属性分配权值：根据属性在决定两条记录相似性中重要程度的不同，为每个属性分配不同的权重；
数据库级的重复记录聚类：在数据库应用检测重复记录的算法中减少比较记录的范围，对整个数据集中的重复记录进行聚类；
冲突处理：合并或者删除检测出的同一重复记录...

【专利技术属性】
技术研发人员：焦毓葳，孙海峰，王传超，
申请(专利权)人：浪潮集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人