【技术实现步骤摘要】
本专利技术涉及计算机数据处理
,具体地说是一种基于数据仓库的数据清洗方法。
技术介绍
信息技术的飞速发展,使组织领导者对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境——数据仓库。但是从异构的数据源导入数据仓库的数据中会存在各种各样的问题,所以必须对其进行数据清洗来提高其质量。数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,数据仓库是对多个异构数据源的集合,集成后按照主题进行了重组。在数据库中从多数据源中抽取数据时,由于各数据源数据表结构的设计可能不相同,完成从多数据源到数据仓库的数据迁移时,同样会产生一些冗余或者错误信息。若不进行清洗,这些脏数据会对数据仓库系统造成不良影响,扭曲从数据中或得的信息,影响数据仓库的运行效果。由于存在多种不同的脏数据,而检测这些脏数据往往需要借助特定的领域知识。缺损数据,相似重复记录都是最为常见的脏数据,对他们进行清洗有一定的困难。数据集的数据质量,是由很多因素造成的,包括 数据集的正确性、完整性、一致性和可用性等诸多因素。根据数据清洗的实现方式与内容,可将数据清洗分为四类:1)用人工检测所有的错误并改正。这只能针对小批量的数据源。2)通过专门编写的程序,但通常数据清洗是一个反复进行的过程,导致清洗过程复杂。3)某类特定应用领域的问题。如根据概率统计学原理查找数值异常记录。4)与特定领域无关的数据清洗。主要指在特地行业中,业务表间关联的清洗,业务表与公用数据字典间的关联清洗,表中空值 ...
【技术保护点】
一种基于数据仓库的数据清洗方法,其特征在于,该数据清洗方法通过预处理、给属性分配权值、重复记录检测、数据库级的重复记录聚类以及冲突处理五个步骤实现;预处理:选择用于记录匹配的属性,该属性能代表记录特征;给属性分配权值:根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;数据库级的重复记录聚类:在数据库应用检测重复记录的算法中减少比较记录的范围,对整个数据集中的重复记录进行聚类;冲突处理:合并或者删除检测出的同一重复记录聚类的重复记录,保留其中正确的记录。
【技术特征摘要】
1.一种基于数据仓库的数据清洗方法,其特征在于,该数据清洗方法通过预处理、给属性分配权值、重复记录检测、数据库级的重复记录聚类以及冲突处理五个步骤实现;
预处理:选择用于记录匹配的属性,该属性能代表记录特征;
给属性分配权值:根据属性在决定两条记录相似性中重要程度的不同,为每个属性分配不同的权重;
数据库级的重复记录聚类:在数据库应用检测重复记录的算法中减少比较记录的范围,对整个数据集中的重复记录进行聚类;
冲突处理:合并或者删除检测出的同一重复记录...
【专利技术属性】
技术研发人员:焦毓葳,孙海峰,王传超,
申请(专利权)人:浪潮集团有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。