一种用于大数据的数据清洗方法技术

技术编号：21115693 阅读：33 留言：0更新日期：2019-05-16 08:58

本申请提供一种用于大数据的数据清洗方法，所述方法包括：搭建Spark集群，配置所需组件；建立数据清洗规则库，包括业务规则；根据所述清洗规则库，对需清洗数据进行预处理，得到预处理后的需清洗数据；根据所述业务规则和所述待处理数据，进行Job划分，得到所述Spark集群的多个清洗Job，每一个所述清洗Job映射到具体的业务需求；将数据清洗任务，对应分配到所述Spark集群的多个清洗Job中，每个清洗Job按照数据清洗规则库的要求，对所述预处理后的需清洗数据采用树形清洗结构进行清洗，得到最终清洗结果。利用本申请各个实施例，可以提高清洗效率和准确性，使数据清洗方法具有较强的通用性和适应性。

A Data Cleaning Method for Large Data

全部详细技术资料下载

【技术实现步骤摘要】
一种用于大数据的数据清洗方法
本申请涉及大数据
，特别涉及一种用于大数据的数据清洗方法。
技术介绍
随着计算机技术的日益发展和普及，当今社会已经从信息化时代进入大数据时代。每个人的一举一动都在产生大量的数据，这些数据被不同的信息系统收集着。企业需要根据收集到的数据分析用户的不同行为与喜好，为用户提供更好的服务，但当收集的数据达到TB、PB甚至EB级别时大多数信息系统都无法确保其收集的数据质量能满足用户的需求。影响数据质量的因素主要有：数据缺失、数据过时、数据错误、数据重复、数据冲突等。为了提高数据的质量，数据清洗技术至关重要。数据清洗为企业运营提供高质量的数据服务，也为数据挖掘提供可靠的数据基础。数据清洗是指通过对数据的检测和变换消除数据中的错误或冗余，从而获得符合要求的高质量数据。现有技术中，数据清洗采用的主要手段包括：(1)基于数据属性字段的约束对数据进行处理，但这种方法需要提前设计约束函数且若约束函数考虑不全面则有可能误删部分有用信息，造成数据缺失。为了提高该方法的有效性则需要人为干预，即在清洗过程中如约束函数无法处理时通过人的反馈操作进行清洗，由于增加了人为干预数据清洗的准确性会打打提高但是数据清洗所消耗的时间也会大大增加，且过于依赖人的主观判断。(2)在数据清洗过程中采用机器学习的方法，即事先训练出用于数据清洗的机器学习模型，在后续的数据清洗过程中，不断累积学习。这种方式去除了人为干预，提高了清洗的效率，但精确率有所下降，同时对于模型要求较高，当数据内容格式更加多元化时，其清洗质量也将受到较大影响。现有技术至少存在如下技术问题：清洗效率较低...

【技术保护点】
1.一种用于大数据的数据清洗方法，其特征在于，所述方法包括：搭建Spark集群，配置所需组件；建立数据清洗规则库，所述数据清洗规则库至少包括业务规则；根据所述清洗规则库，对需清洗数据进行预处理，得到预处理后的需清洗数据；根据所述业务规则和所述待处理数据，进行Job划分，得到所述Spark集群的多个清洗Job，每一个所述清洗Job映射到具体的业务需求；将所述预处理后的需清洗数据的数据清洗任务，对应分配到所述Spark集群的多个清洗Job中，每个清洗Job按照所述数据清洗规则库的要求，对所述预处理后的需清洗数据采用树形清洗结构进行清洗，得到最终清洗结果。

【技术特征摘要】
1.一种用于大数据的数据清洗方法，其特征在于，所述方法包括：搭建Spark集群，配置所需组件；建立数据清洗规则库，所述数据清洗规则库至少包括业务规则；根据所述清洗规则库，对需清洗数据进行预处理，得到预处理后的需清洗数据；根据所述业务规则和所述待处理数据，进行Job划分，得到所述Spark集群的多个清洗Job，每一个所述清洗Job映射到具体的业务需求；将所述预处理后的需清洗数据的数据清洗任务，对应分配到所述Spark集群的多个清洗Job中，每个清洗Job按照所述数据清洗规则库的要求，对所述预处理后的需清洗数据采用树形清洗结构进行清洗，得到最终清洗结果。2.如权利要求1所述的一种用于大数据的数据清洗方法，其特征在于，所述对所述预处理后的需清洗数据采用树形清洗结构进行清洗，得到最终清洗结果的方式，包括：每个所述清洗Job按照所述数据清洗规则库，初步完成对应的数据清洗任务；所述多个清洗Job的数据清洗任务初步完成后，生成对应于每个清洗Job的不同数据表；若所述多个清洗Job的数据清洗任务初步完成后，得到的弹性分布式数据集无需再次清洗，则将所述弹性分布式数据集根据业务需求存储在所述不同数据表中，得到最终清洗结果；若所述多个清洗Job的数据清洗任务初步完成后，得到的弹性分布式数据集需要再次清洗，则将所述弹性分布式数据集再次分配到对应的清洗Job进行再次清洗，直至得到的新的弹性分布式数据集无需再次处理，则将所述新的弹性分布式数据集根据业务需求存储在所述不同数据表中，得到最终清洗结果。3.如权利要求1所述的一种用于大数据的数据清洗方法，其特征在于，所述根据所述清洗规则库，对需清洗数据进行预...

【专利技术属性】
技术研发人员：李阳，左磊，尹熙，张良晖，蔡劼，桑晓龙，陆世龙，
申请(专利权)人：天聚地合苏州数据股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人