一种海量数据的清洗方法和系统技术方案

技术编号：14766387 阅读：118 留言：0更新日期：2017-03-08 10:50

本发明专利技术公开一种海量数据的清洗方法和系统，涉及数据处理技术领域，以提高数据清洗的速度和效率。所述海量数据的清洗方法包括：根据预设数据块个数N，将映射归约并行计算框架内映射函数的个数设置为N，将归约函数的个数设为1；利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块，对每个数据块中的数据进行清洗，得到多个清洗的数据块；利用归约函数整合多个清洗的数据块，得到整合数据；对整合数据进行清洗，完成海量数据的清洗。所述海量数据的清洗系统包括上述海量数据的清洗方法。本发明专利技术提供的海量数据的清洗方法用于海量数据清洗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理
，尤其涉及一种海量数据的清洗方法和系统。
技术介绍
随着计算机技术的飞速发展及企业业务量的增长，企业的用户数据越来越多，不可避免的，数据的错误率也相应增多，在对数据做统计分析之前，需要将这些错误数据清洗掉，以确保统计的准确性。现有数据清洗任务指的是过滤或修改不符合要求的数据，这些不符合要求的数据主要包括：不完整数据、错误数据和重复数据共三大类。其中，识别重复数据是数据清洗的核心，重复数据是指，同一实体在数据集合中用多条不完全相同的记录来表示，由于它们在格式、拼写上的差异，导致数据库管理系统不能正确识别。但是，现有的数据清洗方法在面对海量数据时表现出来的清洗性能较低、清洗速度较慢，直接使用现有的数据清洗方法，会制约海量数据清洗的速度和效率。
技术实现思路
本专利技术的目的在于提供一种海量数据的清洗方法和系统，用于提高数据清洗的速度和效率。为了实现上述目的，本专利技术提供如下技术方案：一种海量数据的清洗方法，包括：步骤S1：根据预设数据块个数N，将映射归约并行计算框架内映射函数的个数设置为N，将归约函数的个数设为1；步骤S2：利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块，对每个数据块中的数据进行清洗，得到多个清洗的数据块；步骤S3：利用归约函数整合多个清洗的数据块，得到整合数据；对整合数据进行清洗，完成海量数据的清洗。与现有技术相比，本专利技术提供的海量数据的清洗方法具有如下有益效果：本专利技术提供的海量数据的清洗方法，根据预设数据块个数N，将映射归约并行计算框架内映射函数的个数设置为N，将归约函数的个数设为1，然...
一种海量数据的清洗方法和系统

【技术保护点】
一种海量数据的清洗方法，其特征在于，包括：步骤S1：根据预设数据块个数N，将映射归约并行计算框架内映射函数的个数设置为N，将归约函数的个数设为1；步骤S2：利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块，对每个数据块中的数据进行清洗，得到多个清洗的数据块；步骤S3：利用归约函数整合多个清洗的数据块，得到整合数据；对整合数据进行清洗，完成海量数据的清洗。

【技术特征摘要】
1.一种海量数据的清洗方法，其特征在于，包括：步骤S1：根据预设数据块个数N，将映射归约并行计算框架内映射函数的个数设置为N，将归约函数的个数设为1；步骤S2：利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块，对每个数据块中的数据进行清洗，得到多个清洗的数据块；步骤S3：利用归约函数整合多个清洗的数据块，得到整合数据；对整合数据进行清洗，完成海量数据的清洗。2.根据权利要求1所述的海量数据的清洗方法，其特征在于，所述步骤S2中对每个数据块中的数据进行清洗，得到多个清洗的数据块的方法包括：步骤S21：识别数据块中数据的实体名称，获取数据块中数据的对象类型；步骤S22：根据数据块中数据的对象类型，对数据块中的数据进行清洗，得到清洗的数据块。3.根据权利要求2所述的海量数据的清洗方法，其特征在于，所述步骤S21中识别数据块中数据的实体名称的方法如下：通过对数据块中数据字段的解析，识别数据块中数据的实体名称。4.根据权利要求2所述的海量数据的清洗方法，其特征在于，所述步骤S22中对数据块中的数据进行清洗，得到清洗的数据块的方法包括：步骤S221：将数据块中的数据进行预处理，使数据块中的数据格式统一；步骤S222：计算实体名称相同的数据的内容相似度；步骤S223：判断相似度值是否大于预设阈值，当相似度值大于预设阈值时，标记实体名称相同的数据为重复数据，并给相应数据打上重复数据标签，得到清洗的数据块。5.根据权利要求4所述的海量数据的清洗方法，其特征在于，所述步骤S3中对整合数据进行清洗，完成海量数据的清洗的方法包括：步骤S31：合并多个清洗的数据块中具有重复数据标签的数据，得到合并数据；步骤S32：将合并数据打上清洗标记。6.根据权利要求2～5中任一项所述的海量数据的清洗方法，其特征在于，所述实体名称包括：时间、姓名、组织机构名、地名中的一种或多种。7.一种海量数据的清洗系统，其特征在于，包括：映射归约并行计算单元和清洗单元；所述映射归约并行计算单元包括分块单元和整合单元；所述清洗单元包括第一清洗单元和第二清洗单元；所述分块单元的输出端与第一清洗单元的输入端相连，所述第一清洗单元的输出端与整合单元的输入端相连，所述整合单元的输出端与第二清洗单元的输入端相连；所述分块单元用于根据预设数据...

【专利技术属性】
技术研发人员：张素香，庞九凤，高德荃，张东，曹津平，李莉敏，李国春，王乾坤，徐慧明，
申请(专利权)人：国家电网公司信息通信分公司，国家电网公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人