一种海量数据的清洗方法和系统技术方案

技术编号:14766387 阅读:118 留言:0更新日期:2017-03-08 10:50
本发明专利技术公开一种海量数据的清洗方法和系统,涉及数据处理技术领域,以提高数据清洗的速度和效率。所述海量数据的清洗方法包括:根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1;利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,对每个数据块中的数据进行清洗,得到多个清洗的数据块;利用归约函数整合多个清洗的数据块,得到整合数据;对整合数据进行清洗,完成海量数据的清洗。所述海量数据的清洗系统包括上述海量数据的清洗方法。本发明专利技术提供的海量数据的清洗方法用于海量数据清洗。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种海量数据的清洗方法和系统
技术介绍
随着计算机技术的飞速发展及企业业务量的增长,企业的用户数据越来越多,不可避免的,数据的错误率也相应增多,在对数据做统计分析之前,需要将这些错误数据清洗掉,以确保统计的准确性。现有数据清洗任务指的是过滤或修改不符合要求的数据,这些不符合要求的数据主要包括:不完整数据、错误数据和重复数据共三大类。其中,识别重复数据是数据清洗的核心,重复数据是指,同一实体在数据集合中用多条不完全相同的记录来表示,由于它们在格式、拼写上的差异,导致数据库管理系统不能正确识别。但是,现有的数据清洗方法在面对海量数据时表现出来的清洗性能较低、清洗速度较慢,直接使用现有的数据清洗方法,会制约海量数据清洗的速度和效率。
技术实现思路
本专利技术的目的在于提供一种海量数据的清洗方法和系统,用于提高数据清洗的速度和效率。为了实现上述目的,本专利技术提供如下技术方案:一种海量数据的清洗方法,包括:步骤S1:根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1;步骤S2:利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,对每个数据块中的数据进行清洗,得到多个清洗的数据块;步骤S3:利用归约函数整合多个清洗的数据块,得到整合数据;对整合数据进行清洗,完成海量数据的清洗。与现有技术相比,本专利技术提供的海量数据的清洗方法具有如下有益效果:本专利技术提供的海量数据的清洗方法,根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1,然后利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,这样即可对每个数据块中的数据同时进行清洗,实现整个清洗过程的并行化,从而提高海量数据清洗的速度和效率,然后,利用归约函数将多个清洗后的数据块进行整合,得到整合数据,通过最终对整合数据的清洗,即可完成海量数据的清洗;因此,本专利技术提供的海量数据的清洗方法能够避免直接在清洗范围较大的海量信息数据库中对数据执行清洗操作,极大的提升了海量数据的清洗速度和效率;并且,因为本专利技术实施例利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,所以在向海量数据中增加新的数据时,对原来已经清洗过的数据就不用再次进行清洗,仅需令新增加的数据组成一个新的数据块对其进行清洗即可,也就是说,本专利技术实施例能够实现清洗过程的增量化,保证清洗过程在实际应用过程中的连续性,进一步提升了海量数据的清洗速度和效率。本专利技术提供一种海量数据的清洗系统,包括:映射归约并行计算单元和清洗单元;所述映射归约并行计算单元包括分块单元和整合单元;所述清洗单元包括第一清洗单元和第二清洗单元;所述分块单元的输出端与第一清洗单元的输入端相连,所述第一清洗单元的输出端与整合单元的输入端相连,所述整合单元的输出端与第二清洗单元的输入端相连;所述分块单元用于根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1,以及利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块;所述第一清洗单元用于对每个数据块中的数据进行清洗,得到多个清洗的数据块;所述整合单元用于利用归约函数整合多个清洗的数据块,得到整合数据;所述第二清洗单元用于对整合数据进行清洗,完成海量数据的清洗。与现有技术相比,本专利技术提供的海量数据的清洗系统的有益效果与上述技术方案提供的海量数据的清洗方法的有益效果相同,在此不做赘述。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例一提供的海量数据的清洗方法的流程图一;图2为本专利技术实施例一提供的海量数据的清洗方法的流程图二;图3为本专利技术实施例一提供的海量数据的清洗方法的流程图三;图4为本专利技术实施例一提供的海量数据的清洗方法的流程图四;图5为本专利技术实施例二提供的海量数据的清洗系统的结构示意图一;图6为本专利技术实施例二提供的海量数据的清洗系统的结构示意图二;图7为本专利技术实施例二提供的海量数据的清洗系统的结构示意图三;图8为本专利技术实施例二提供的海量数据的清洗系统的结构示意图四。附图标记:1-映射归约并行计算单元,2-清洗单元;11-分块单元,12-整合单元;21-第一清洗单元,22-第二清洗单元;211-实体名称识别单元,212-清洗执行单元;2121-预处理单元,2122-相似度计算单元;2123-判断单元,2124-第一标记单元;221-合并单元,222-第二标记单元。具体实施方式为了进一步说明本专利技术实施例提供的海量数据的清洗方法和系统,下面结合说明书附图进行详细描述。实施例一请参阅图1,本实施例提供一种海量数据的清洗方法,包括:步骤S1:根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1;步骤S2:利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,对每个数据块中的数据进行清洗,得到多个清洗的数据块;步骤S3:利用归约函数整合多个清洗的数据块,得到整合数据;对整合数据进行清洗,完成海量数据的清洗。通过上述海量数据的清洗方法可知,本实施例提供的海量数据的清洗方法,根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1,然后利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,这样即可对每个数据块中的数据同时进行清洗,实现整个清洗过程的并行化,从而提高海量数据清洗的速度和效率,然后,利用归约函数将多个清洗后的数据块进行整合,得到整合数据,通过最终对整合数据的清洗,即可完成海量数据的清洗;因此,本实施例提供的海量数据的清洗方法能够避免直接在清洗范围较大的海量信息数据库中对数据执行清洗操作,极大的提升了海量数据的清洗速度和效率;并且,因为本实施例利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,所以在向海量数据中增加新的数据时,对原来已经清洗过的数据就不用再次进行清洗,仅需令新增加的数据组成一个新的数据块对其进行清洗即可,也就是说,本专利技术实施例能够实现清洗过程的增量化,保证清洗过程在实际应用过程中的连续性,进一步提升了海量数据的清洗速度和效率。具体的,如图2所示,上述实施例的步骤S2中对每个数据块中的数据进行清洗,得到多个清洗的数据块的方法包括:步骤S21:识别数据块中数据的实体名称,获取数据块中数据的对象类型;步骤S22:根据数据块中数据的对象类型,对数据块中的数据进行清洗,得到清洗的数据块。需要说明的是,上述步骤S21中识别数据块中数据的实体名称是通过对数据块中数据字段的解析来实现的,进一步地,本实施例通过对数据块中数据字段的解析,获取数据块中数据的对象类型,然后根据数据的对象类型,自动触发与数据块中数据的对象类型相对应的数据清洗模型对数据块中的数据进行清洗,得到清洗的数据块,即本专利技术实施例通过建立一个包含结构化、半结构化和非结构化的统一海量数据清洗模型,这样在获取数据块中数据的不同对象类型后,即可根据数据的对象类型,自动触发包含结构化、半结构化和非结构化的统一海量数据清本文档来自技高网...
一种海量数据的清洗方法和系统

【技术保护点】
一种海量数据的清洗方法,其特征在于,包括:步骤S1:根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1;步骤S2:利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,对每个数据块中的数据进行清洗,得到多个清洗的数据块;步骤S3:利用归约函数整合多个清洗的数据块,得到整合数据;对整合数据进行清洗,完成海量数据的清洗。

【技术特征摘要】
1.一种海量数据的清洗方法,其特征在于,包括:步骤S1:根据预设数据块个数N,将映射归约并行计算框架内映射函数的个数设置为N,将归约函数的个数设为1;步骤S2:利用映射归约并行计算框架内N个映射函数将海量数据分成N个数据块,对每个数据块中的数据进行清洗,得到多个清洗的数据块;步骤S3:利用归约函数整合多个清洗的数据块,得到整合数据;对整合数据进行清洗,完成海量数据的清洗。2.根据权利要求1所述的海量数据的清洗方法,其特征在于,所述步骤S2中对每个数据块中的数据进行清洗,得到多个清洗的数据块的方法包括:步骤S21:识别数据块中数据的实体名称,获取数据块中数据的对象类型;步骤S22:根据数据块中数据的对象类型,对数据块中的数据进行清洗,得到清洗的数据块。3.根据权利要求2所述的海量数据的清洗方法,其特征在于,所述步骤S21中识别数据块中数据的实体名称的方法如下:通过对数据块中数据字段的解析,识别数据块中数据的实体名称。4.根据权利要求2所述的海量数据的清洗方法,其特征在于,所述步骤S22中对数据块中的数据进行清洗,得到清洗的数据块的方法包括:步骤S221:将数据块中的数据进行预处理,使数据块中的数据格式统一;步骤S222:计算实体名称相同的数据的内容相似度;步骤S223:判断相似度值是否大于预设阈值,当相似度值大于预设阈值时,标记实体名称相同的数据为重复数据,并给相应数据打上重复数据标签,得到清洗的数据块。5.根据权利要求4所述的海量数据的清洗方法,其特征在于,所述步骤S3中对整合数据进行清洗,完成海量数据的清洗的方法包括:步骤S31:合并多个清洗的数据块中具有重复数据标签的数据,得到合并数据;步骤S32:将合并数据打上清洗标记。6.根据权利要求2~5中任一项所述的海量数据的清洗方法,其特征在于,所述实体名称包括:时间、姓名、组织机构名、地名中的一种或多种。7.一种海量数据的清洗系统,其特征在于,包括:映射归约并行计算单元和清洗单元;所述映射归约并行计算单元包括分块单元和整合单元;所述清洗单元包括第一清洗单元和第二清洗单元;所述分块单元的输出端与第一清洗单元的输入端相连,所述第一清洗单元的输出端与整合单元的输入端相连,所述整合单元的输出端与第二清洗单元的输入端相连;所述分块单元用于根据预设数据...

【专利技术属性】
技术研发人员:张素香庞九凤高德荃张东曹津平李莉敏李国春王乾坤徐慧明
申请(专利权)人:国家电网公司信息通信分公司国家电网公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1