一种能快速实现数据清洗、正确性验证的方法及其系统技术方案

技术编号:21658542 阅读:31 留言:0更新日期:2019-07-20 05:36
本发明专利技术公开了一种能快速实现数据清洗、正确性验证的方法及其系统,包括步骤A、数据采集,B、数据存储,C、数据抽取,D、数据转换,E、数据汇总和F、定时调度。本发明专利技术能有效解决数据在清洗过程中难以对数据的一致性、有效性、正确性进行验证,每一模块的功能单一,每一模块对本模块数据的一致性、有效性、准确性做验证,每一模块为它的上一模块提供经过一致性、有效性、准确性验证通过的数据,最终保证汇总模块数据的有效性跟正确性,而且即使发现数据有误,也为快速定位出错数据产生的原因,有效解决了数据一致性不好验证、转换规则是否有效不好验证、汇总数是否正确不好验证这三个难题。

A Method and System for Rapid Data Cleaning and Correctness Verification

【技术实现步骤摘要】
一种能快速实现数据清洗、正确性验证的方法及其系统
本专利技术属于数据处理
,具体涉及一种能快速实现数据清洗、正确性验证的方法及其系统。
技术介绍
数据分析、数据挖掘是当下对大数据进行有效利用的热门应用,而数据清洗是以上应用的基础。由于数据清洗针对的数据来源极为广泛,不同的信息系统产生的数据格式各式各样,现行的数据清洗方式存在以下不足:1)、一致性验证,难以有效的对各个信息系统抽取过来的数据做一致性验证,难以排除数据变形、数据遗漏、数据部分缺失带来的不良后果;2)、有效性验证,难以有效的验证数据是否按既定规则做了清洗,清洗后的数据是否符合需求;3)、正确性验证,难以有效的验证清洗后的数据是否正确;4)、出错排查,难以快速的进行错误定位,找到数据出错的环节及原因。针对以上数据清洗过程中存在的问题,有必要研究开发一种能对数据清洗全过程进行一致性、有效性、正确性验证并对错误数据进行快速定位的系统及方法。
技术实现思路
本专利技术的第一目的在于提供一种能快速实现数据清洗、正确性验证的方法;本专利技术的第二目的在于提供一种能快速实现数据清洗、正确性验证的系统。本专利技术的第一目的是这样实现的:一种能快速实现数据清洗、正确性验证的方法,包括步骤A、数据采集,B、数据存储,C、数据抽取,D、数据转换,E、数据汇总和F、定时调度,其特征在于:具体步骤为A、数据采集,通过数据采集模块联接各个信息系统和/或第三方系统,采集各个信息系统和/或第三方系统中的数据;B、数据存储,通过数据存储模块联接数据采集模块,将步骤A采集得的数据存储到数据存储模块中,并做一致性验证处理;C、数据抽取,通过数据抽取模块联接数据存储模块,将数据由数据存储模块抽取到数据转换处理模块并做数据过滤处理;D、数据转换,通过数据转换处理模块联接数据抽取模块,将步骤C取得的数据按照既定规则进行清洗并做有效性验证处理;E、数据汇总,通过数据汇总模块联接数据转换处理模块,将步骤D清洗得的数据按既定规则进行汇总并做正确性验证处理;F、定时调度,通过定时调度模块联接数据采集模块、数据存储模块、数据抽取模块和数据转换处理模块,所述定时调度模块控制调度步骤A、B、C、D、E的工作时间,定时调度模块根据预设置的时间进行调度,其调度时间为每小时、每天、每周或每月执行一次,调度步骤A、B、C、D、E依次进行工作,前一步正确执行后,后一步才能开始执行,当步骤A、B、C、D、E中的任一步出错时,则该出错步骤项之后的后续步骤将不执行,此次调度中止,并将出错信息通过数据转换处理模块记录到系统日志,待管理员处理。本专利技术的第二目的是这样实现的:一种适用于分模块实现数据清洗、正确性验证方法的系统,包括数据采集模块、数据存储模块、数据抽取模块、数据转换处理模块、数据汇总模块和定时调度模块,所述数据采集模块依次联接数据存储模块、数据抽取模块、数据转换处理模块、数据汇总模块,在所述数据采集模块上设置数据接收口,数据接收口通过网络、数据传输线联接各个数据源,获取数据,所述定时调度模块分别联接数据采集模块、数据存储模块、数据抽取模块、数据转换处理模块,统一控制调度数据采集模块、数据存储模块、数据抽取模块、数据转换处理模块的工作时间。与现有技术相比,本专利技术具有以下技术效果:本专利技术能有效解决数据在清洗过程中难以对数据的一致性、有效性、正确性进行验证,每一模块的功能单一,每一模块对本模块数据的一致性、有效性、准确性做验证,每一模块为它的上一模块提供经过一致性、有效性、准确性验证通过的数据,最终保证汇总模块数据的有效性跟正确性,而且即使发现数据有误,也为快速定位出错数据产生的原因,有效解决了数据一致性不好验证、转换规则是否有效不好验证、汇总数是否正确不好验证的难题。附图说明图1为本专利技术的结构示意图;图中标号:1~数据采集模块,2~数据存储模块,3~数据抽取模块,4~数据转换处理模块,5~数据汇总模块,6~定时调度模块,7~数据源,8~系统管理模块,9~括查询模块,10~统计模块。具体实施方式下面结合附图对本专利技术作进一步的说明,但不以任何方式对本专利技术加以限制,基于本专利技术教导所作的任何变换或替换,均属于本专利技术的保护范围。如附图1所示的能快速实现数据清洗、正确性验证的方法,包括步骤A、数据采集,B、数据存储,C、数据抽取,D、数据转换,E、数据汇总和F、定时调度,具体步骤为A、数据采集,通过数据采集模块1联接各个信息系统和/或第三方系统,采集各个信息系统和/或第三方系统中的数据;B、数据存储,通过数据存储模块2联接数据采集模块,将步骤A采集得的数据存储到数据存储模块2中,并做一致性验证处理;C、数据抽取,通过数据抽取模块3联接数据存储模块,将数据由数据存储模块2抽取到数据转换处理模块4并做数据过滤处理;D、数据转换,通过数据转换处理模块4联接数据抽取模块3,将步骤C取得的数据按照既定规则进行清洗并做有效性验证处理;E、数据汇总,通过数据汇总模块5联接数据转换处理模块4,将步骤D清洗得的数据按既定规则进行汇总并做正确性验证处理;F、定时调度,通过定时调度模块6联接数据采集模块1、数据存储模块2、数据抽取模块3和数据转换处理模块4,所述定时调度模块6控制调度步骤A、B、C、D、E的工作时间,定时调度模块6根据预设置的时间进行调度,其调度时间为每小时、每天、每周或每月执行一次,调度步骤A、B、C、D、E依次进行工作,前一步正确执行后,后一步才能开始执行,当步骤A、B、C、D、E中的任一步出错时,则该出错步骤项之后的后续步骤将不执行,此次调度中止,并将出错信息通过数据转换处理模块4记录到系统日志,待管理员处理。所述步骤B中数据与各信息系统源数据的一致性验证方式有两种,一种是从数据存储模块2中人工随机抽样部分基础数据与源数据作对比,二者数据一致的表明验证通过,不一致表明验证未通过;另一种是经数据转换处理模块4处理后的高层级数据出错时,人工找到数据存储模块2中与之相对应的高层级数据再跟源数据作对比,二者数据一致的表明验证通过,不一致则表明验证未通过。所述步骤D的数据清洗及有效性验证中,有效性验证方式有两种:一种是人工随机抽样数据转换处理模块4清洗后的数据计算所得结果,分析对比是否一致,一致为有效,不一致为无效;另一种是针对数据清洗代码进行调试验证,分析对比测试数据调试所得结果与预期结果是否一致,一致为有效,不一致为无效。所述步骤E的数据汇总及正确性验证中,数据正确性验证方式有两种:一种是人工随机抽样部分数据汇总模块5中汇总后的数据计算所得结果是否一致,一致为正确,不一致为错误;另一种是针对数据汇总代码进行调试验证,看测试数据调试所得结果与预期结果是否一致,一致为正确,不一致则为错误。所述的步骤F中的定时任务模块6控制数据抽取模块3定期将存储模块2的数据抽取到数据转换处理模块4,数据转换处理模块4则根据数据清洗规则完成数据的清洗;所述的步骤F中的定时任务模块6还控制数据汇总模块5汇集清洗后的正确数据信息,并记录和显示该相应的正确数据信息。一种适用于分模块实现数据清洗、正确性验证方法的系统,包括数据采集模块1、数据存储模块2、数据抽取模块3、数据转换处理模块4、数据汇总模块5和定时调度模块6,所述数据采集模块1依次联接数据存储模本文档来自技高网...

【技术保护点】
1.一种能快速实现数据清洗、正确性验证的方法,包括步骤A、数据采集,B、数据存储,C、数据抽取,D、数据转换,E、数据汇总和F、定时调度,其特征在于:具体步骤为A、数据采集,通过数据采集模块(1)联接各个信息系统和/或第三方系统,采集各个信息系统和/或第三方系统中的数据;B、数据存储,通过数据存储模块(2)联接数据采集模块,将步骤A采集得的数据存储到数据存储模块(2)中,并做一致性验证处理;C、数据抽取,通过数据抽取模块(3)联接数据存储模块,将数据由数据存储模块(2)抽取到数据转换处理模块(4)并做数据过滤处理;D、数据转换,通过数据转换处理模块(4)联接数据抽取模块(3),将步骤C取得的数据按照既定规则进行清洗并做有效性验证处理;E、数据汇总,通过数据汇总模块(5)联接数据转换处理模块(4),将步骤D清洗得的数据按既定规则进行汇总并做正确性验证处理;F、定时调度,通过定时调度模块(6)联接数据采集模块(1)、数据存储模块(2)、数据抽取模块(3)和数据转换处理模块(4),所述定时调度模块(6)控制调度步骤A、B、C、D、E的工作时间,定时调度模块(6)根据预设置的时间进行调度,其调度时间为每小时、每天、每周或每月执行一次,调度步骤A、B、C、D、E依次进行工作,前一步正确执行后,后一步才能开始执行,当步骤A、B、C、D、E中的任一步出错时,则该出错步骤项之后的后续步骤将不执行,此次调度中止,并将出错信息通过数据转换处理模块(4)记录到系统日志,待管理员处理。...

【技术特征摘要】
1.一种能快速实现数据清洗、正确性验证的方法,包括步骤A、数据采集,B、数据存储,C、数据抽取,D、数据转换,E、数据汇总和F、定时调度,其特征在于:具体步骤为A、数据采集,通过数据采集模块(1)联接各个信息系统和/或第三方系统,采集各个信息系统和/或第三方系统中的数据;B、数据存储,通过数据存储模块(2)联接数据采集模块,将步骤A采集得的数据存储到数据存储模块(2)中,并做一致性验证处理;C、数据抽取,通过数据抽取模块(3)联接数据存储模块,将数据由数据存储模块(2)抽取到数据转换处理模块(4)并做数据过滤处理;D、数据转换,通过数据转换处理模块(4)联接数据抽取模块(3),将步骤C取得的数据按照既定规则进行清洗并做有效性验证处理;E、数据汇总,通过数据汇总模块(5)联接数据转换处理模块(4),将步骤D清洗得的数据按既定规则进行汇总并做正确性验证处理;F、定时调度,通过定时调度模块(6)联接数据采集模块(1)、数据存储模块(2)、数据抽取模块(3)和数据转换处理模块(4),所述定时调度模块(6)控制调度步骤A、B、C、D、E的工作时间,定时调度模块(6)根据预设置的时间进行调度,其调度时间为每小时、每天、每周或每月执行一次,调度步骤A、B、C、D、E依次进行工作,前一步正确执行后,后一步才能开始执行,当步骤A、B、C、D、E中的任一步出错时,则该出错步骤项之后的后续步骤将不执行,此次调度中止,并将出错信息通过数据转换处理模块(4)记录到系统日志,待管理员处理。2.根据权利要求1所述的能快速实现数据清洗、正确性验证的方法及系统,其特征在于:所述步骤B中数据与各信息系统源数据的一致性验证方式有两种,一种是从数据存储模块(2)中人工随机抽样部分基础数据与源数据作对比,二者数据一致的表明验证通过,不一致表明验证未通过;另一种是经数据转换处理模块(4)处理后的高层级数据出错时,人工找到数据存储模块(2)中与之相对应的高层级数据再跟源数据作对比,二者数据一致的表明验证通过,不一致则表明验证未通过。3.根据权利要求1所述的能快速实现数据清洗、正确性验证的方法及系统,其特征在于:所述步骤D的数据清洗及有效性验证中,有效性验证方式有两种:一种是人工随机抽样数据转换处理模块(4)清洗后的数据计算所得结果,分析对比是否一致,一致为有效,不一致为无效;另一种是针对数据清洗代码进行调试验证,分析对比测试数据调试所得结果与预期结果是否一致,一致为有效,不一致为无效。4.根据权利要求1所述的能快速实现数据清洗、正确性验证的方法及系统,其特征在于:所述步骤E的数据汇总及正确性验证中,数据正确性验证方式有两种:一种是人工随机抽样部分数据汇总模块(5)中汇总后的数据计算所得结果是否一致,一致为正确,不一致为错误;另一种是针对数据汇总代码进行...

【专利技术属性】
技术研发人员:巫乔顺王川林姚志清赵东艳张兴邓韦小宁
申请(专利权)人:云南昆钢电子信息科技有限公司
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1