【技术实现步骤摘要】
一种能快速实现数据清洗、正确性验证的方法及其系统
本专利技术属于数据处理
,具体涉及一种能快速实现数据清洗、正确性验证的方法及其系统。
技术介绍
数据分析、数据挖掘是当下对大数据进行有效利用的热门应用,而数据清洗是以上应用的基础。由于数据清洗针对的数据来源极为广泛,不同的信息系统产生的数据格式各式各样,现行的数据清洗方式存在以下不足:1)、一致性验证,难以有效的对各个信息系统抽取过来的数据做一致性验证,难以排除数据变形、数据遗漏、数据部分缺失带来的不良后果;2)、有效性验证,难以有效的验证数据是否按既定规则做了清洗,清洗后的数据是否符合需求;3)、正确性验证,难以有效的验证清洗后的数据是否正确;4)、出错排查,难以快速的进行错误定位,找到数据出错的环节及原因。针对以上数据清洗过程中存在的问题,有必要研究开发一种能对数据清洗全过程进行一致性、有效性、正确性验证并对错误数据进行快速定位的系统及方法。
技术实现思路
本专利技术的第一目的在于提供一种能快速实现数据清洗、正确性验证的方法;本专利技术的第二目的在于提供一种能快速实现数据清洗、正确性验证的系统。本专利技术的第一目的是这样实现的:一种能快速实现数据清洗、正确性验证的方法,包括步骤A、数据采集,B、数据存储,C、数据抽取,D、数据转换,E、数据汇总和F、定时调度,其特征在于:具体步骤为A、数据采集,通过数据采集模块联接各个信息系统和/或第三方系统,采集各个信息系统和/或第三方系统中的数据;B、数据存储,通过数据存储模块联接数据采集模块,将步骤A采集得的数据存储到数据存储模块中,并做一致性验证处理;C、数据 ...
【技术保护点】
1.一种能快速实现数据清洗、正确性验证的方法,包括步骤A、数据采集,B、数据存储,C、数据抽取,D、数据转换,E、数据汇总和F、定时调度,其特征在于:具体步骤为A、数据采集,通过数据采集模块(1)联接各个信息系统和/或第三方系统,采集各个信息系统和/或第三方系统中的数据;B、数据存储,通过数据存储模块(2)联接数据采集模块,将步骤A采集得的数据存储到数据存储模块(2)中,并做一致性验证处理;C、数据抽取,通过数据抽取模块(3)联接数据存储模块,将数据由数据存储模块(2)抽取到数据转换处理模块(4)并做数据过滤处理;D、数据转换,通过数据转换处理模块(4)联接数据抽取模块(3),将步骤C取得的数据按照既定规则进行清洗并做有效性验证处理;E、数据汇总,通过数据汇总模块(5)联接数据转换处理模块(4),将步骤D清洗得的数据按既定规则进行汇总并做正确性验证处理;F、定时调度,通过定时调度模块(6)联接数据采集模块(1)、数据存储模块(2)、数据抽取模块(3)和数据转换处理模块(4),所述定时调度模块(6)控制调度步骤A、B、C、D、E的工作时间,定时调度模块(6)根据预设置的时间进行调度,其调 ...
【技术特征摘要】
1.一种能快速实现数据清洗、正确性验证的方法,包括步骤A、数据采集,B、数据存储,C、数据抽取,D、数据转换,E、数据汇总和F、定时调度,其特征在于:具体步骤为A、数据采集,通过数据采集模块(1)联接各个信息系统和/或第三方系统,采集各个信息系统和/或第三方系统中的数据;B、数据存储,通过数据存储模块(2)联接数据采集模块,将步骤A采集得的数据存储到数据存储模块(2)中,并做一致性验证处理;C、数据抽取,通过数据抽取模块(3)联接数据存储模块,将数据由数据存储模块(2)抽取到数据转换处理模块(4)并做数据过滤处理;D、数据转换,通过数据转换处理模块(4)联接数据抽取模块(3),将步骤C取得的数据按照既定规则进行清洗并做有效性验证处理;E、数据汇总,通过数据汇总模块(5)联接数据转换处理模块(4),将步骤D清洗得的数据按既定规则进行汇总并做正确性验证处理;F、定时调度,通过定时调度模块(6)联接数据采集模块(1)、数据存储模块(2)、数据抽取模块(3)和数据转换处理模块(4),所述定时调度模块(6)控制调度步骤A、B、C、D、E的工作时间,定时调度模块(6)根据预设置的时间进行调度,其调度时间为每小时、每天、每周或每月执行一次,调度步骤A、B、C、D、E依次进行工作,前一步正确执行后,后一步才能开始执行,当步骤A、B、C、D、E中的任一步出错时,则该出错步骤项之后的后续步骤将不执行,此次调度中止,并将出错信息通过数据转换处理模块(4)记录到系统日志,待管理员处理。2.根据权利要求1所述的能快速实现数据清洗、正确性验证的方法及系统,其特征在于:所述步骤B中数据与各信息系统源数据的一致性验证方式有两种,一种是从数据存储模块(2)中人工随机抽样部分基础数据与源数据作对比,二者数据一致的表明验证通过,不一致表明验证未通过;另一种是经数据转换处理模块(4)处理后的高层级数据出错时,人工找到数据存储模块(2)中与之相对应的高层级数据再跟源数据作对比,二者数据一致的表明验证通过,不一致则表明验证未通过。3.根据权利要求1所述的能快速实现数据清洗、正确性验证的方法及系统,其特征在于:所述步骤D的数据清洗及有效性验证中,有效性验证方式有两种:一种是人工随机抽样数据转换处理模块(4)清洗后的数据计算所得结果,分析对比是否一致,一致为有效,不一致为无效;另一种是针对数据清洗代码进行调试验证,分析对比测试数据调试所得结果与预期结果是否一致,一致为有效,不一致为无效。4.根据权利要求1所述的能快速实现数据清洗、正确性验证的方法及系统,其特征在于:所述步骤E的数据汇总及正确性验证中,数据正确性验证方式有两种:一种是人工随机抽样部分数据汇总模块(5)中汇总后的数据计算所得结果是否一致,一致为正确,不一致为错误;另一种是针对数据汇总代码进行...
【专利技术属性】
技术研发人员:巫乔顺,王川林,姚志清,赵东艳,张兴邓,韦小宁,
申请(专利权)人:云南昆钢电子信息科技有限公司,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。