一种基于分布式大数据计算平台的数据质检方法及系统技术方案

技术编号:32174534 阅读:130 留言:0更新日期:2022-02-08 15:34
本发明专利技术涉及一种基于分布式大数据计算平台的数据质检方法及系统,属于数据处理技术领域。本发明专利技术采用增量抽取方式获取当日新增或者重新上报的办件数据,并将获取的新增或者重新上报的办件数据与平台中存储的历史办件数据进行关联和合并,得到更新后的办件数据,对更新后的办件数据进行质检。整个过程不受上报时间和数据量的限制,能够多次上报和历史数据批量上报,当数据完全没有变更的情况会被过滤无需重新上报,减少上报压力,极大提高了质检的运行效率和计算能力,解决了目前向省级上报的办件数据合格率低、时效性差的问题。时效性差的问题。时效性差的问题。

【技术实现步骤摘要】
一种基于分布式大数据计算平台的数据质检方法及系统


[0001]本专利技术涉及一种基于分布式大数据计算平台的数据质检方法及系统,属于数据处理


技术介绍

[0002]各级政府及下属部门产生的政务办件数据都需要按照标准向上级单位报送,到省级会进行办件数据质检,计算合格率,合格的数据上报国家平台,不合格的反馈给市级,之前市级是没有自己的质检工具,市级产生的办件量每年在千万级以上,都是直接上报到省前置机,由省前置机进行质检。省前置机采用质检工具是基于关系型数据库进行的,速度较慢,上报的数据量大的话需要几天时间进行质检才能反馈结果给市里,计算性能明显不足。而在省级进行质检后,合格率比较低,返回不通过办件和考核结果,市里需要根据反馈的结果进行整改,整改之后需要重新上报不合格办件数据,有些政务办件数据要反复多次修改,严重影响了向省级上报数据的时效性。

技术实现思路

[0003]本专利技术的目的是提供一种基于分布式大数据计算平台的数据质检方法及系统,以解决目前向省级上报数据的合格率低、时效性差的问题。
[0004]本专利技术为解决上述技术问题而提供一种基于分布式大数据计算平台的数据质检方法,该方法包括以下步骤:
[0005]1)将需要上报的办件数据存储到分布式大数据计算平台中,采用增量抽取的方式获取当日新增或者重新上报的办件数据,并将获取的数据保存在平台最新分区中;
[0006]2)将获取的新增或者重新上报的办件数据与平台中存储的历史办件数据进行关联,并将新增或者重新上报的办件数据与关联的历史办件数据进行合并,得到更新后的办件数据;所述历史办件数据存储在平台的全量分区中,合并后数据存放在平台的最新全量表分区;
[0007]3)对最新全量表分区中的办件数据进行单表质检,反馈质检不通过的各单表信息;
[0008]4)若全量数据的各单表均通过质检,则对全量数据进行联表质检,联表质检时先对申报信息表进行联表质检。
[0009]本专利技术还提供了一种基于分布式大数据计算平台的数据质检系统,该系统包括处理器和存储器,所述处理器执行由所述存储器存储的计算机程序,以实现如上述本专利技术所述的基于分布式大数据计算平台的数据质检方法。
[0010]本专利技术采用增量抽取方式获取当日新增或者重新上报的办件数据,并将获取的新增或者重新上报的办件数据与平台中存储的历史办件数据进行关联和合并,得到更新后的办件数据,对更新后的办件数据进行质检。不受上报时间和数据量的限制,能够多次上报和历史数据批量上报,当数据完全没有变更的情况会被过滤无需重新上报,减少上报压力,极
大提高了质检的运行效率和计算能力,解决了目前向省级上报的办件数据合格率低、时效性差的问题。
[0011]进一步地,为了方便实现增量抽取,所述的分布式大数据计算平台模拟关系型数据库对办件数据进行存储。
[0012]进一步地,分布式大数据计算平台采用Maxcompute数据平台,该数据平台根据办件编号和版本号将关联的情况分为新增、变更和未变化;新增指的是对应的历史办件数据中没有记录,需要将其合并到历史办件数据中;变更指的是之前历史办件数据中有记录但是此次有更新,保留更新后数据;未变化指的是没有变更的办结记录。
[0013]进一步地,当一个办件存在多个版本时,选取每个办件最新版本并覆盖写入最新全量表分区,以保证质检全量表每个办件保留最新版本或者版本号未变情况下最后修改的办结记录。
[0014]进一步地,所述步骤1)中通过增加时间戳字段实现增量抽取。
[0015]进一步地,单表质检时,采用多个并行单表质检任务,每个任务根据每个质检要素和质检规则进行质检。
[0016]进一步地,联表质检时,通过申报信息表和省里的事项信息表以及事项材料表进行关联,以找出不需要材料表的办结事项。
[0017]进一步地,若联表质检通过后,该方法将当天质检通过的且历史未上报的办件数据存放到一个增量上报表中,将增量上报表中的办件数据上报给上级进行质检。
附图说明
[0018]图1是本专利技术中新增或者重新上报的办件数据与关联的历史办件数据合并过程示意图;
[0019]图2是基于分布式大数据计算平台的数据质检方法的原理示意图。
具体实施方式
[0020]下面结合附图对本专利技术的具体实施方式作进一步地说明。
[0021]方法实施例
[0022]市级政务办件数据按要求需要上报到省级的表最多有11张,不同办件所需上报的表不定,共有申报信息表、申报信息扩展表、申报材料表、受理信息表、办理环节表、办结信息表、特殊程序申请表、特殊程序结果信息表、补齐补正告知表、补交材料信息表、补齐补正结果信息表等数据表,其中前六张是大部分办件都有数据的表,后面五张仅限于特殊程序和补齐补正的办件才需要,占比很小,按照省级下发的办件质检校验规则,每张表有数量不等的质检要素项和质检规则,每条办件都需要通过各个表的质检校验,而且当办件状态不同时,还需要满足同时需要多张表有该办件数据的情况,通过两种质检的办件数据才能上报到省里。这里把单表的每一个质检规则项定义为单表质检,同时需要上报多张表的规则定义为联表质检,目前单表质检项总计140个,联表质检项20个。
[0023]本专利技术通过增量抽取获得全量的上报数据进行办件数据质检,合格的话会上报包含历史上报的其他表的数据,不受上报时间和数据量的限制,能够多次上报和历史数据批量上报,当数据完全没有变更的情况会被过滤无需重新上报,减少上报压力,增量归集新增
和变更数据并合并上报数据、全量质检、全量对比质检通过数据与历史上报数据增量上报都在分布式大数据计算平台上实现,其原理如图2所示,具体实现步骤如下。
[0024]1.采用增量抽取的方式获取当日新增或者重新上报的办件数据。
[0025]本专利技术采用分布式大数据计算平台存储上报的办件数据,对办件数据进行前置质检,质检成功后在向省级上报。本专利技术采用的分布式大数据计算平台采用Maxcopute平台,由于每天上报的数据量比较大,因此需要采用增量抽取的方式获得新增或者重新上报的办件数据。
[0026]本专利技术采用mysql数据库作为办件数据归集前置机,前置机库建有跟省前置机一样的,每张表都增加了字段`last_update_time`timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT'增量质检时间戳,质检程序专用',用于识别当日新增或者重新上报的办件数据,mysql前置机各表有主键索引约束,可以覆盖更新,覆盖之后新纪录的该字段也会自动更新,该字段上报方不需要上报数据,留空数据库即可自行赋值达到标识变更及新增数据的目的。
[0027]办件数据重新上报需求增加版本号,同一办件编号有多个版本号数据的时候取最大版本号的办件数据进行质检,通过mysql数据库增加时间戳字段解决了增量提取数据的难题,每天凌晨程序只需提取该时间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式大数据计算平台的数据质检方法,其特征在于,该方法包括以下步骤:1)将需要上报的办件数据存储到分布式大数据计算平台中,采用增量抽取的方式获取当日新增或者重新上报的办件数据,并将获取的数据保存在平台最新分区中;2)将获取的新增或者重新上报的办件数据与平台中存储的历史办件数据进行关联,并将新增或者重新上报的办件数据与关联的历史办件数据进行合并,得到更新后的办件数据;所述历史办件数据存储在平台的全量分区中,合并后数据存放在平台的最新全量表分区;3)对最新全量表分区中的办件数据进行单表质检,反馈质检不通过的各单表信息;4)若全量数据的各单表均通过质检,则对全量数据进行联表质检,联表质检时先对申报信息表进行联表质检。2.根据权利要求1所述的基于分布式大数据计算平台的数据质检方法,其特征在于,所述的分布式大数据计算平台模拟关系型数据库对办件数据进行存储。3.根据权利要求2所述的基于分布式大数据计算平台的数据质检方法,其特征在于,分布式大数据计算平台采用Maxcompute数据平台,该数据平台根据办件编号和版本号将关联的情况分为新增、变更和未变化;新增指的是对应的历史办件数据中没有记录,需要将其合并到历史办件数据中;变更指的是之前历史办件数据中有记录但是此次有更新,保留更新后数据;未变化指的是没有变更的办结记录。...

【专利技术属性】
技术研发人员:左小龙
申请(专利权)人:数字郑州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1