一种社保业务数据转储与校验方法技术

技术编号:39321542 阅读:13 留言:0更新日期:2023-11-12 16:01
本发明专利技术公开了一种社保业务数据转储与校验方法,包括数据转储和数据校验,所述数据转储将社保业务数分为采用正常数据和特殊数据,对正常数据直接进行脚本转储,对特殊数据进行分类并正常化处理后,再进行脚本转储;所述数据校验采用宏观校验与微观校验相结合的方式,在宏观校验层面以业务所需维度进行数据的完整性和准确性校验;在微观校验层面采用分类分层抽样,并对特殊数据与正常数据采取不同的抽样参数;在抽样校验获取问题类型后,反馈至数据转储步骤,批量定制处理规则。本发明专利技术既能实现全量数据转储,又能在保障抽样准确度的情况下进行数据校验;数据校验结束后将问题反馈至数据转储步骤以进行问题数据的处理与转储,实现流程闭环。现流程闭环。现流程闭环。

【技术实现步骤摘要】
一种社保业务数据转储与校验方法


[0001]本专利技术涉及一种数据转储与校验方法,尤其涉及一种社保业务数据转储与校验方法。

技术介绍

[0002]随着大数据技术的发展,数据转储与数据质量校验技术也在不断完善,但面向社保缴费业务数据目前尚无系统的数据转储与校验方法。
[0003]针对数据转储,目前最普遍的转储机制有三种:完全转储、差量转储、增量转储。完全转储是指对整个数据库中的数据全部重新备份;差量转储是对上次完全转储之后对所有文件中修改或删除的记录的转储;增量转储为复制上次转储后发生变化的整个文件。
[0004]针对数据质量校验,现阶段业内认可的校验类型有以下几种:
[0005]1)准确性校验:校验数据是否与其对应客观实体的特征一致;
[0006]2)完整性校验:校验数据是否存在缺失记录或缺失字段;
[0007]3)一致性校验:校验同一实体同一属性的值在不同的系统中是否一致;
[0008]4)有效性校验:校验数据是否满足用户定义的条件或在一定的取值范围内;
[0009]5)唯一性校验:校验数据是否存在重复记录;
[0010]6)及时性校验:校验数据的产生和供应是否及时;
[0011]7)稳定性校验:校验数据的波动是否稳定,是否在其有效范围内;
[0012]8)连续性校验:校验数据的编号是否连续;
[0013]9)合理性校验:校验两个字段之间逻辑关系是否合理。
[0014]基于目前常用的数据转储与数据质量校验技术,全量社保缴费业务数据需采用完全转储的转储机制实现数据转储,在微观数据校验时采用按照数据库表结构顺序逐行进行准确性校验的数据校验方法实现数据校验。
[0015]目前常用的数据转储技术存在功能单一的特性,无法实现社保缴费业务数据转储中对不同类型数据的复杂数据处理规则,也不支持对不同类型的数据做拆分处理。同时,机械式的完全转储,将保留大量无需转储的数据,造成目标数据库数据冗余,对后续业务操作性能产生影响。
[0016]如在微观数据校验时采用按照数据库表结构顺序按行进行准确性校验的方案,即比对源数据库数据与目标数据库数据是否相等,将存在以下两种问题:
[0017](1)资源消耗大,耗时长;
[0018](2)校验颗粒度过细,难以整合数据供全局概览。
[0019]一期转储数据的记录条数约为85亿,按行进行数据校验,数据需进行多表关联产生较大开销,同时发生以天为时间单位的资源占用行为,造成巨大的资源消耗和时间消耗。此外,在不同数据类型的数据表中采用同样的校验方法,在拥有海量数据但误差概率较低的数据表中将产生大量资源消耗,但这种资源消耗的价值率极低,造成了许多不必要的资源占用。
[0020]按照表结构顺序逐行校验,即将数据按照最小单元进行校验,如需按照不同维度展示校验结果,需对校验结果进行二次加工。而在社保业务数据转储校验的实际应用场景中,存在从宏观层面分析数据校验结果在不同维度下的分布情况及变化趋势的需求,按行校验的模式不符合实际应用场景。
[0021]此外,现有数据转储技术和数据校验技术均服务于开环处理流程,对一次流程中无法完全解决的数据问题不做处理或仅作补丁式修复处理,无法保证最终数据质量。
[0022]由上可见,现有社保业务数据转储与校验方法存在以下4类问题:
[0023](1)当前数据转储技术无法实现社保缴费业务数据转储中对不同类型数据的复杂数据处理规则,不能满足目标数据库的数据要求,同时会造成一定的数据冗余;
[0024](2)不区分类别,按照表结构顺序对85亿行数据做全量逐行校验,造成极大的资源消耗与时间消耗,且资源消耗行为的价值率较低;
[0025](3)逐行数据校验,无法展示转储数据各维度的整体情况,需进行二次加工做分维度的数据统计;
[0026](4)现有数据转储与数据校验技术方案未设计可能存在的问题数据的后续处理,最终数据质量存在一定问题隐患。

技术实现思路

[0027]本专利技术所要解决的技术问题是提供一种社保业务数据转储与校验方法,既能实现全量数据转储,又能在保障抽样准确度的情况下进行数据校验;数据校验结束后将问题反馈至数据转储步骤以进行问题数据的处理与转储,实现流程闭环。
[0028]本专利技术为解决上述技术问题而采用的技术方案是提供一种社保业务数据转储与校验方法,包括数据转储和数据校验,其中,所述数据转储将社保业务数分为采用正常数据和特殊数据,对正常数据直接进行脚本转储,对特殊数据进行分类并正常化处理后,再进行脚本转储;所述数据校验采用宏观校验与微观校验相结合的方式,在宏观校验层面以业务所需维度进行数据的完整性和准确性校验,校验结果直接应用于全局概览与分析;在微观校验层面采用分类分层抽样,并对特殊数据与正常数据采取不同的抽样参数;在数据问题未知状态时基于抽样做小数据量的数据校验,判断确认存在的数据问题类型后,将数据反馈至数据转储步骤,基于问题数据正常化处理规则做批量处理。
[0029]进一步地,所述数据转储包括如下步骤:S1.1连接源数据库,判断当前数据是否符合进入部中台要求;S1.2符合进入部中台要求的数据标注为待迁移标签,在转储流程中将目标数据库设置为部中台的数据库;S1.3根据不迁移人员条件将不迁移人员标记为不迁移标签;S1.4将存在于暂不处理数据表中的人员对应的数据标记为不迁移标签;S1.5判断待迁移数据的应缴字段取值是否为“正常应缴”,是则进入步骤S1.6,不是则作为特殊数据进入步骤S1.7;S1.6使用现有转储脚本转储正常数据,并在目标数据库中标记为正常数据标签;S1.7特殊数据处理步骤:S1.7.1根据分类标准将特殊数据分类,并做对应的正常化处理;S1.7.2正常化处理是否全部处理完成,处理完成的使用现有转储脚本转储特殊数据,并在目标数据库中标记为特殊数据标签,未能处理完成的数据进行人工判断是否加入暂不处理问题数据表,是则将该条数据对应人员编号添加至表中,否则人工调整后回到S1.7.1重新正常化处理。
[0030]进一步地,所述数据校验包括如下步骤:S2.1在目标数据库中分别统计各表中正常数据和特殊数据的数量;S2.2设定或获取各类数据的误差概率;S2.3根据预设的正常数据/特殊数据抽样平均误差、数据总条数,计算抽样比例与样本数量;S2.4对源数据库和目标数据库分别进行数据宏观校验;S2.5对目标数据库进行微观抽样校验;S2.6判断问题数据临时表中是否存在数据,如不存在则清空临时表并结束流程,如存在数据则根据主键和映射关系变更源数据库中的标签,使仅有当前问题数据对应的源数据库中数据处于待迁移状态,流程返回到S1.4,对问题数据重新进行数据转储与数据校验。
[0031]进一步地,所述步骤S2.3包括:2.3.1将一张表中的数据按照主键进行排序,并按序编号,编号区间[1,N];2.3.2对该表所有需校验字段进行编号C1,C2
……
Cm;2.3.3根据该表的特殊/一般校验标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社保业务数据转储与校验方法,包括数据转储和数据校验,其特征在于,所述数据转储将社保业务数据分为正常数据和特殊数据,对正常数据直接进行脚本转储,对特殊数据进行分类并正常化处理后,再进行脚本转储;所述数据校验采用宏观校验与微观校验相结合的方式,在宏观校验层面以业务所需维度进行数据的完整性和准确性校验,校验结果直接应用于全局概览与分析;在微观校验层面采用分类分层抽样,并对特殊数据与正常数据采取不同的抽样参数;在数据问题未知状态时基于抽样做小数据量的数据校验,判断确认存在的数据问题类型后,将数据反馈至数据转储步骤,基于问题数据正常化处理规则做批量处理。2.如权利要求1所述的社保业务数据转储与校验方法,其特征在于,所述数据转储包括如下步骤:S1.1连接源数据库,判断当前数据是否符合进入部中台要求;S1.2符合进入部中台要求的数据标注为待迁移标签,在转储流程中将目标数据库设置为部中台的数据库;S1.3根据不迁移人员条件将不迁移人员标记为不迁移标签;S1.4将存在于暂不处理数据表中的人员对应的数据标记为不迁移标签;S1.5判断待迁移数据的应缴字段取值是否为“正常应缴”,是则进入步骤S1.6,不是则作为特殊数据进入步骤S1.7;S1.6使用现有转储脚本转储正常数据,并在目标数据库中标记为正常数据标签;S1.7特殊数据处理步骤:S1.7.1根据分类标准将特殊数据分类,并做对应的正常化处理;S1.7.2正常化处理是否全部处理完成,处理完成的使用现有转储脚本转储特殊数据,并在目标数据库中标记为特殊数据标签,未能处理完成的数据进行人工判断是否加入暂不处理问题数据表,是则将该条数据对应人员编号添加至表中,否则人工调整后回到S1.7.1重新正常化处理。3.如权利要求1所述的社保业务数据转储与校验方法,其特征在于,所述数据校验包括如下步骤:S2.1在目标数据库中分别统计各表中正常数据和特殊数据的数量;S2.2设定或获取各类数据的误差概率;S2.3根据预设的正常数据/特殊数据抽样平均误差、数据总条数,计算抽样比例与样本数量;S2.4对源数据库和目标数据库分别进行数据宏观校验;S2.5对目标数据库进行微观抽样校验;S2.6判断问题数据临时表中是否存在数据,如不存在则清空临时表并结束流程,如存在数据则根据主键和映射关系变更源数据库中的标签,使仅有当前问题数据对应的源数据库中数据处于待迁移状态,流程返回到S1.4,对问题数据重新进行数据转储与数据校验。4.如权利要求3所述的社保业务数据转储与校验方法,其特征在于,所述步骤S2.3包括:2.3.1将一张表中的数据按照主键进行排序,并按序编号,编号区间[1,N];2.3.2对该表所有需校验字段进行编号C1,C2
……
Cm;
2.3.3根据该表的特殊/一般校验标签,获取S2.3中计算的抽样比例及样本数n;2.3.4按照获取的抽样比例,对每个待抽样字段进行等距分层抽样,抽样时保留主键字段作为后续数据关联条件;2.3.5将抽样数据备份后,打乱每个字段样本的排序并将全部字段的样本向量合并成n
×
m的样本矩阵;2.3.6对其余表进行同样抽样的操作。5.如权利要求4所述的社保业务数据转储与校验方法,其特征在于,对每张表的特殊数据与正常数据分别进行抽样比例计算,抽样的样本容量下限设置如下:对于一般正常数据抽样,取σ

【专利技术属性】
技术研发人员:杜守国王刚孙雪萍秦大军夏斌
申请(专利权)人:上海市大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1