【技术实现步骤摘要】
一种社保业务数据转储与校验方法
[0001]本专利技术涉及一种数据转储与校验方法,尤其涉及一种社保业务数据转储与校验方法。
技术介绍
[0002]随着大数据技术的发展,数据转储与数据质量校验技术也在不断完善,但面向社保缴费业务数据目前尚无系统的数据转储与校验方法。
[0003]针对数据转储,目前最普遍的转储机制有三种:完全转储、差量转储、增量转储。完全转储是指对整个数据库中的数据全部重新备份;差量转储是对上次完全转储之后对所有文件中修改或删除的记录的转储;增量转储为复制上次转储后发生变化的整个文件。
[0004]针对数据质量校验,现阶段业内认可的校验类型有以下几种:
[0005]1)准确性校验:校验数据是否与其对应客观实体的特征一致;
[0006]2)完整性校验:校验数据是否存在缺失记录或缺失字段;
[0007]3)一致性校验:校验同一实体同一属性的值在不同的系统中是否一致;
[0008]4)有效性校验:校验数据是否满足用户定义的条件或在一定的取值范围内;
[0009]5)唯一性校验:校验数据是否存在重复记录;
[0010]6)及时性校验:校验数据的产生和供应是否及时;
[0011]7)稳定性校验:校验数据的波动是否稳定,是否在其有效范围内;
[0012]8)连续性校验:校验数据的编号是否连续;
[0013]9)合理性校验:校验两个字段之间逻辑关系是否合理。
[0014]基于目前常用的数据转储与数据质量校验技术,全量社保缴 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种社保业务数据转储与校验方法,包括数据转储和数据校验,其特征在于,所述数据转储将社保业务数据分为正常数据和特殊数据,对正常数据直接进行脚本转储,对特殊数据进行分类并正常化处理后,再进行脚本转储;所述数据校验采用宏观校验与微观校验相结合的方式,在宏观校验层面以业务所需维度进行数据的完整性和准确性校验,校验结果直接应用于全局概览与分析;在微观校验层面采用分类分层抽样,并对特殊数据与正常数据采取不同的抽样参数;在数据问题未知状态时基于抽样做小数据量的数据校验,判断确认存在的数据问题类型后,将数据反馈至数据转储步骤,基于问题数据正常化处理规则做批量处理。2.如权利要求1所述的社保业务数据转储与校验方法,其特征在于,所述数据转储包括如下步骤:S1.1连接源数据库,判断当前数据是否符合进入部中台要求;S1.2符合进入部中台要求的数据标注为待迁移标签,在转储流程中将目标数据库设置为部中台的数据库;S1.3根据不迁移人员条件将不迁移人员标记为不迁移标签;S1.4将存在于暂不处理数据表中的人员对应的数据标记为不迁移标签;S1.5判断待迁移数据的应缴字段取值是否为“正常应缴”,是则进入步骤S1.6,不是则作为特殊数据进入步骤S1.7;S1.6使用现有转储脚本转储正常数据,并在目标数据库中标记为正常数据标签;S1.7特殊数据处理步骤:S1.7.1根据分类标准将特殊数据分类,并做对应的正常化处理;S1.7.2正常化处理是否全部处理完成,处理完成的使用现有转储脚本转储特殊数据,并在目标数据库中标记为特殊数据标签,未能处理完成的数据进行人工判断是否加入暂不处理问题数据表,是则将该条数据对应人员编号添加至表中,否则人工调整后回到S1.7.1重新正常化处理。3.如权利要求1所述的社保业务数据转储与校验方法,其特征在于,所述数据校验包括如下步骤:S2.1在目标数据库中分别统计各表中正常数据和特殊数据的数量;S2.2设定或获取各类数据的误差概率;S2.3根据预设的正常数据/特殊数据抽样平均误差、数据总条数,计算抽样比例与样本数量;S2.4对源数据库和目标数据库分别进行数据宏观校验;S2.5对目标数据库进行微观抽样校验;S2.6判断问题数据临时表中是否存在数据,如不存在则清空临时表并结束流程,如存在数据则根据主键和映射关系变更源数据库中的标签,使仅有当前问题数据对应的源数据库中数据处于待迁移状态,流程返回到S1.4,对问题数据重新进行数据转储与数据校验。4.如权利要求3所述的社保业务数据转储与校验方法,其特征在于,所述步骤S2.3包括:2.3.1将一张表中的数据按照主键进行排序,并按序编号,编号区间[1,N];2.3.2对该表所有需校验字段进行编号C1,C2
……
Cm;
2.3.3根据该表的特殊/一般校验标签,获取S2.3中计算的抽样比例及样本数n;2.3.4按照获取的抽样比例,对每个待抽样字段进行等距分层抽样,抽样时保留主键字段作为后续数据关联条件;2.3.5将抽样数据备份后,打乱每个字段样本的排序并将全部字段的样本向量合并成n
×
m的样本矩阵;2.3.6对其余表进行同样抽样的操作。5.如权利要求4所述的社保业务数据转储与校验方法,其特征在于,对每张表的特殊数据与正常数据分别进行抽样比例计算,抽样的样本容量下限设置如下:对于一般正常数据抽样,取σ
技术研发人员:杜守国,王刚,孙雪萍,秦大军,夏斌,
申请(专利权)人:上海市大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。