基于校验的数据质量控制方法和装置制造方法及图纸

技术编号:17615186 阅读:26 留言:0更新日期:2018-04-04 06:31
本发明专利技术公开一种基于校验的数据质量控制方法和装置,所述方法包括:获取全量数据;读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。本发明专利技术提供的技术方案,能够很好的适用于时效性要求高、数据量大以及校验规则复杂的系统。

Data quality control method and device based on check

The invention discloses a method and a device for checking quality control based on the data, the method comprises: obtaining the full amount of data; calibration parameter table reads the full amount of data corresponding to the first generation check rule set by the combination of logic to the first check; check rule set check to the full amount of data obtained the first set of results; the first results of the corresponding check set within the error information data record is stored to the wrong base; in response to the filtering operation instructions, read the wrong data in database records and check the parameters in the table to check the type parameters, determine the corresponding to the deterministic calibration data records generated uncertainty error library; screening said the full amount of data to the deterministic error base, after the screening of the full amount of data as submitted data. The technical scheme provided by the invention can be well applied to systems with high timeliness requirements, large amount of data and complex verification rules.

【技术实现步骤摘要】
基于校验的数据质量控制方法和装置
本专利技术涉及软件
,尤其涉及一种基于校验的数据质量控制方法和装置。
技术介绍
传统的校验方式在处理复杂的校验规则时,通常采用的方案是人工校验或逐条校验。人工校验是指让熟悉系统校验规则的维护人员根据数据情况自行补录,也就是靠人力进行数据错误排查,对人力维护的人员要求较高。逐条校验则是指将每条校验规则逐条单独写入程序,要求开发人员将全部校验规则转换成代码语句写在程序中,从而实现校验规则相对复杂的数据质量控制。而人工校验对维护人员的要求很高,必须非常熟悉每条校验规则,且工作量极大,效率较低,也无法保证最终数据的准确性,常常出现需要返工的情况,排错难度高。另一方面,采用逐条校验的系统运行效率非常低,每次校验都是一次数据表读写操作,IO开销大,反应速度慢,无法实现校验结果的及时反馈,对于开发人员来说也更加困难,需要进行大量的重复劳动,误码率高,也影响最终数据的准确性。因此,现有的技术中,都存在效率低和数据校验的准确率低,从而无法有效对数据质量进行控制的问题,从而无法适用于时效性要求高、数据量大以及校验规则复杂的系统。
技术实现思路
有鉴于此,本专利技术提供了一种基于校验的数据质量控制方法和装置,能够有效解决现有技术中存在的效率低和数据校验的准确率低,从而无法有效对数据质量进行控制的问题,能够很好的适用于时效性要求高、数据量大以及校验规则复杂的系统。为实现上述目的,本专利技术提供如下技术方案:一种基于校验的数据质量控制方法,包括:获取全量数据,所述全量数据包括数据记录;读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;获取过滤操作指令;响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。进一步的,读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集,包括:读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集。进一步的,所述全量数据包括数据项标准列,所述以所述第一校验规则集对所述全量数据进行校验,得到第一结果集,包括:以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。进一步的,所述将所述第一结果集内的校验错误信息对应的数据记录存放至错误库,包括:将与所述校验错误信息分别相对应的数据项标准列和校验标志号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。进一步的,所述获取过滤操作指令之前,还包括:显示错误库中的数据记录。进一步的,所述显示错误库中的数据记录之后、所述获取过滤操作指令之前,还包括:获取用户补录的数据记录;所述补录的数据记录与所述错误库中的数据记录相对应;将所述补录的数据记录写入全量数据,对更新的数据记录做标记;通过所述校验参数表和已标记的数据记录组合校验逻辑,生成第二校验规则集;以所述第二校验规则集对已标记的数据记录进行校验,得到第二结果集;删除所述错误库中的数据,将所述第二结果集内的校验错误信息对应的数据记录存放至错误库。一种基于校验的数据质量控制装置,包括:第一获取模块,用于获取全量数据,所述全量数据包括数据记录;读取模块,用于读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;第一校验模块,用于以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;存放模块,用于将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;第二获取模块,用于获取过滤操作指令;第一生成模块,用于响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;过滤模块,用于以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。进一步的,所述读取模块具体用于:读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集。进一步的,所述全量数据包括数据项标准列,所述第一校验模块具体用于:以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。进一步的,所述存放模块具体用于:将与所述校验错误信息分别相对应的数据项标准列和校验标志号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。进一步的,还包括:显示模块,用于显示错误库中的数据记录。进一步的,还包括:第三获取模块,用于获取用户补录的数据记录;所述补录的数据记录与所述错误库中的数据记录相对应;标记模块,用于将所述补录的数据记录写入全量数据,对更新的数据记录做标记;第二生成模块,用于通过所述校验参数表和已标记的数据记录组合校验逻辑,生成第二校验规则集;第二校验模块,用于以所述第二校验规则集对已标记的数据记录进行校验,得到第二结果集;更新模块,用于删除所述错误库中的数据,将所述第二结果集内的校验错误信息对应的数据记录存放至错误库。经由上述的技术方案可知,与现有技术相比,本专利技术提供了一种基于校验的数据质量控制方法和装置。本专利技术提供的技术方案,首先获取全量数据,其中,所述全量数据包括数据记录,然后读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集,以所述第一校验规则集一次性对所有全量数据进行校验,得到第一结果集,仅一次IO操作,相对于现有技术中逐条校验的方式,能够大幅度降低IO开销,有效提高效率,同时,相对于人工校验的方式,也能够有效提高效率,然后将所述第一结果集内的校验错误信息对应的数据记录存放至错误库,获取过滤操作指令,响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库,最后以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据,能够过滤错误库中确定性错误的数据记录,此外,一方面,由于本专利技术提供的技术方案执行自动校验而并非主要依靠人工校验,能够避免主要依靠人工校验容易出错的问题,另一方面,本专利技术提供的技术方案相对于现有技术,不需要开发人员进行大量的重复劳动,能够降低误码率,从而能够提高数据校验的准确性,因此,本专利技术提供的技术方案能够有效提高数据校验的准确率,从而能够有效对数据质量进行控制。即本专利技术提供的技术方案,能够有效解决现有技术中存在的效率低和数据校验的准确率低,从而无法有效对数据质量进行控制的问题,能够很好的适用于时效性要求高、数据量大以及校验规则复杂的系统。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述本文档来自技高网...
基于校验的数据质量控制方法和装置

【技术保护点】
一种基于校验的数据质量控制方法,其特征在于,包括:获取全量数据,所述全量数据包括数据记录;读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;获取过滤操作指令;响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。

【技术特征摘要】
1.一种基于校验的数据质量控制方法,其特征在于,包括:获取全量数据,所述全量数据包括数据记录;读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集;以所述第一校验规则集对所述全量数据进行校验,得到第一结果集;将所述第一结果集内的校验错误信息对应的数据记录存放至错误库;获取过滤操作指令;响应所述过滤操作指令,读取所述错误库中的数据记录和所述校验参数表中的校验类型参数,确定对应于确定性校验的数据记录,生成确定性错误库;以所述确定性错误库筛选所述全量数据,将经过所述筛选的全量数据作为报送库的数据。2.根据权利要求1所述的方法,其特征在于,读取所述全量数据对应的校验参数表,通过组合校验逻辑生成第一校验规则集,包括:读取所述全量数据对应的位于校验参数表中的校验标识号、校验信息描述、校验目标表、校验目标字段、校验语句配置和校验开关,通过组合校验逻辑生成第一校验规则集。3.根据权利要求1所述的方法,其特征在于,所述全量数据包括数据项标准列,所述以所述第一校验规则集对所述全量数据进行校验,得到第一结果集,包括:以所述第一校验规则集对所述全量数据进行校验,得到包括数据项标准列、校验标识号和校验状态的第一结果集;所述校验状态包括校验正确信息和校验错误信息。4.根据权利要求3所述的方法,其特征在于,所述将所述第一结果集内的校验错误信息对应的数据记录存放至错误库,包括:将与所述校验错误信息分别相对应的数据项标准列和校验标志号,以及所述校验错误信息对应的数据项标准列定位到的数据记录存放至错误库。5.根据权利要求1~4任一项所述的方法,其特征在于,所述获取过滤操作指令之前,还包括:显示错误库中的数据记录。6.根据权利要求5所述的方法,其特征在于,所述显示错误库中的数据记录之后、所述获取过滤操作指令之前,还包括:获取用户补录的数据记录;所述补录的数据记录与所述错误库中的数据记录相对应;将所述补录的数据记录写入全量数据,对更新的数据记录做标记;通过所述校验参数表和已标记的数据记录组合校验逻辑,生成第二校验规则集;以所述第二校验规则集对已标记的数据记录进行校验,得到第二结果集;删除所述错误库中的数据,将所述第二结果集内的校验错误信息对应的数据记录存放至错...

【专利技术属性】
技术研发人员:杨洁吴永华
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1