一种数据质量稽核引擎及其稽核方法技术

技术编号:30021935 阅读:11 留言:0更新日期:2021-09-11 06:44
本发明专利技术涉及一种数据质量稽核引擎及其稽核方法,该方法包括获取待稽查数据集的元数据和数据质量标准规范的质量规则项,从质量规则项中提取对应的特征词,元数据包括数据集名称、数据属性名称和数据属性注释;将特征词与元数据中的数据属性名称或者数据属性注释进行匹配,建立质量规则项和元数据中每个属性的关联关系;基于待稽查数据集中的属性和关联关系得到稽核任务;基于稽核任务与质量规则项对应的稽核处理方法,获得待稽查数据集的稽核处理方法,以生成待稽查数据集的稽核脚本;运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。在本发明专利技术中,能够解决现有技术中稽核效率较低,配置任务工作繁重的问题。配置任务工作繁重的问题。配置任务工作繁重的问题。

【技术实现步骤摘要】
一种数据质量稽核引擎及其稽核方法


[0001]本专利技术属于数据稽核的
,具体涉及一种数据质量稽核引擎及其稽核方法。

技术介绍

[0002]随着技术的发展,数字化成为趋势。为提高基层治理的水平,城市开始向数字化转型,数字政府也开始走进人们的生活。其中,作为数字政府新型基础设施建设的城市大脑更是智慧化城市的重要内容。城市大脑的正常运作离不开数据中台。数据中台是城市大脑的数据基座,其为城市大脑行业应用提供标准、干净、全量数据。数据中台中的数据种类繁多、来源广泛、体量巨大,这些数据主要归集于政府各个单位的政务数据。然而归集数据愈多,数据质量问题愈突出。为了提高收集的数据的质量,在从多个数据源收集数据的过程中,需要对收集的数据进行数据质量稽核。
[0003]目前的数据质量稽核的方法包括:从归集的各个单位数据集中选择待稽查数据集,获取待稽查数据集的待稽查属性,根据数据质量标准规范,由业务定义明确待稽查属性适用的质量规则,按数据集人工配置产生质量稽查任务,依据稽查任务对待稽查数据集进行稽核处理,产生质量稽核任务对应的稽核脚本程序,执行待稽查数据集的待稽查属性的稽核程序。其中,业务定义明确适用各个待稽查数据集的待稽查属性的质量规则。然而上述方法中,每个待稽查数据集的稽查任务均需人工配置一次,稽核效率比较低,若业务规则调整,涉及一或多个待稽查数据集的稽查任务配置需返工修改,导致配置任务工作繁重。

技术实现思路

[0004]本专利技术提供了一种数据质量稽核引擎及其稽核方法,用以解决现有技术中稽核效率较低,配置任务工作繁重的问题。
[0005]为解决上述技术问题,本专利技术提供了一种数据质量稽核方法,其包括:1)获取待稽查数据集的元数据和数据质量标准规范的质量规则项,从所述质量规则项中提取对应的特征词,所述元数据包括数据集名称、数据属性名称和数据属性注释;2)将所述特征词与所述元数据中的数据属性名称或者数据属性注释进行匹配,建立质量规则项和所述元数据中每个属性的关联关系;3)基于所述待稽查数据集中的属性和所述关联关系得到稽核任务;4)基于所述稽核任务与质量规则项对应的稽核处理方法,获得所述待稽查数据集的稽核处理方法,以生成所述待稽查数据集的稽核脚本;5)运行所述稽核脚本对所述待稽查数据集进行稽查以获得稽核结果。
[0006]上述技术方案的有益效果为:该数据质量稽核方法利用待稽核数据集的元数据和引用的数据质量标准规范的质量规则项的特征词,建立质量规则项与元数据中每个属性的关联关系,以自动化匹配待稽核数据集适用的稽查规则;基于待稽查数据集的属性和关联关系创建稽核任务,以自动生成待稽查数据集的稽核脚本,运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。整个稽核过程自动匹配质量规则、自动生成稽核脚本,避免了人
工匹配数据集适用的质量规则导致效率低、准确性差以及过程繁琐的问题,且能够提高了稽核效率。
[0007]进一步地,为了提高建立的关联关系的准确性,本专利技术提供了一种数据质量稽核方法,还包括所述步骤2)中进行匹配所采用的匹配方法是正则表达式算法或Jaro Distance字符串相似性度量算法。
[0008]进一步地,为了更好地提高稽核效率,本专利技术提供了一种数据质量稽核方法,还包括所述元数据还包括数据集记录数,若数据集记录数为零,则该待稽查数据集为空数据集,不对该待稽查数据集进行稽查。
[0009]进一步地,为了更好地提高稽核效率,本专利技术提供了一种数据质量稽核方法,还包括所述元数据还包括数据属性值去重个数,所述数据属性值去重个数表示任意属性下数据记录去重后的个数,若数据属性值去重个数为零,则该待稽查数据集的元数据中存在空值数据属性,不对该空值数据属性进行稽查,若不为零,按照数据属性值去重个数对所属属性进行稽核。
[0010]进一步地,为了便于实现对多个待稽查数据集的批量处理,以更好地提高稽核效率,本专利技术提供了一种数据质量稽核方法,还包括所述待稽查数据集为多个时,获得各待稽查数据集的稽核脚本,按照设定顺序运行各待稽查数据集的稽核脚本。
[0011]进一步地,本专利技术提供了一种数据质量稽核方法,还包括各待稽查数据集的稽核脚本可以同时获得或顺次获得。
[0012]进一步地,为了便于对稽核结果的后续核查,本专利技术提供了一种数据质量稽核方法,还包括还包括对经过稽核的数据集中各个已稽核数据属性的稽核结果进行合并与保存。
[0013]进一步地,为了节省物理资源,本专利技术提供了一种数据质量稽核方法,还包括在经过稽核的数据集中增加稽核结果数据属性,所述稽核结果数据属性用于存储经过稽核的数据集的稽核结果。
[0014]进一步地,为了减轻人工繁重负担,提高稽核效率,本专利技术提供了一种数据质量稽核方法,还包括若质量规则项更新,则基于更新后的质量规则项对待稽查数据集进行稽查。
[0015]为解决上述技术问题,本专利技术提供了一种数据质量稽核引擎,其包括存储器和处理器,所述处理器用于执行存储在所述存储器中的指令,以实现上述的数据质量稽核方法。
附图说明
[0016]图1是本专利技术的数据质量稽核方法的流程图。
具体实施方式
[0017]为了使本专利技术的目的、技术方案及技术效果更加清楚明白,以下结合附图及具体实施例对本专利技术进行进一步详细说明。
[0018]数据质量稽核方法实施例:
[0019]本实施例提供一种数据质量稽核方法。根据本实施例的数据质量稽核方法能够解决现有技术中稽核效率较低,配置任务工作繁重的问题。
[0020]在本实施例中,数据质量稽核方法包括获取待稽查数据集的元数据和引用的质量
规则项及质量规则项的特征词;基于特征词和元数据建立关联关系;基于待稽查数据集中的属性和关联关系获得稽核任务,以生成待稽查数据集的稽核脚本,运行稽核脚本对待稽查数据集进行稽查以获得稽核结果。根据本实施例的数据质量稽核方法能够解决现有技术中稽核效率较低,配置任务工作繁重的问题。
[0021]图1是本专利技术的数据质量稽核方法的流程图。具体过程如下:
[0022]步骤一:获取业务引用的数据质量标准规范的质量规则项,依据质量规则项获得规则项的特征词。
[0023]具体地,在步骤一中,业务可以是指待稽查数据集。若待稽查数据集不同、业务不同,则应用场景不同、引用的数据质量标准规范的质量规则的内容也不同。其中,数据质量标准规范可以依据城市大脑归集各单位的政务数据属性取值特征形成。数据质量标准规范的质量可以包括取值标准范围约束、取值编码格式约束等规则项。标准范围约束规则项可以是属于国家、行业和地方部门信息标准代码与名称,属性应在标准范围内取值的项。标准范围约束规则项可以包括但不限于人的性别、婚姻状况、从业状况、世界各国和地区名称、政治面貌、职业分类、职务级别等质量规则项。编码格式约束规则项可以是具有一定格式特征,属性遵循相应的编码格式取值的项。编码格式约束规则项可以包括但不限于身份证号、统一信用代码、组织机构代码、手机号码、电子邮箱等质量规则项。另外,质量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量稽核方法,其特征在于,包括:1)获取待稽查数据集的元数据和数据质量标准规范的质量规则项,从所述质量规则项中提取对应的特征词,所述元数据包括数据集名称、数据属性名称和数据属性注释;2)将所述特征词与所述元数据中的数据属性名称或者数据属性注释进行匹配,建立质量规则项和所述元数据中每个属性的关联关系;3)基于所述待稽查数据集中的属性和所述关联关系得到稽核任务;4)基于所述稽核任务与质量规则项对应的稽核处理方法,获得所述待稽查数据集的稽核处理方法,以生成所述待稽查数据集的稽核脚本;5)运行所述稽核脚本对所述待稽查数据集进行稽查以获得稽核结果。2.根据权利要求1所述的数据质量稽核方法,其特征在于,所述步骤2)中进行匹配所采用的匹配方法是正则表达式算法或Jaro Distance字符串相似性度量算法。3.根据权利要求1所述的数据质量稽核方法,其特征在于,所述元数据还包括数据集记录数,若数据集记录数为零,则该待稽查数据集为空数据集,不对该待稽查数据集进行稽查。4.根据权利要求1所述的数据质量稽核方法,其特征在于,所述元数据还包括数据属性值去重个数,所述数据属性值去重个数表示任意属性下数据记录去...

【专利技术属性】
技术研发人员:郑丹辉杨昊天王程远孟凡胜郝亮
申请(专利权)人:数字郑州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1