一种数据质量评估方法与系统技术方案

技术编号:37123691 阅读:37 留言:0更新日期:2023-04-01 05:19
本发明专利技术公开了一种数据质量评估方法与系统,一种数据质量评估方法,包括以下步骤:创建数据源;创建项目;创建检查任务;创建检查项并配置规则;项目上线/单次执行;查看结果、导出报告。一种数据质量评估系统,包括以下模块:设计态:负责质检项目的设计和配置工作,提供质检过程中的必备管理功能;运行态:负责运行配置完成的质量检查项目;结果态:负责保存质量检测的结果;报表态:负责生产质量检测报告,提供导出检查结果的功能。供导出检查结果的功能。供导出检查结果的功能。

【技术实现步骤摘要】
一种数据质量评估方法与系统


[0001]本专利技术涉及一种方法与系统,尤其涉及一种数据质量评估方法与系统,属于计算机应用


技术介绍

[0002]随着移动互联网、云计算、物联网的快速发展,数据的生产者、生产环节都在急速攀升,随之快速产生的数据呈指数级增长。在信息和网络技术飞速发展的大数据时代,越来越多的政务管理、企业业务和社会活动实现了数字化,企业希望从大数据中掘金,以提高管理水平和生产力。企业逐步认识到“大数据有大价值”,但并非都意识到大数据还有个大前提——数据质量。
[0003]当前最常见的数据质量评估体系中,多基于数仓检查或有固定数据源,例如支持对hive、avro、kafka等,针对关系型数据库则需自行扩展。评估规则上当前各个开源系统支持程度也有所不同,在质量模板上支持较好的产品,其规则数量也一般局限在十几个到几十不等,通常采用SQL等手段来满足特殊场景下的规则自定义。
[0004]但现有技术存在着以下缺点:
[0005]1)评估方式:目前数据质量评估体系多以SQL为主,在评估的过程中,频繁且复杂的聚合查本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据质量评估方法,其特征在于:该方法包括以下步骤:步骤一、创建数据源;步骤二、创建项目;步骤三、创建检查任务;步骤四、创建检查项并配置规则;步骤五、项目上线/单次执行;步骤六、查看结果、导出报告。2.根据权利要求1所述的数据质量评估方法,其特征在于:该方法的具体过程如下:步骤一、进行数据源的配置,确定数据源类型,配置数据源连接信息;步骤二、创建项目,选择待检查数据源;步骤三、为项目创建检查任务,输入数据过滤条件;步骤四、为检查任务创建检查项,选择检查项所检查的字段并配置规则表达式;步骤五、项目上线执行定时任务或立即执行项目;步骤六、查看质量检查结果,导出质量检查结果、生成质量检查报告。3.一种数据质量评估系统,其特征在于:该系统包括以下模块:设计态:负责质检项目的设计和配置工作,提供质检过程中的必备管理功能;运行态:负责运行配置完成的质量检查项目;结果态:负责保存质量检测的结果;报表态:负责生产质量检测报告,提供导出检查结果的功能。4.根据权利要求3所述的数据质量评估系统,其特征在于:所述设计态为质量检查设立规则库,规则类型具体以下:一、内置规则,具体分类如下:网络格式包括:全限定域名FQDN格式、传输控制协议地址TCPv6格式、数据报协议地址UDP格式;字符匹配包括:大小写、开始结束、包含、排除;格式匹配包括:经纬度、电子邮箱、国际标准书号;数值比较包括:相等、不相等、数值大小;其他包括:非空检查、长度检查;二、自定义正则:支持进行自定义逻辑表达式进行质量检查,以满足内置规则未覆盖的场景;三、自定义逻辑表达式:针对字段间比较支持逻辑表达式配置,支持选择多个字段同时比较;选择多个字段时,区分主字段和辅助字段,最终检查结果与主字段进行关联。5.根据权利要求3所述的数据质量评估系统,其特征在于:所述设计态为质量检查提供项目管理,即以项目为单位去管理数据质量检查任务,支持以检查任务的形式去规划一个数据表的数据质量检查,以检查项的形式去设计数据表中每个字段值的质量检查。6.根据权利要求5所述的数据质量评估系统,其特征在于:所述项目管理的具体流程如下:项目:管理一个数据库的检查配置与历史执行情况;检查任务:管理一个数据表的检查配置与历史执行情况;
检查项:管理一个字段的检查配置,包括规则权重;规则配置:以表达式形式,配置在具体字段上,达到数据质量评估的效果;定时执行:定时进行全量或增量的数据质量评估;保存结果:执行结果以报告的形式进行展示,同时提供质量检查...

【专利技术属性】
技术研发人员:朱津毅庞景秋齐井春李绍俊李波王振起孙纪福
申请(专利权)人:长春嘉诚信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1