数据质量检测方法及装置制造方法及图纸

技术编号:33531243 阅读:40 留言:0更新日期:2022-05-19 02:02
本发明专利技术提供一种数据质量检测方法及装置,其中的方法用于对数据库中的数据进行质量检测,包括:读取数据库中的待检测数据;对所述待检测数据进行基于检测任务的计算,记录检测结果;基于所述检测结果进行统计分析;其中,所述检测任务基于预先设定的至少一个检测规则生成,并且所述检测任务与数据库语法相匹配。本发明专利技术破了现有技术中集群限制,无需拉取数据库中的待检测数据到其他地方,故节约了数据传输时的资源消耗,消除数据迁移所带来的安全隐患,并且具有很好的技术扩展性。并且具有很好的技术扩展性。并且具有很好的技术扩展性。

【技术实现步骤摘要】
数据质量检测方法及装置


[0001]本专利技术涉及计算机软件的数据治理
,尤其涉及一种数据质量检测方法及装置。

技术介绍

[0002]数据治理是涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行。数据治理的目的,是在业务环境下,使数据符合数据消费者的使用,满足业务场景下的具体需求。
[0003]数据质量的检测是数据治理的关键。在现有的大数据质量检测方法中,需提前把需要检测数据同步到hdfs文件系统,通过预先设置检测计算方法(如枚举检测方法,设定两个枚举值:“abc”、“def”,当被检测数据“nice”用此枚举检测方法检测时,检测结果为不合格,当被检测数据“def”用此枚举检测方法检测时,检测结果为合格),将数据从hdfs读取到计算引擎,逐条对数据执行检测计算方法,最终得到每条数据的每个字段对于某个计算方法的检测结果,然后将计算结果保存,通过自定义的得分规则,对表中的数据进行评分,或者做统计计算。
[0004]对于现有的检测方法,存在以下缺点:
[0005]第一、hdfs集群限制,被检测数据需要加载到hdf本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据质量检测方法,用于对数据库中的数据进行质量检测,其特征在于,包括:读取数据库中的待检测数据;对所述待检测数据进行基于检测任务的计算,记录检测结果;基于所述检测结果进行统计分析;其中,所述检测任务基于预先设定的至少一个检测规则生成,并且所述检测任务与数据库语法相匹配。2.根据权利要求1所述的数据质量检测方法,其特征在于,所述数据库为关系型数据库;所述检测任务为通过sql脚本实现的检测规则的集合。3.根据权利要求2所述的数据质量检测方法,其特征在于,所述关系型数据库为:mysql、postgresql、oracle、db2、clickhouse、或hive。4.根据权利要求2或3所述的数据质量检测方法,其特征在于,所述检测任务通过用于设定检测规则的装置生成,并发送至所述关系型数据库中。5.根据权利要求1所述的数据质量检测方法,其特征在于,所述检测任务为通过查询语句实现的检测规则的集合。6.根据权利要求5所述的数据质量检测方法,其特征在于,所述数据库为elasticsearch。7.根据权利要求5或6所述的数据质量检测方法,其特征在于,所述检测任务通过用于设定检测规则的装置生成,并发送至所述elasticsearc...

【专利技术属性】
技术研发人员:蒋勇齐向东吴云坤徐彪邹品洛巍邢云飞邵锐冯忠田何安迪顾静玲邓娅婷何雨薇杨晓霞熊攀
申请(专利权)人:网神信息技术北京股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1