基于数据仓库的数据质量监控方法、系统、计算机和存储介质技术方案

技术编号:32023939 阅读:27 留言:0更新日期:2022-01-22 18:49
本申请涉及一种基于数据仓库的数据质量监控方法、系统、计算机和存储介质,其中,该方法包括接收登录指令;构建包括Kafka数据流偏移量、工作流时长和yarn资源使用量组合的源数据仓库数据;获取创建的自定义的数据仓库数据质量指标;获取数据仓库数据质量安全阈值,计算所述源数据仓库数据与所述数据仓库数据质量指标的差异值;判断所述差异值是否超出所述数据仓库数据质量安全阈值;若是,则发送报警信号,输出所述源数据仓库数据中异常数据来源信息。通过本申请,解决数据质量监控系统存在的衡量数据质量的检测项单一、无自定义调度实现数据增长情况的监控功能、无自定义阈值设定实现数据增长异常、度量数据异常报警及报警不及时等情况的技术问题。及时等情况的技术问题。及时等情况的技术问题。

【技术实现步骤摘要】
基于数据仓库的数据质量监控方法、系统、计算机和存储介质


[0001]本申请涉及数据质量管理的
,特别是涉及一种基于数据仓库的数据质量监控方法、系统、计算机和存储介质。

技术介绍

[0002]数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。大数据时代海量的数据处理中数据治理是非常重要的一个环节,对数据集市的管理维护和数据质量监控是数据治理的重中之重。
[0003]数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。简而言之,数据质量管理是测度、提高和验证质量,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于数据仓库的数据质量监控方法,其特征在于,包括:构建包括Kafka数据流偏移量、工作流时长和yarn资源使用量组合的源数据仓库数据;获取创建的自定义的数据仓库数据质量指标;获取数据仓库数据质量安全阈值,计算所述源数据仓库数据与所述数据仓库数据质量指标的差异值;判断所述差异值是否超出所述数据仓库数据质量安全阈值;若是,则发送报警信号,输出所述源数据仓库数据中异常数据来源信息。2.根据权利要求1所述的基于数据仓库的数据质量监控方法,其特征在于,所述构建包括Kafka数据流偏移量、工作流时长和yarn资源使用量组合的源数据仓库数据的步骤包括:接收shell脚本信息,通过Kafka命令检查对应topic的偏移量,获取Kafka数据流偏移量数据;通过后端集群对应服务接口分别获取工作流时长数据和yarn资源使用量数据;构建包括Kafka数据流偏移量、工作流时长和yarn资源使用量组合的源数据仓库数据。3.根据权利要求1所述的基于数据仓库的数据质量监控方法,其特征在于,所述构建包括Kafka数据流偏移量、工作流时长或yarn资源使用量组合的源数据仓库数据的步骤之后,所述方法还包括:接收定时调度指令,根据所述源数据仓库数据的变化生成数据质量变化曲线。4.根据权利要求1所述的基于数据仓库的数据质量监控方法,其特征在于,所述获取创建的自定义的数据仓库数据质量指标的步骤包括:接收添加指标管理指令,并获取创建的指标管理项目;接收所述指标管理项目中对应数据库选中的指令,自动给予各数据库加载表名;接收包括空值、总数、Null值中一种或者多种组合的度量规则信息;接收自定义SQL语句,并获取创建的自定义的数据仓库数据质量指标。5.根据权利要求1所述的基于数据仓库的数据质量监控方法,其特征在于,所述判断所述差异值是否超出所述数据仓库数据质量安全阈值的步骤之后,所述方法还包括:若所述差异值在所述数据仓库数据质量安全阈值范围内,则输出数据仓库的数据质量监控...

【专利技术属性】
技术研发人员:葛德成范渊黄进
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1