数据质量监测方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37598696 阅读:22 留言:0更新日期:2023-05-18 11:47
本发明专利技术涉及大数据技术领域,公开了一种数据质量监测方法、装置、计算机设备及存储介质,其方法通过从多个数据源获取与业务需求匹配的待处理数据;通过质量评价指标配置页面配置业务需求的质量评价指标,以及与质量评价指标对应的评价指标区间;对待处理数据进行预处理,获得待评价数据;获取与质量评价指标关联的质量评价规则,根据质量评价规则对待评价数据进行评价,获得质量评价结果;将质量评价结果与评价指标区间进行比对,判断质量评价结果是否存在异常指标;若存在异常指标,则根据异常指标生成告警信息,以将告警信息推送至预设告警通知人。本发明专利技术基于业务需求实现了自定义配置质量评价指标,提高了数据质量监测的效率,适用性更广。适用性更广。适用性更广。

【技术实现步骤摘要】
数据质量监测方法、装置、计算机设备及存储介质


[0001]本专利技术涉及大数据
,尤其涉及一种数据质量监测方法、装置、计算机设备及存储介质。

技术介绍

[0002]数据在获取、存储、清洗、计算、应用等生命周期的每个阶段里都可能产生各类数据质量问题,从而影响数据分析结果和业务决策。在大数据处理场景下,基于不同的业务需求,通常会将数据从数据仓库导出到各类专用的数据源中以提供查询,数据源的种类众多导致无法直接抽取数据进行统一的数据质量监测。
[0003]Apache Griffin是现有的数据质量解决方案,支持批处理和流模式两种数据质量监测方式。在Apache Griffin的架构中,主要分为Define、Measure和Analyze三个部分。其中,Define主要负责定义数据质量统计的维度;Measure主要负责执行统计任务,生成统计结果;Analyze主要负责保存与展示统计结果。Apache Griffin存在一些固有的缺陷,首先,只支持Hive表和Avro文件作为批处理方式的数据源,以及Kafka作为流模式的数据源,可支持数据源有限;其次,数据质量统计的维度不够丰富;再次,数据计算高度依赖hadoop和Spark集群,存储数据依赖Elasticsearch,数据计算引擎和数据存储引擎单一;最后,数据监测结果仅仅用于展示,缺少预警功能,整体功能单一。这些缺陷无法满足用户的个性化需求,限制了数据质量监测的应用范围。
[0004]因此,亟需一种适用性更广的数据质量解决方案,通过对数据每个阶段进行自定义识别、度量、监控、可视化和预警等质量管理活动,来提高数据质量,提升企业数据资产的价值。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种数据质量监测方法、装置、计算机设备及存储介质,以解决现有的数据质量监测方法适用性差和功能单一的问题。
[0006]一种数据质量监测方法,包括:
[0007]从多个数据源获取与业务需求匹配的待处理数据;
[0008]通过质量评价指标配置页面配置所述业务需求的质量评价指标,以及与所述质量评价指标对应的评价指标区间;
[0009]对所述待处理数据进行预处理,获得待评价数据;
[0010]获取与所述质量评价指标关联的质量评价规则,根据所述质量评价规则对所述待评价数据进行评价,获得质量评价结果;
[0011]将所述质量评价结果与所述评价指标区间进行比对,判断所述质量评价结果是否存在异常指标;
[0012]若存在异常指标,则根据所述异常指标生成告警信息,以将所述告警信息推送至预设告警通知人。
[0013]一种数据质量监测装置,包括:
[0014]待处理数据获取模块,用于从多个数据源获取与业务需求匹配的待处理数据;
[0015]质量评价指标配置模块,用于通过质量评价指标配置页面配置所述业务需求的质量评价指标,以及与所述质量评价指标对应的评价指标区间;
[0016]预处理模块,用于对所述待处理数据进行预处理,获得待评价数据;
[0017]质量评价结果获取模块,用于获取与所述质量评价指标关联的质量评价规则,根据所述质量评价规则对所述待评价数据进行评价,获得质量评价结果;
[0018]异常判断模块,用于将所述质量评价结果与所述评价指标区间进行比对,判断所述质量评价结果是否存在异常指标;
[0019]告警信息推送模块,用于若存在异常指标,则根据所述异常指标生成告警信息,以将所述告警信息推送至预设告警通知人。
[0020]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述数据质量监测方法。
[0021]一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述数据质量监测方法。
[0022]上述数据质量监测方法、装置、计算机设备及存储介质,其方法通过从多个数据源获取与业务需求匹配的待处理数据;通过质量评价指标配置页面配置业务需求的质量评价指标,以及与质量评价指标对应的评价指标区间;对待处理数据进行预处理,获得待评价数据;获取与质量评价指标关联的质量评价规则,根据质量评价规则对待评价数据进行评价,获得质量评价结果;将质量评价结果与评价指标区间进行比对,判断质量评价结果是否存在异常指标;若存在异常指标,则根据异常指标生成告警信息,以将告警信息推送至预设告警通知人。本专利技术通过植入各种数据连接器接口实现对接多种类型数据源,基于业务需求自定义配置质量评价指标可以贴合多种具体业务场景,同时提供数据质量监测的可视化展示功能和告警功能,提高数据质量监测的效率,适用性更广。
附图说明
[0023]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本专利技术一实施例中数据质量监测方法的一流程示意图;
[0025]图2是本专利技术一实施例中数据质量监测装置的一结构示意图;
[0026]图3是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本专利技术保护的范围。
[0028]在一实施例中,如图1所示,提供一种数据质量监测方法,包括如下步骤S10

S60。
[0029]S10、从多个数据源获取与业务需求匹配的待处理数据。
[0030]可理解地,数据源是业务数据的来源,数据源分为多种类型,例如MySQL数据库、数据仓库、Kafka集群数据和日志数据文件等。待处理数据是将多种类型数据源中的源数据进行集成后的数据,源数据是从数据源中获取到的业务数据,例如从数据仓库中查询出的业务数据。
[0031]在一示例中,可以通过连接器组件从多个数据源获取与业务需求匹配的待处理数据。连接器组件可以看作是连接数据源到数据质量监测系统后台的桥梁,负责数据源和数据质量监测系统之间的数据输入和数据输出。连接器组件包括多个API接口。在本实施例中,根据数据源的数据源类型配置对应的API接口。
[0032]S20、通过质量评价指标配置页面配置所述业务需求的质量评价指标,以及与所述质量评价指标对应的评价指标区间。
[0033]可理解地,数据质量是指在具体的业务场景下,数据符合数据消费者的使用目的以及能满足业务场景具体需求的程度。可以根据数据质量的评价维度设置质量评价指标。数据质量的评价维度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据质量监测方法,其特征在于,包括:从多个数据源获取与业务需求匹配的待处理数据;通过质量评价指标配置页面配置所述业务需求的质量评价指标,以及与所述质量评价指标对应的评价指标区间;对所述待处理数据进行预处理,获得待评价数据;获取与所述质量评价指标关联的质量评价规则,根据所述质量评价规则对所述待评价数据进行评价,获得质量评价结果;将所述质量评价结果与所述评价指标区间进行比对,判断所述质量评价结果是否存在异常指标;若存在异常指标,则根据所述异常指标生成告警信息,以将所述告警信息推送至预设告警通知人。2.如权利要求1所述的数据质量监测方法,其特征在于,所述从多个数据源获取与业务需求匹配的待处理数据,包括:获取每一所述数据源的数据源类型信息;根据所述数据源类型信息配置连接器组件中与所述数据源对应的接口;通过所述连接器组件的各个接口从各自对应的数据源中获取源数据并进行合并,获得所述待处理数据。3.如权利要求1所述的数据质量监测方法,其特征在于,所述对所述待处理数据进行预处理,获得待评价数据,包括:对所述待处理数据进行清洗处理,获得清洗后数据;对所述清洗后数据进行格式标准化处理,获得所述待评价数据。4.如权利要求1所述的数据质量监测方法,其特征在于,所述获取与所述质量评价指标关联的质量评价规则,包括:获取指标

规则关联关系表;从所述指标

规则关联关系表中查询与所述质量评价指标关联的质量评价规则。5.如权利要求1所述的数据质量监测方法,其特征在于,所述将所述质量评价结果与所述评价指标区间进行比对,判断所述质量评价结果是否存在异常指标,包括:判断所述质量评价结果是否处于所述评价指标区间之外;若所述质量评价结果处于所述评价指标区间之外,则判定所述质量评价结...

【专利技术属性】
技术研发人员:张世军
申请(专利权)人:深圳前海环融联易信息科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1