数据质量监控方法及平台技术

技术编号:29583751 阅读:25 留言:0更新日期:2021-08-06 19:41
本申请实施例提供了一种数据质量监控平台,所述数据质量监控平台包括:工作流引擎,所述工作流引擎包括至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果;数据存储系统,用于存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;数据质量监控系统,用于从所述数据存储装置中消费多个第二计算结果,并对消费到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。本申请可以提高排查效率。

【技术实现步骤摘要】
数据质量监控方法及平台
本申请实施例涉及数据处理
,尤其涉及一种数据质量监控方法及平台。
技术介绍
随着网络技术的飞速发展,许多企业和团体通过构建工作流引擎来对每一天收集到的各种类型的数据进行分析。现有技术中,工作流引擎一般包括多个数据计算节点以及多个数据存储节点,通过数据计算节点对各种类型的数据进行计算,并将计算得到的数据结果存储至数据存储节点中。然而,专利技术人发现,由于工作流引擎中存在多个数据计算节点,当某个数据计算节点在对数据进行计算的过程中,因各种原因导致计算结果出现问题时,要在该工作流引擎中分析出具体是哪个数据节点出现问题时非常困难,一般需要对数据计算节点一个一个进行排查,需要耗费大量的时间,排查效率非常低。
技术实现思路
本申请实施例的目的是提供一种数据质量监控平台,可以解决现有技术中的工作流引擎中的数据计算节点在出现问题时,排查出具体是哪个数据计算节点出现问题需要耗费大量数量,排查效率非常低的问题。本申请实施例的一个方面提供了一种数据质量监控平台,包括:工作流引擎,所述工作流引擎包括至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果,至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点;数据存储系统,用于存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;数据质量监控系统,用于从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。可选的,所述数据质量监控平台还包括:数据分析系统,用于存储所述数据质量分析结果,以便用户对所述数据质量分析结果进行查询与分析。可选的,所述工作流引擎,还用于在每一个数据计算节点中设置通过侧输出方式输出的数据的数据类型,以作为所述第二计算结果的数据类型。可选的,所述数据质量监控平台,还用于设置每一个数据计算节点对应的数据质量校验规则。可选的,所述数据质量监控平台,还用于:在从所述数据存储装置中获取到多个第二计算结果时,确定每一个第二计算结果对应的数据计算节点;获取确定的各个数据计算节点对应的数据质量校验规则;判断每一个第二计算结果是否符合对应的数据质量校验规则;若当前的第二计算结果不符合数据质量校验规则,则输出告警信息。可选的,所述数据质量监控平台,还用于:若当前的第二计算结果不符合数据质量校验规则,则将当前的第二计算结果进行数据清洗处理。可选的,所述数据质量校验规则包括第二计算结果是否超过预设的告警阈值,所述数据质量监控平台,还用于:若当前的第二计算结果超过对应的告警阈值,则输出告警信息。可选的,所述告警阈值包括以下至少一种:预设时间段内的第二计算结果的均值、预设时间段内的第二计算结果的最大值、预设时间段内的第二计算结果的最小值。本申请还提供一种数据质量监控方法,应用于包括工作流引擎、数据存储系统、数据质量监控系统的数据质量监控平台中,所述方法包括:在所述工作流引擎中创建至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果,至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点;通过所述数据存储系统存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;通过所述数据质量监控系统从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。可选地,所述数据质量监控平台还包括数据质量监控平台,所述方法还包括:通过所述数据分析系统存储所述数据质量分析结果,以便用户对所述数据质量分析结果进行查询与分析本申请实施例提供的数据质量监控平台,通过对每一个数据计算节点采用侧输出方式输出数据到数据存储系统,并通过数据质量监控平台从数据存储系统中获取数据,以及对获取到的数据进行数据质量分析,得到数据质量分析结果。在本申请中,由于存储至数据存储系统中的数据是来自各个数据计算节点的,因此,对这些数据进行分析时,当分析结果为数据异常时,即可以直接确定出是是哪一个数据计算节点出现问题,及时发现出现问题的数据计算节点,提高排查效率。附图说明图1示意性示出了本申请一实施方式中的数据质量监控平台的架构示意图;图2示意性示出了本申请一实施方式的数据质量监控平台的框图;图3为意性示出了本申请实施例中的工作流引擎的架构示意图;图4示意性示出了本申请另一实施方式的数据质量监控平台的框图;图5示意性示出了本申请一实施方式的数据质量监控方法的流程示意图。具体实施方式为了使本申请实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。图1示意性示出了本申请一实施方式中的数据质量监控平台的架构示意图,在示例性的实施方式中,该数据质量监控平台可以包括以下几部分:工作流引擎1、数据存储系统2、数据质量监控系统3(DataQualityCenter,数据质量中心)。所述工作流引擎1可以为Airflow,Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。所述数据存储系统2用于存储数据的数据库,所述数据库可以ES、Hive、Kafka、HDFS和Hbase等,在本实施例中,所述数据库优选为Kafka。所述数据质量监控系统3,或者称为数据质量中心(DataQualityCenter,DQC),用于对数据质量进行监测,可以通过配置本文档来自技高网...

【技术保护点】
1.一种数据质量监控平台,其特征在于,所述数据质量监控平台包括:/n工作流引擎,所述工作流引擎包括至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果;至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点;/n数据存储系统,用于存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;/n数据质量监控系统,用于从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。/n

【技术特征摘要】
1.一种数据质量监控平台,其特征在于,所述数据质量监控平台包括:
工作流引擎,所述工作流引擎包括至少一个数据计算节点及至少一个数据存储节点,其中,每一个数据计算节点用于对从数据源中获取数据并按照预设的计算规则对获取到的数据进行计算,得到第一计算结果,所述数据存储节点与所述数据计算节点一一对应,用于存储所述数据计算节点的第一计算结果;至少一个第一数据计算节点的第一计算结果作为第二数据计算节点的输入数据,所述第一数据计算节点与所述第二数据节点皆为所述工作流引擎中的其中一个数据计算节点;
数据存储系统,用于存储从每一个数据计算节点中获取到的第一计算结果中包含的预设类型的第二计算结果;
数据质量监控系统,用于从所述数据存储装置中获取多个第二计算结果,并对获取到的各个第二计算结果进行数据质量分析,得到数据质量分析结果。


2.根据权利要求1所述的数据质量监控平台,其特征在于,所述数据质量监控平台还包括:
数据分析系统,用于存储所述数据质量分析结果,以便用户对所述数据质量分析结果进行查询与分析。


3.根据权利要求1所述的数据质量监控平台,其特征在于,所述工作流引擎,还用于在每一个数据计算节点中设置通过侧输出方式输出的数据的数据类型,以作为所述第二计算结果的数据类型。


4.根据权利要求1所述的数据质量监控平台,其特征在于,所述数据质量监控平台,还用于设置每一个数据计算节点对应的数据质量校验规则。


5.根据权利要求4所述的数据质量监控平台,其特征在于,所述数据质量监控平台,还用于:
在从所述数据存储装置中消费到多个第二计算结果时,确定每一个第二计算结果对应的数据计算节点;
获取确定的各个数据计算节点对应的数据质量校验规则;
判断每一个第二计算结果是否符合对应的数据质量校验规则;
若当前的第二计算结果不符合数据质量校验规则,则输出告警信息。
<...

【专利技术属性】
技术研发人员:张杨刘方奇郑志升
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1