一种基于海豚调度的数据仓库的数据质量校验系统及方法技术方案

技术编号:38492874 阅读:10 留言:0更新日期:2023-08-15 17:05
本发明专利技术提供了一种基于海豚调度的数据仓库的数据质量校验系统,包括:数据质量可视化编辑模块、工作流生成模块和海豚调度模块:数据质量可视化编辑模块包括数据源配置模块和数据质量定义模块;数据源配置模块,用于连接不同的数据源,获取待校验数据;数据质量定义模块,用于创建数据质量校验脚本,配置数据质量校验规则,并基于创建的数据质量校验脚本将待校验数据生成Json格式文件;工作流生成模块,用于生成工作流。本发明专利技术基于创建的数据质量校验脚本将待校验数据生成Json格式文件,通过工作流生成模板生成工作流,海豚调度模块调度任务执行完成后自动校验数据的完整性、准确性、一致性。一致性。一致性。

【技术实现步骤摘要】
一种基于海豚调度的数据仓库的数据质量校验系统及方法


[0001]本专利技术涉及数据质量校验
,尤其是涉及一种基于海豚调度的数据仓库的数据质量校验系统及方法。

技术介绍

[0002]目前数据仓库是基于开源Hadoop+Hive(基于Hadoop的一个数据仓库工具)构建大数据的数据仓库,海豚调度(DoIphinScheduler)则是用来定时调度数仓任务。数据仓库调度执行完成后无法确定装载的目标表数据的完整性、及时性、准确性、一致性。

技术实现思路

[0003]本专利技术提供了一种基于海豚调度的数据仓库的数据质量校验系统,以解决现有技术中数据仓库调度执行完成后无法确定装载的数据的完整性、及时性、准确性、一致性的技术问题。
[0004]本专利技术的一个方面在于提供一种基于海豚调度的数据仓库的数据质量校验系统,所述系统包括:数据质量可视化编辑模块、工作流生成模块和海豚调度模块;
[0005]所述数据质量可视化编辑模块包括数据源配置模块和数据质量定义模块;所述数据源配置模块,用于配置不同数据源的数据库的连接信息,连接不同的数据源,获取待校验数据;
[0006]所述数据质量定义模块,用于创建数据质量校验脚本,配置数据质量校验规则,并基于创建的数据质量校验脚本将待校验数据生成Json格式文件;
[0007]所述工作流生成模块,用于生成工作流;海豚调度模块,用于传入所述工作流生成模块生成的工作流;
[0008]其中,所述工作流生成模块,包括shell任务模板和shell工作流模板,所述shell任务模板包括多个第一属性,
[0009]在多个所述第一属性中至少包括一个执行脚本,其中,所述执行脚本的属性值配置为变量;
[0010]所述shell工作流模板包括多个第二属性,在多个第二属性中至少包括一个shell任务,其中,所述shell任务的属性值配置为变量。
[0011]在一些优选的实施例中,所述shell任务模板,用于将执行脚本的属性值,替换为传入所述工作流生成模块的待校验数据生成的Json格式文件,生成shell任务文件。
[0012]在一些优选的实施例中,所述工作流生成模块,通过所述shell任务模板,生成多个shell任务文件。
[0013]在一些优选的实施例中,shell工作流模板,用于将shell任务的属性值,替换为所述shell任务模板生成的shell任务文件,生成工作流。
[0014]在一些优选的实施例中,所述数据质量可视化编辑模块,通过调用工作流生成模块的应用程序编程接口,以Json格式进行状态转移的方式将待校验数据生成的Json格式文
件传入工作流生成模块。
[0015]在一些优选的实施例中,工作流生成模块,通过调用所述海豚调度模块的应用程序编程接口,将生成的工作流传入所述海豚调度模块。
[0016]在一些优选的实施例中,所述数据质量可视化编辑模块还包括,数据质量异常显示模块和数据质量任务日志模块;
[0017]所述数据质量异常显示模块,用于显示不符合预期的数据质量校验结果;
[0018]所述数据质量任务日志模块,用于查看已运行的数据质量任务。
[0019]本专利技术的另一个方面在于提供一种基于海豚调度的数据仓库的数据质量校验方法,所述方法包括如下方法步骤:
[0020]S101、配置数据源连接信息;
[0021]S102、创建数据质量校验脚本;
[0022]S103、配置数据质量校验规则;
[0023]S104、配置数据质量校验规则的校验内容;
[0024]S105、配置数据质量校验结果的预设条件;
[0025]S106、配置数据质量定义模块的触发条件;
[0026]S107、待校验数据以Json格式文件传入工作流生成模块;
[0027]S108、替换工作流生成模块中shell任务模板的第一属性的属性值,生成shell任务文件;
[0028]S109、替换工作流生成模块中shell工作流模板的第二属性的属性值,生成工作流;
[0029]S110、将生成的工作流传入海豚调度模块,在海豚调度模块中对工作流下的待校验数据进行数据质量校验。
[0030]在一些优选的实施例中,在步骤S108,所述工作流生成模块中shell任务模板的执行脚本的属性值,替换为传入工作流生成模块的待校验数据生成的Json格式文件,生成shell任务文件。
[0031]在一些优选的实施例中,所述工作流生成模块中shell工作流模板的shell任务的属性值,替换为所述工作流生成模块中所述shell任务模板生成的shell任务文件,生成工作流。
[0032]与现有技术相比,本专利技术具有以下有益效果:
[0033]本专利技术提供的一种基于海豚调度的数据仓库的数据质量校验系统及方法,基于创建的数据质量校验脚本将待校验数据生成Json格式文件,通过工作流生成模板生成工作流,海豚调度模块调度任务执行完成后自动校验数据的完整性、准确性、一致性。
附图说明
[0034]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本专利技术一种基于海豚调度的数据仓库的数据质量校验系统的结构框图。
[0036]图2为本专利技术一个实施例中shell任务模板的示意图。
[0037]图3为本专利技术一个实施例中shell工作流模板的示意图。
[0038]图4为本专利技术一种基于海豚调度的数据仓库的数据质量校验方法的流程图。
具体实施方式
[0039]为了使本专利技术的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本专利技术。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。
[0040]在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0041]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本专利技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0042]如图1所示本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于海豚调度的数据仓库的数据质量校验系统,其特征在于,所述系统包括:数据质量可视化编辑模块、工作流生成模块和海豚调度模块;所述数据质量可视化编辑模块包括数据源配置模块和数据质量定义模块;所述数据源配置模块,用于配置不同数据源的数据库的连接信息,连接不同的数据源,获取待校验数据;所述数据质量定义模块,用于创建数据质量校验脚本,配置数据质量校验规则,并基于创建的数据质量校验脚本将待校验数据生成Json格式文件;所述工作流生成模块,用于生成工作流;海豚调度模块,用于传入所述工作流生成模块生成的工作流;其中,所述工作流生成模块,包括shell任务模板和shell工作流模板,所述shell任务模板包括多个第一属性,在多个所述第一属性中至少包括一个执行脚本,其中,所述执行脚本的属性值配置为变量;所述shell工作流模板包括多个第二属性,在多个第二属性中至少包括一个shell任务,其中,所述shell任务的属性值配置为变量。2.根据权利要求1所述的系统,其特征在于,所述shell任务模板,用于将执行脚本的属性值,替换为传入所述工作流生成模块的待校验数据生成的Json格式文件,生成shell任务文件。3.根据权利要求1或2所述的系统,其特征在于,所述工作流生成模块,通过所述shell任务模板,生成多个shell任务文件。4.根据权利要求3所述的系统,其特征在于,shell工作流模板,用于将shell任务的属性值,替换为所述shell任务模板生成的shell任务文件,生成工作流。5.根据权利要求1所述的系统,其特征在于,所述数据质量可视化编辑模块,通过调用工作流生成模块的应用程序编程接口,以Json格式进行状态转移的方式将待校验数据生成的Json格式...

【专利技术属性】
技术研发人员:康珊伟
申请(专利权)人:上海二三四五网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1