基于大数据计算引擎的数据质量检验系统及方法技术方案

技术编号:36101174 阅读:78 留言:0更新日期:2022-12-28 14:00
本发明专利技术提供一种基于大数据计算引擎的数据质量检验系统及方法,所述系统包括:数据源模块,用于基于可插拔的插件式架构实现各种数据源类型的接入;质量模板引擎,用于提供质量检测模板,并实现对所述质量检测模板的统一管理;数据质量计算中间件,用于将上层应用和底层计算引擎解耦,实现用户资源管控;数据质量计算引擎,用于提供数据质量计算算力。本发明专利技术实施例支持多种计算引擎,同时支持用户根据自己的需求开发新的计算引擎,对外提供统一接口,屏蔽了底层的各种调用和使用细节,使用户只关注业务实现,而不需要关注底层实现细节,可高效地实现对各种类型的数据源进行质量检验。验。验。

【技术实现步骤摘要】
基于大数据计算引擎的数据质量检验系统及方法


[0001]本专利技术涉及数据处理
,尤其涉及一种基于大数据计算引擎的数据质量检验系统及方法。

技术介绍

[0002]目前市面上一些数据质量检验系统,大多使用一种计算引擎进行数据处理。当涉及多个计算引擎,一般都是在多个产品上做重复的定制化开发,通过该方式,将不同产品与多个计算引擎连接起来,从而实现系统的整体功能。
[0003]现有的数据融合质量检验系统仅支持Spark计算引擎,只能使用Spark SQL(Structured Query Language,结构化查询语言)从数据源中读取数据表,通过Spark集群对读取到的数据表进行质量检验,现有的数据融合质量检验系统不能支持其他类型的数据源,无法有效地应用到实际当中。
[0004]因此,亟需提供一种方法能够支持对各种类型的数据源进行质量检验。

技术实现思路

[0005]本专利技术提供一种基于大数据计算引擎的数据质量检验系统及方法,用以解决现有技术中不能支持其他类型的数据源,无法有效地应用到实际当中的缺陷。
[0006]第一方面,本专利技术提供一种基于大数据计算引擎的数据质量检验系统,包括:数据源模块、质量模板引擎、数据质量计算中间件和数据质量计算引擎,其中,
[0007]所述数据源模块,用于基于可插拔的插件式架构实现各种数据源类型的接入;
[0008]质量模板引擎,用于提供质量检测模板,并实现对所述质量检测模板的统一管理;
[0009]数据质量计算中间件,用于将上层应用和底层计算引擎解耦,实现用户资源管控;
[0010]数据质量计算引擎用于提供数据质量计算算力。
[0011]在一个实施例中,所述数据源模块采用工厂模式,当有数据接入时,根据数据库的类型生成对应的数据读取插件。
[0012]在一个实施例中,所述质量检测模板包括以下至少一项:空值检测模板、最大最小值检测模板、字符串检测模板、日期检测模板、异常值检测、身份证检测模板,以及用户根据业务自定义的检测模板。
[0013]在一个实施例中,数据质量计算中间件包括:统一服务入口、资源管理模块、任务管理模块、服务管理模块、服务监控模块、通用服务模块和引擎管理器。
[0014]在一个实施例中,所述数据质量计算中间件用于:
[0015]对上层系统的用户提交的数据质量计算任务请求进行解析,并通过路由转发给所述统一服务入口;
[0016]所述统一服务入口查找所述用户是否存在可用服务,若存在可用服务,则将所述数据质量计算任务请求提交给对应的服务;或者,若所述用户不存在可用服务,则通过所述服务管理模块获取所有的任务列表,并通过请求所述资源管理模块实时获取所述引擎管理
器的实际负载;
[0017]所述统一服务入口通过负载最低的引擎管理器启动一个相关服务。
[0018]在一个实施例中,所述统一服务入口通过负载最低的引擎管理器启动一个相关服务,包括:
[0019]负载最低的引擎管理器确定资源管理模块下的用户是否能够启动新的任务;
[0020]若能够启动,则请求资源并进行资源锁定,否则,返回启动识失败信息至所述统一服务入口;
[0021]在资源锁定成功的情况下,启动所述新的任务对应的服务。
[0022]在一个实施例中,所述数据质量计算引擎用于在启动所述新的任务对应的服务后,基于数据质量计算算力,执行数据质量检测任务。
[0023]所述数据质量计算引擎包括:park引擎、Python引擎、Hive引擎和Shell引擎。
[0024]第二方面,本专利技术提供一种数据质量检验方法,包括:
[0025]数据质量计算中间件接收上层系统的用户提交的数据质量计算任务请求;
[0026]数据质量计算中间件对上层系统的用户提交的数据质量计算任务请求进行解析;
[0027]数据质量计算中间件查找所述用户是否存在可用服务,若存在可用服务,则将所述数据质量计算任务请求提交给对应的服务;或者,若所述用户不存在可用服务,则获取所有的任务列表,并实时获取所述引擎管理器的实际负载,通过负载最低的引擎管理器启动一个相关服务;
[0028]数据质量计算引擎基于数据质量计算算力,执行数据质量检测任务,并将检测结果返回给所述数据质量计算中间件;
[0029]所述数据质量计算中间件通知用户在前端获取所述检测结果。
[0030]本专利技术实施例提供的基于大数据计算引擎的数据质量检验系统及方法,支持多种计算引擎,同时支持用户根据自己的需求开发新的计算引擎,对外提供统一接口,屏蔽了底层的各种调用和使用细节,使用户只关注业务实现,而不需要关注底层实现细节,可高效地实现对各种类型的数据源进行质量检验。
附图说明
[0031]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]图1为本专利技术实施例提供的基于大数据计算引擎的数据质量检验系统的结构示意图;
[0033]图2为本专利技术实施例提供的数据源模块的架构示意图;
[0034]图3为本专利技术实施例提供的数据质量计算中间件的架构示意图;
[0035]图4为本专利技术实施例提供的数据质量检验方法的流程示意图;
[0036]图5为本专利技术实施例提供的一种电子设备的实体结构示意图。
具体实施方式
[0037]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]本专利技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0039]本专利技术实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
[0040]下面结合附图,通过一些实施例及其应用场景对本专利技术实施例提供的基于大数据计算引擎的数据质量检验系统及方法进行详细地说明。
[0041]图1为本专利技术实施例提供的基于大数据计算引擎的数据质量检验系统的结构示意图,如图1所示,该系统包括:数据源模块110、质量模板引擎120、数据质量计算中间件130和数据质量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据计算引擎的数据质量检验系统,其特征在于,包括:数据源模块、质量模板引擎、数据质量计算中间件和数据质量计算引擎,其中,所述数据源模块,用于基于可插拔的插件式架构实现各种数据源类型的接入;质量模板引擎,用于提供质量检测模板,并实现对所述质量检测模板的统一管理;数据质量计算中间件,用于将上层应用和底层计算引擎解耦,实现用户资源管控;数据质量计算引擎,用于提供数据质量计算算力。2.根据权利要求1所述的基于大数据计算引擎的数据质量检验系统,其特征在于,所述数据源模块采用工厂模式,当有数据接入时,根据数据库的类型生成对应的数据读取插件。3.根据权利要求1所述的基于大数据计算引擎的数据质量检验系统,其特征在于,所述质量检测模板包括以下至少一项:空值检测模板、最大最小值检测模板、字符串检测模板、日期检测模板、异常值检测、身份证检测模板,以及用户根据业务自定义的检测模板。4.根据权利要求1所述的基于大数据计算引擎的数据质量检验系统,其特征在于,所述数据质量计算中间件包括:统一服务入口、资源管理模块、任务管理模块、服务管理模块、服务监控模块、通用服务模块和引擎管理器。5.根据权利要求4所述的基于大数据计算引擎的数据质量检验系统,其特征在于,所述数据质量计算中间件用于:对上层系统的用户提交的数据质量计算任务请求进行解析,并通过路由转发给所述统一服务入口;所述统一服务入口查找所述用户是否存在可用服务,若存在可用服务,则将所述数据质量计算任务请求提交给对应的服务;或者,若所述用户不存在可用服务,则通过所述服务管理模块获取所有的任务列表,并通过请求所述资源管理模块实时获取所述引擎管理器的实际负载;所述统一服务...

【专利技术属性】
技术研发人员:王晶花蕊王锦涛刘勇
申请(专利权)人:中移雄安信息通信科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1