基于映射关系构建任务DAG的方法及装置制造方法及图纸

技术编号:24167873 阅读:14 留言:0更新日期:2020-05-16 02:00
本发明专利技术提供了一种基于映射关系构建任务DAG的方法及装置,该方法包括:根据获取的源表和目标表分别创建源实体和目标实体;建立源实体与目标实体的映射关系,所述映射关系包括表映射和字段映射;生成业务数据治理的各个阶段的任务;通过各个阶段的任务的依赖关系构建任务DAG结构。在本发明专利技术中,通过建立源实体与目标实体之间的映射关系,自动构建数据治理各个阶段任务的DAG,并生成每个任务执行需要的信息,从而减少人工参与的工作量,提高DAG构建的效率。

Method and device of task DAG based on mapping relation

【技术实现步骤摘要】
基于映射关系构建任务DAG的方法及装置
本专利技术涉及数据治理领域,具体而言,涉及一种基于映射关系构建任务DAG的方法及装置。
技术介绍
在数据治理过程中,通常会根据数据处理的不同阶段,将任务拆解成若干个子任务,而这些子任务之间有顺序的依赖关系,形成子任务的有向无环图(DAG)结构。任务DAG的构建通常有两种方式,一种是所使用的工具或者技术自动生成的DAG,如spark任务;一种是根据数据处理的的业务流程通过人工构建的DAG,如根据数据治理流程可构DAG采集->转换->映射->融合。针对第二种场景,常用的方式是在工作流画布上创建每一个子任务,配置每个子任务执行命令、参数等信息,然后建立任务间的依赖关系。这种方式对于任务数很多的情况,很显然构建效率是很低的。
技术实现思路
本专利技术实施例提供了一种基于映射关系构建任务DAG的方法及装置,以至少解决相关技术中数据治理流程中任务的DAG构建效率低的问题。根据本专利技术的一个实施例,提供了一种基于映射关系构建任务DAG的方法,包括:根据获取的源表和目标表分别创建源实体和目标实体;建立源实体与目标实体的映射关系,所述映射关系包括表映射和字段映射;生成业务数据治理的各个阶段的任务;通过各个阶段的任务的依赖关系构建任务DAG结构。可选地,生成业务数据治理的各个阶段的任务包括:对数据治理过程按照业务处理流程划分每个阶段,并定义每个阶段任务执行的模板信息;根据定义的数据治理阶段,生成源实体到目标实体各个阶段的实体任务,并根据每个阶段任务执行的模板信息,生成任务执行的实例信息。可选地,通过各个阶段的任务的依赖关系构建任务DAG结构包括:根据生成各阶段任务时所生成的任务依赖关系构建所述任务的DAG结构。可选地,所述任务依赖关系至少包括以下之一:所述任务与父任务的依赖关系、所述任务为根任务。根据本专利技术的另一个实施例,提供了一种基于映射关系构建任务DAG的装置,包括:获取模块,用于根据获取的源表和目标表分别创建源实体和目标实体;映射模块,用于建立源实体与目标实体的映射关系,所述映射关系包括表映射和字段映射;任务模块,用于生成业务数据治理的各个阶段的任务;构建模块,用于通过各个阶段的任务的依赖关系构建任务DAG结构。可选地,所述任务模块包括:划分单元,用于对数据治理过程按照业务处理流程划分每个阶段,并定义每个阶段任务执行的模板信息;生成单元,用于根据定义的数据治理阶段,生成源实体到目标实体各个阶段的实体任务,并根据每个阶段任务执行的模板信息,生成任务执行的实例信息。可选地,所述构建模块包括:构建单元,用于根据生成各阶段任务时所生成的任务依赖关系构建所述任务的DAG结构。可选地,所述任务依赖关系至少包括以下之一:所述任务与父任务的依赖关系、所述任务为根任务根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。在本专利技术的上述实施例中,通过建立源实体与目标实体之间的映射关系,自动构建数据治理各个阶段任务的DAG,并生成每个任务执行需要的信息,从而减少人工参与的工作量,提高DAG构建的效率。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的基于映射关系构建任务DAG的流程图;图2是根据本专利技术实施例的构建任务DAG的流程图;图3是根据本专利技术实施例的构建任务DAG的流程图;图4是根据本专利技术实施例的任务DAG示意图;图5是根据本专利技术实施例的构建任务DAG装置结构示意图;图6是根据本专利技术可选实施例的构建任务DAG装置结构示意图。具体实施方式下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。在本实施例中提供了一种基于映射关系构建任务DAG方法,图1是根据本专利技术实施例的方法流程图,如图1所示,该流程包括如下步骤:步骤S102,根据获取的源表和目标表分别创建源实体和目标实体;步骤S104,建立源实体与目标实体的映射关系,所述映射关系包括表映射和字段映射;步骤S106,生成业务数据治理的各个阶段的任务;步骤S108,通过各个阶段的任务的依赖关系构建任务DAG结构。在本实施例的步骤S106中,可包括以下步骤:对数据治理过程按照业务处理流程划分每个阶段,并定义每个阶段任务执行的模板信息;根据定义的数据治理阶段,生成源实体到目标实体各个阶段的实体任务,并根据每个阶段任务执行的模板信息,生成任务执行的实例信息。在本实施例的步骤S108中,根据生成各阶段任务时所生成的任务依赖关系构建所述任务的DAG结构。在本实施例的步骤S108中,所述任务依赖关系至少包括以下之一:所述任务与父任务的依赖关系、所述任务为根任务。为了便于对本专利技术所提供的技术方案的理解,下面将结合具体场景的实施例进行详细描述。本实施例提供了一种基于映射关系自动构建任务DAG的方法。在本实施例中,基于源表和目标表分别创建源实体和目标实体,建立源实体与目标实体之间的映射关系,生成业务数据治理的各个阶段的任务,并构建任务DAG。如图2所示,本实施例的方法主要包括如下步骤:步骤S201,创建源实体和目标实体:根据获取的源表和目标表,分别创建源实体和目标实体。步骤S202,定义数据治理阶段:对数据治理过程按照业务处理流程,划分每个阶段,并定义每个阶段任务执行的模板信息(Template)。步骤S203,建立映射:建立源实体与目标实体的映射关系(Mapping),包括表映射和字段映射。步骤S204,生成阶段任务:根据定义的数据治理阶段,通过TaskBuilder生成源实体到目标实体各个阶段的实体任务(Task),并根据每个阶段任务执行的模板信息,生成任务执行的实例信息。步骤S205,构建任务DAG:在生成阶段任务会生成该任务与父任务的依赖关系,没有父任务的任务是根任务,即数据治理的第一个阶段任务。通过阶段任务的依赖关系,DAGBuilder就构建了任务DAG结构。下面结合具体的实例进行对上述步骤进行详细描述。在本实施例中,假设有源表A(表字段有a1,a2,a3)、源表B(表字段有b1,b2,b3)和目标表T(表字段有t1,t2,t3)。如图3所示,主要包括如下本文档来自技高网...

【技术保护点】
1.一种基于映射关系构建任务DAG的方法,其特征在于,包括:/n根据获取的源表和目标表分别创建源实体和目标实体;/n建立所述源实体与目标实体的映射关系,所述映射关系包括表映射和字段映射;/n生成业务数据治理的各个阶段的任务;/n通过各个阶段的任务的依赖关系构建任务DAG结构。/n

【技术特征摘要】
1.一种基于映射关系构建任务DAG的方法,其特征在于,包括:
根据获取的源表和目标表分别创建源实体和目标实体;
建立所述源实体与目标实体的映射关系,所述映射关系包括表映射和字段映射;
生成业务数据治理的各个阶段的任务;
通过各个阶段的任务的依赖关系构建任务DAG结构。


2.根据权利要求1所述的方法,其特征在于,生成业务数据治理的各个阶段的任务包括:
对数据治理过程按照业务处理流程划分每个阶段,并定义每个阶段任务执行的模板信息;
根据定义的数据治理阶段,生成源实体到目标实体各个阶段的实体任务,并根据每个阶段任务执行的模板信息,生成任务执行的实例信息。


3.根据权利要求1所述的方法,其特征在于,通过各个阶段的任务的依赖关系构建任务DAG结构包括:
根据生成各阶段任务时所生成的任务依赖关系构建所述任务的DAG结构。


4.根据权利要求1所述的方法,其特征在于,所述任务依赖关系至少包括以下之一:所述任务与父任务的依赖关系、所述任务为根任务。


5.一种基于映射关系构建任务DAG的装置,其特征在于,包括:
获取模块,用于根据获取的源表和目标表分别创建源实体和目标实体;
映射模块,用于建立源实体与目标实体的映射关系,所...

【专利技术属性】
技术研发人员:堵新政张毅然
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1