一种实现数据治理的方法及装置制造方法及图纸

技术编号:21199562 阅读:35 留言:0更新日期:2019-05-25 01:10
本申请实施例公开了一种实现数据治理的方法及装置;上述实现数据治理的方法,包括:响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;基于创建的算子,构建有向无环图;调度执行基于有向无环图生成的数据治理任务。本申请实施例提供的实现数据治理的方法及装置,可以降低数据治理的技术门槛,并提高数据治理效率。

A Method and Device for Data Governance

The embodiment of this application discloses a method and device for realizing data governance; the above-mentioned method for realizing data governance includes: creating operators for data governance for raw data to be governed in response to the additional commands received on the data governance page; constructing directed acyclic graphs based on the created operators; scheduling and executing data governance tasks based on directed acyclic graphs. The method and device for realizing data governance provided by the embodiment of this application can reduce the technical threshold of data governance and improve the efficiency of data governance.

【技术实现步骤摘要】
一种实现数据治理的方法及装置
本申请涉及但不限于计算机
,尤指一种实现数据治理的方法及装置。
技术介绍
随着大数据技术和应用的发展,促使了传统行业(如公安、金融、工业)需要将海量的业务数据向大数据平台迁移,在这个过程中,对数据进行转换、清洗的过程,称为数据治理。然而,由于缺乏统一标准、原始数据不规范等诸多问题,导致数据治理困难重重。目前,数据治理需要由专业的技术人员来进行数据清洗、去重、映射等一系列的操作,效率不高且容易出错,不仅对技术人员的技术要求较高,而且对技术人员在业务层面的要求也非常高。
技术实现思路
本申请实施例提供一种实现数据治理的方法及装置,可以降低数据治理的技术门槛,并提高数据治理效率。一方面,本申请实施例提供一种实现数据治理的方法,包括:响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;基于创建的算子,构建有向无环图;调度执行基于有向无环图生成的数据治理任务。另一方面,本申请实施例提供一种实现数据治理的装置,包括:算子创建模块,适于响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;有向无环图构建模块,适于基于创建的算子,构建有向无环图;任务调度模块,适于调度执行基于所述有向无环图生成的数据治理任务。另一方面,本申请实施例提供一种终端设备,包括:显示单元、输入单元、存储器和处理器;所述显示单元连接所述处理器,适于显示数据治理页面;所述输入单元连接所述处理器,适于检测所述数据治理页面上的操作;所述存储器适于存储实现数据治理的程序,所述程序被所述处理器执行时实现上述实现数据治理的方法的步骤。另一方面,本申请实施例提供一种计算机可读介质,存储有实现数据治理的程序,所述程序被处理器执行时实现上述提供的实现数据治理的方法的步骤。本申请实施例中,通过提供数据治理页面,并根据数据治理页面上接收到的添加命令,自动创建并生成数据治理任务,无需技术人员了解数据治理的内部逻辑,通过简单的页面操作可以完成数据治理的要求,从而极大地降低了数据治理的操作技术难度,提高了数据治理效率,而且降低了出错概率。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。图1为本申请实施例提供的实现数据治理的方法的流程图;图2为本申请实施例提供的实现数据治理的装置的示意图;图3为本申请实施例提供的终端设备的示意图。具体实施方式下面将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本申请实施例提供一种实现数据治理的方法及装置,通过提供数据治理页面,基于简单的页面操作即可实现数据治理过程,从而降低了数据治理过程中的技术门槛,提高了数据治理效率。图1为本申请实施例提供的实现数据治理的方法的流程图。如图1所示,本实施例提供的实现数据治理的方法可以由实现数据治理的装置(比如,数据治理平台)执行。然而,本申请对此并不限定。在一示例性实施例中,以数据治理平台为例,数据治理平台可以提供数据治理页面,用户可以在数据治理页面上配置待治理的原始数据所在的数据源以及业务所需的目标数据的信息;在完成数据治理需求的配置后,可以点击数据治理页面上提供的按钮(比如,全量添加按钮、增量添加按钮),以便数据治理平台实现数据治理任务的自动化创建、添加和执行,最终完成对原始数据的治理,得到业务所需的目标数据。如图1所示,本实施例提供的实现数据治理的方法包括以下步骤:步骤101、响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;步骤102、基于创建的算子,构建有向无环图;步骤103、调度执行基于有向无环图生成的数据治理任务。其中,有向无环图(DAG,DirectedAcyclicGraph)为任意一条边有方向,且不存在环路的图。本实施例中,DAG中的每个节点表示一个算子,每条边表示算子之间的依赖关系。其中,算子可以指对数据进行加工、转换的过程。在一示例性实施例中,在步骤101之前,本实施例的方法还可以包括:响应于数据治理页面上接收到的配置信息,构建原始表和目标表;其中,原始表为用于存放来自数据源的原始数据的表,目标表为用于存放经数据治理后得到的目标数据的表。其中,用户可以通过数据治理平台提供的数据治理页面,进行业务需求的配置。比如,配置原始数据以及所需得到的目标数据的信息。数据治理平台可以根据用户在数据治理页面上输入的配置信息,建立原始表和目标表。比如,数据治理平台可以根据数据源(即原始数据所在的数据库或文件)的配置信息,向数据源服务器发送数据接入请求,并将每个不同的数据源作为数据源实例记录在数据治理平台中;然后可以从数据源服务器同步每个数据源下面对应的若干库表信息,作为原始表的数据,其中可以包括表的中文名、英文名、字段列表、字段数据类型等信息。其中,一个数据源中可以存在若干张原始表。后续通过数据治理任务的执行可以基于原始表,将数据源的原始数据存储到本地的存储介质中记录的原始表内,作为后续得到目标数据的数据原始库。其中,数据治理平台还可以根据用户配置的业务需求,在原始数据的基础上构建出需要得到的目标数据的模型,即业务所需的数据表(目标表)。一个原始表中可以抽取出多张目标表。比如,目标表中可以记录从原始表中抽取的实体、关系、事件。其中,实体可以指现实世界中的一类物理对象,可以是实际存在的,例如车、人;也可以是虚拟抽象的,例如案件、户口;关系可以指实体之间的各种关联,例如配偶关系、人车所属关系;事件指在特定时空维度刻画主体和客体间关系的一类对象,例如打电话事件、住宿事件。在一示例性实施例中,用于数据治理的算子,可以包括以下四种类型:预处理算子、增量同步算子、增量计算算子以及融合算子;其中,预处理算子用于对来自数据源的原始数据进行预处理,增量同步算子用于将数据从数据源同步到原始表,增量计算算子用于将数据从原始表抽取到目标表,融合算子用于对映射到目标表的数据进行多值处理、去重及排序;原始表为用于存放来自数据源的原始数据的表,目标表为用于存放经数据治理后得到的目标数据的表。示例性地,每一类算子可以被实现为一组Spark任务。在一示例性实施例中,数据治理可以看成是将原始数据处理成目标数据的过程。数据治理的整个流程可以按照顺序划分为以下四个阶段:预处理阶段、增量同步阶段、增量计算阶段以及融合阶段。其中,原始数据经过上述四个阶段的处理可以得到目标数据。比如,预处理阶段可以对原始数据进行初步的预处理,例如,数据量统计等;增量同步阶段可以将数据从数据源同步到数据治理平台本地的原始表;增量计算阶段可以将数据从原始表抽取到根据业务需求构建的目标表,其中可以对数本文档来自技高网...

【技术保护点】
1.一种实现数据治理的方法,其特征在于,包括:响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;基于创建的算子,构建有向无环图;调度执行基于所述有向无环图生成的数据治理任务。

【技术特征摘要】
1.一种实现数据治理的方法,其特征在于,包括:响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;基于创建的算子,构建有向无环图;调度执行基于所述有向无环图生成的数据治理任务。2.根据权利要求1所述的方法,其特征在于,所述用于数据治理的算子,包括以下四种类型:预处理算子、增量同步算子、增量计算算子以及融合算子;其中,所述预处理算子用于对来自数据源的原始数据进行预处理,所述增量同步算子用于将数据从数据源同步到原始表,所述增量计算算子用于将数据从原始表抽取到目标表,所述融合算子用于对映射到目标表的数据进行多值处理、去重及排序;所述原始表为用于存放来自数据源的原始数据的表,所述目标表为用于存放经数据治理后得到的目标数据的表。3.根据权利要求2所述的方法,其特征在于,所述添加命令包括全量添加命令;所述响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子,包括:响应于所述全量添加命令,创建用于得到增量版本号为1的原始表的预处理算子和增量同步算子;并根据所述增量版本号为1的原始表以及目标表,创建对应的增量计算算子和融合算子。4.根据权利要求2所述的方法,其特征在于,所述添加命令包括增量添加命令;所述响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子,包括:响应于所述增量添加命令,基于已被治理过的增量版本号为N的原始表,创建用于得到增量版本号为N+1的原始表的预处理算子和增量同步算子;其中,N为大于或等于1的整数;根据所述增量版本号为N+1的原始表以及目标表,创建对应的增量计算算子和融合算子。5.根据权利要求2所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:耿正熙张毅然
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1