The embodiment of this application discloses a method and device for realizing data governance; the above-mentioned method for realizing data governance includes: creating operators for data governance for raw data to be governed in response to the additional commands received on the data governance page; constructing directed acyclic graphs based on the created operators; scheduling and executing data governance tasks based on directed acyclic graphs. The method and device for realizing data governance provided by the embodiment of this application can reduce the technical threshold of data governance and improve the efficiency of data governance.
【技术实现步骤摘要】
一种实现数据治理的方法及装置
本申请涉及但不限于计算机
,尤指一种实现数据治理的方法及装置。
技术介绍
随着大数据技术和应用的发展,促使了传统行业(如公安、金融、工业)需要将海量的业务数据向大数据平台迁移,在这个过程中,对数据进行转换、清洗的过程,称为数据治理。然而,由于缺乏统一标准、原始数据不规范等诸多问题,导致数据治理困难重重。目前,数据治理需要由专业的技术人员来进行数据清洗、去重、映射等一系列的操作,效率不高且容易出错,不仅对技术人员的技术要求较高,而且对技术人员在业务层面的要求也非常高。
技术实现思路
本申请实施例提供一种实现数据治理的方法及装置,可以降低数据治理的技术门槛,并提高数据治理效率。一方面,本申请实施例提供一种实现数据治理的方法,包括:响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;基于创建的算子,构建有向无环图;调度执行基于有向无环图生成的数据治理任务。另一方面,本申请实施例提供一种实现数据治理的装置,包括:算子创建模块,适于响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;有向无环图构建模块,适于基于创建的算子,构建有向无环图;任务调度模块,适于调度执行基于所述有向无环图生成的数据治理任务。另一方面,本申请实施例提供一种终端设备,包括:显示单元、输入单元、存储器和处理器;所述显示单元连接所述处理器,适于显示数据治理页面;所述输入单元连接所述处理器,适于检测所述数据治理页面上的操作;所述存储器适于存储实现数据治理的程序,所述程序被所述处理器执行时实现上述实现数据治理的方法 ...
【技术保护点】
1.一种实现数据治理的方法,其特征在于,包括:响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;基于创建的算子,构建有向无环图;调度执行基于所述有向无环图生成的数据治理任务。
【技术特征摘要】
1.一种实现数据治理的方法,其特征在于,包括:响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子;基于创建的算子,构建有向无环图;调度执行基于所述有向无环图生成的数据治理任务。2.根据权利要求1所述的方法,其特征在于,所述用于数据治理的算子,包括以下四种类型:预处理算子、增量同步算子、增量计算算子以及融合算子;其中,所述预处理算子用于对来自数据源的原始数据进行预处理,所述增量同步算子用于将数据从数据源同步到原始表,所述增量计算算子用于将数据从原始表抽取到目标表,所述融合算子用于对映射到目标表的数据进行多值处理、去重及排序;所述原始表为用于存放来自数据源的原始数据的表,所述目标表为用于存放经数据治理后得到的目标数据的表。3.根据权利要求2所述的方法,其特征在于,所述添加命令包括全量添加命令;所述响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子,包括:响应于所述全量添加命令,创建用于得到增量版本号为1的原始表的预处理算子和增量同步算子;并根据所述增量版本号为1的原始表以及目标表,创建对应的增量计算算子和融合算子。4.根据权利要求2所述的方法,其特征在于,所述添加命令包括增量添加命令;所述响应于数据治理页面上接收到的添加命令,给待治理的原始数据创建用于数据治理的算子,包括:响应于所述增量添加命令,基于已被治理过的增量版本号为N的原始表,创建用于得到增量版本号为N+1的原始表的预处理算子和增量同步算子;其中,N为大于或等于1的整数;根据所述增量版本号为N+1的原始表以及目标表,创建对应的增量计算算子和融合算子。5.根据权利要求2所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:耿正熙,张毅然,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。