数据清洗系统、方法、装置及存储介质制造方法及图纸

技术编号:20992541 阅读:31 留言:0更新日期:2019-04-29 22:32
本公开是关于一种数据清洗系统、方法、装置及存储介质,所述系统包括:数据清洗组件库、数据清洗规则库、规则解析器和执行器。规则解析器用于从数据清洗组件库中选取与目标数据清洗任务相关的k个组件,从数据清洗规则库中获取k个组件各自对应的规则文本,根据k个组件各自对应的规则文本,生成总规则文本,解析总规则文本,得到目标数据清洗任务对应的配置信息,将配置信息发送给执行器。执行器用于根据配置信息,调用k个组件,通过k个组件执行目标数据清洗任务。本公开通过预先配置的不同组件来执行数据处理任务,而不必在接收到数据处理任务时,临时编写用于执行该数据处理任务的逻辑代码,从而提高了数据处理任务的执行效率。

Data cleaning system, method, device and storage medium

The present disclosure relates to a data cleaning system, method, device and storage medium, which includes a data cleaning component library, a data cleaning rule library, a rule parser and an actuator. The rule parser is used to select k components related to the target data cleaning task from the data cleaning component library, obtain the corresponding rule text of K components from the data cleaning rule library, generate the general rule text according to the corresponding rule text of K components, parse the general rule text, get the corresponding configuration information of the target data cleaning task, and send the configuration information to the database. Actuator. Actuator is used to call K components according to configuration information and perform target data cleaning tasks through K components. The present disclosure performs data processing tasks by different components configured in advance, and does not need to temporarily write logic codes for performing the data processing tasks when receiving the data processing tasks, thereby improving the execution efficiency of data processing tasks.

【技术实现步骤摘要】
数据清洗系统、方法、装置及存储介质
本公开实施例涉及大数据
,特别涉及一种数据清洗系统、方法、装置及存储介质。
技术介绍
随着信息化的发展,传统的技术已经不能满足呈爆炸式增长的数据的存储和计算需求,大数据技术应运而生。目前,大数据框架承载着多种类型数据的存储和计算任务。对于数据清洗任务来说,有以下几种常用的大数据框架:MapReduce是一种分布式计算框架,能处理大规模数据集,可扩展性和灵活性比较强;Spark是一种类似于MapReduce的计算框架,计算性能和可扩展性更高,处理数据分析任务更友好。然而,相关技术在接收到一项数据清洗任务时,需要临时编写用于执行该数据清洗任务的逻辑代码,而执行一项数据清洗任务通常需要大量的复杂逻辑代码,因此该代码编写过程的耗时较长,从而导致数据清洗任务的执行效率较低。
技术实现思路
本公开实施例提供了一种数据清洗系统、方法、装置及存储介质。所述技术方案如下:根据本公开实施例的第一方面,提供了一种数据清洗系统,所述系统包括:数据清洗组件库、数据清洗规则库、规则解析器和执行器;其中,所述数据清洗组件库中包括多个组件,每个所述组件用于执行数据清洗任务的至少一项操作,所述数据清洗规则库中包括每个所述组件分别对应的规则文本,所述规则文本中包含所述组件运行所需的配置信息;所述规则解析器,用于从所述数据清洗组件库中选取与目标数据清洗任务相关的k个组件,所述k为大于1的整数;从所述数据清洗规则库中获取所述k个组件各自对应的规则文本;根据所述k个组件各自对应的规则文本,生成所述目标数据清洗任务对应的总规则文本;解析所述总规则文本,得到所述目标数据清洗任务对应的配置信息;将所述目标数据清洗任务对应的配置信息发送给所述执行器;所述执行器,用于根据所述目标数据清洗任务对应的配置信息,调用所述k个组件;通过所述k个组件执行所述目标数据清洗任务。可选地,所述数据清洗组件库中包括以下3种类型的组件:输入组件、计算组件和输出组件;其中,所述输入组件用于执行所述数据清洗任务中从数据源读取数据的操作;所述计算组件用于执行所述数据清洗任务中对数据进行清洗和计算的操作,得到数据处理结果;所述输出组件用于执行所述数据清洗任务中输出所述数据处理结果的操作。可选地,所述规则解析器,用于:从所述输入组件中选取与所述目标数据清洗任务的数据源相匹配的组件;从所述计算组件中选取与所述目标数据清洗任务的处理和计算逻辑相匹配的组件;从所述输出组件中选取与所述目标数据清洗任务的数据处理结果相匹配的组件。可选地,所述数据清洗组件库中还包括以下1种类型的组件:优化组件;所述优化组件用于对所述数据处理结果执行优化操作,得到优化后的数据处理结果;其中,所述优化后的数据处理结果由所述输出组件输出。可选地,所述规则解析器,用于:按照所述k个组件之间的依赖和嵌套关系对所述k个组件各自对应的规则文本进行组合,生成所述目标数据清洗任务对应的总规则文本。可选地,所述系统还包括:监听器;所述监听器,用于记录所述目标数据清洗任务的执行状态信息;向外部系统提供所述执行状态信息。根据本公开实施例的第二方面,提供了一种数据清洗方法,应用于数据清洗系统中,所述系统包括:数据清洗组件库、数据清洗规则库、规则解析器和执行器;其中,所述数据清洗组件库中包括多个组件,每个所述组件用于执行数据清洗任务的至少一项操作,所述数据清洗规则库中包括每个所述组件分别对应的规则文本,所述规则文本中包含所述组件运行所需的配置信息;所述方法包括:所述规则解析器从所述数据清洗组件库中选取与目标数据清洗任务相关的k个组件,所述k为大于1的整数;从所述数据清洗规则库中获取所述k个组件各自对应的规则文本;根据所述k个组件各自对应的规则文本,生成所述目标数据清洗任务对应的总规则文本;解析所述总规则文本,得到所述目标数据清洗任务对应的配置信息;将所述目标数据清洗任务对应的配置信息发送给所述执行器;所述执行器根据所述目标数据清洗任务对应的配置信息,调用所述k个组件;通过所述k个组件执行所述目标数据清洗任务。可选地,所述数据清洗组件库中包括以下3种类型的组件:输入组件、计算组件和输出组件;其中,所述输入组件用于执行所述数据清洗任务中从数据源读取数据的操作;所述计算组件用于执行所述数据清洗任务中对数据进行清洗和计算的操作,得到数据处理结果;所述输出组件用于执行所述数据清洗任务中输出所述数据处理结果的操作。可选地,所述规则解析器从所述数据清洗组件库中选取与目标数据清洗任务相关的k个组件,包括:所述规则解析器从所述输入组件中选取与所述目标数据清洗任务的数据源相匹配的组件;所述规则解析器从所述计算组件中选取与所述目标数据清洗任务的处理和计算逻辑相匹配的组件;所述规则解析器从所述输出组件中选取与所述目标数据清洗任务的数据处理结果相匹配的组件。可选地,所述数据清洗组件库中还包括以下1种类型的组件:优化组件;所述优化组件用于对所述数据处理结果执行优化操作,得到优化后的数据处理结果;其中,所述优化后的数据处理结果由所述输出组件输出。可选地,所述规则解析器根据所述k个组件各自对应的规则文本,生成所述目标数据清洗任务对应的总规则文本,包括:所述规则解析器按照所述k个组件之间的依赖和嵌套关系对所述k个组件各自对应的规则文本进行组合,生成所述目标数据清洗任务对应的总规则文本。可选地,所述系统还包括监听器,所述方法还包括:所述监听器记录所述目标数据清洗任务的执行状态信息;向外部系统提供所述执行状态信息。根据本公开实施例的第三方面,提供了一种数据清洗装置,所述装置包括:规则解析模块,被配置为从数据清洗组件库中选取与目标数据清洗任务相关的k个组件,所述数据清洗组件库中包括多个组件,每个所述组件用于执行数据清洗任务的至少一项操作,所述k为大于1的整数;从数据清洗规则库中获取所述k个组件各自对应的规则文本,所述数据清洗规则库中包括每个所述组件分别对应的规则文本,所述规则文本中包含所述组件运行所需的配置信息;根据所述k个组件各自对应的规则文本,生成所述目标数据清洗任务对应的总规则文本;解析所述总规则文本,得到所述目标数据清洗任务对应的配置信息;任务执行模块,被配置为根据所述目标数据清洗任务对应的配置信息,调用所述k个组件;通过所述k个组件执行所述目标数据清洗任务。可选地,所述数据清洗组件库中包括以下3种类型的组件:输入组件、计算组件和输出组件;其中,所述输入组件用于执行所述数据清洗任务中从数据源读取数据的操作;所述计算组件用于执行所述数据清洗任务中对数据进行清洗和计算的操作,得到数据处理结果;所述输出组件用于执行所述数据清洗任务中输出所述数据处理结果的操作。可选地,所述规则解析模块,被配置为:从所述输入组件中选取与所述目标数据清洗任务的数据源相匹配的组件;从所述计算组件中选取与所述目标数据清洗任务的处理和计算逻辑相匹配的组件;从所述输出组件中选取与所述目标数据清洗任务的数据处理结果相匹配的组件。可选地,所述数据清洗组件库中还包括以下1种类型的组件:优化组件;所述优化组件用于对所述数据处理结果执行优化操作,得到优化后的数据处理结果;其中,所述优化后的数据处理结果由所述输出组件输出。可选地,所述规则解析模块,被配置为:按照所本文档来自技高网...

【技术保护点】
1.一种数据清洗系统,其特征在于,所述系统包括:数据清洗组件库、数据清洗规则库、规则解析器和执行器;其中,所述数据清洗组件库中包括多个组件,每个所述组件用于执行数据清洗任务的至少一项操作,所述数据清洗规则库中包括每个所述组件分别对应的规则文本,所述规则文本中包含所述组件运行所需的配置信息;所述规则解析器,用于从所述数据清洗组件库中选取与目标数据清洗任务相关的k个组件,所述k为大于1的整数;从所述数据清洗规则库中获取所述k个组件各自对应的规则文本;根据所述k个组件各自对应的规则文本,生成所述目标数据清洗任务对应的总规则文本;解析所述总规则文本,得到所述目标数据清洗任务对应的配置信息;将所述目标数据清洗任务对应的配置信息发送给所述执行器;所述执行器,用于根据所述目标数据清洗任务对应的配置信息,调用所述k个组件;通过所述k个组件执行所述目标数据清洗任务。

【技术特征摘要】
1.一种数据清洗系统,其特征在于,所述系统包括:数据清洗组件库、数据清洗规则库、规则解析器和执行器;其中,所述数据清洗组件库中包括多个组件,每个所述组件用于执行数据清洗任务的至少一项操作,所述数据清洗规则库中包括每个所述组件分别对应的规则文本,所述规则文本中包含所述组件运行所需的配置信息;所述规则解析器,用于从所述数据清洗组件库中选取与目标数据清洗任务相关的k个组件,所述k为大于1的整数;从所述数据清洗规则库中获取所述k个组件各自对应的规则文本;根据所述k个组件各自对应的规则文本,生成所述目标数据清洗任务对应的总规则文本;解析所述总规则文本,得到所述目标数据清洗任务对应的配置信息;将所述目标数据清洗任务对应的配置信息发送给所述执行器;所述执行器,用于根据所述目标数据清洗任务对应的配置信息,调用所述k个组件;通过所述k个组件执行所述目标数据清洗任务。2.根据权利要求1所述的系统,其特征在于,所述数据清洗组件库中包括以下3种类型的组件:输入组件、计算组件和输出组件;其中,所述输入组件用于执行所述数据清洗任务中从数据源读取数据的操作;所述计算组件用于执行所述数据清洗任务中对数据进行清洗和计算的操作,得到数据处理结果;所述输出组件用于执行所述数据清洗任务中输出所述数据处理结果的操作。3.根据权利要求2所述的系统,其特征在于,所述规则解析器,用于:从所述输入组件中选取与所述目标数据清洗任务的数据源相匹配的组件;从所述计算组件中选取与所述目标数据清洗任务的处理和计算逻辑相匹配的组件;从所述输出组件中选取与所述目标数据清洗任务的数据处理结果相匹配的组件。4.根据权利要求2所述的系统,其特征在于,所述数据清洗组件库中还包括以下1种类型的组件:优化组件;所述优化组件用于对所述数据处理结果执行优化操作,得到优化后的数据处理结果;其中,所述优化后的数据处理结果由所述输出组件输出。5.根据权利要求1所述的系统,其特征在于,所述规则解析器,用于:按照所述k个组件之间的依赖和嵌套关系对所述k个组件各自对应的规则文本进行组合,生成所述目标数据清洗任务对应的总规则文本。6.根据权利要求1所述的系统,其特征在于,所述系统还包括:监听器;所述监听器,用于记录所述目标数据清洗任务的执行状态信息;向外部系统提供所述执行状态信息。7.一种数据清洗方法,其特征在于,应用于数据清洗系统中,所述系统包括:数据清洗组件库、数据清洗规则库、规则解析器和执行器;其中,所述数据清洗组件库中包括多个组件,每个所述组件用于执行数据清洗任务的至少一项操作,所述数据清洗规则库中包括每个所述组件分别对应的规则文本,所述规则文本中包含所述组件运行所需的配置信息;所述方法包括:所述规则解析器从所述数据清洗组件库中选取与目标数据清洗任务相关的k个组件,所述k为大于1的整数;从所述数据清洗规则库中获取所述k个组件各自对应的规则文本;根据所述k个组件各自对应的规则文本,生成所述目标数据清洗任务对应的总规则文本;解析所述总规则文本,得到所述目标数据清洗任务对应的配置信息;将所述目标数据清洗任务对应的配置信息发送给所述执行器;所述执行器根据所述目标数据清洗任务对应的配置信息,调用所述k个组件;通过所述k个组件执行所述目标数据清洗任务。8.根据权利要求7所述的方法,其特征在于,所述数据清洗组件库中包括以下3种类型的组件:输入组件、计算组件和输出组件;其中,所述输入组件用于执行所述数据清洗任务中从数据源读取数据的操作;所述计算组件用于执行所述数据清洗任务中对数据进行清洗和计算的操作,得到数据处理结果;所述输出组件用于执行所述数据清洗任务中输出所述数据处理结果的操作。9.根据权利要求8所述的方法,其特征在于,所述规则解析器从所述数据清洗组件库中选取与目标数据清洗任务相关的k个组件,包括:所述规则解析器从所述输入组件中选取与所述目标数据清洗任务的数据源相匹配的组件;所述规则解析器从所述计算组件中选取与所述目标数据清洗任务的处理和计算逻辑相匹配的组件;所述规则解析器从所述输出组件中选取与所述目...

【专利技术属性】
技术研发人员:曹连超王斌湛然刘喜文周加智祁宏伟
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1