数据处理引擎制造技术

技术编号:15542701 阅读:64 留言:0更新日期:2017-06-05 11:32
本发明专利技术提供一种数据处理引擎,其根据大数据处理的特点在规则配置模块中设置可视化界面供用户填写配置参数,并根据预设的编译规则自动将用户填写的规则配置参数编译成配置程序或提供可视化界面解析用户填写的SQL语句获取规则配置参数,再将规则配置参数编译成配置程序,根据配置程序智能选择数据处理工具并编译该数据处理工具可识别的执行程序进行数据处理,能够以统一的配置根据用户需求智能选择数据处理工具,自动完成数据处理,简化用户操作,降低数据处理难度,提升数据处理效率。

Data processing engine

The invention provides a data processing engine, according to the characteristics of big data in the rule set in the visual interface configuration module for users to fill in the configuration parameters, and according to the rules of the rules will automatically compile default configuration parameters for users to fill in the configuration program compiled into SQL statements or provide a visual interface for users to fill out the analytical rule configuration parameters then, compile the rules configuration parameters into the configuration program, according to the configuration selection program of intelligent data processing tools and compile the implementation procedure of the data processing tools can be identified for data processing, can be unified configuration according to user needs intelligent data processing tools, automatic data processing, simplify user operation, reduce the difficulty of data processing, improve data treatment efficiency.

【技术实现步骤摘要】
数据处理引擎
本专利技术涉及大数据
,尤其涉及一种数据处理引擎。
技术介绍
信息科技经过60多年的发展,已渗透到各行业的方方面面。政治、经济活动中很大一部分的活动都与数据的创造、采集、传输和使用相关,随着网络应用日益深化,大数据应用的影响日益扩大。根据机构测算,全世界数据总量以每两年翻一番的速度递增。换句话说,最近两年产生的数据总量相当于人类有史以来所有数据量的总和。在这个背景下,从公司战略到产业生态,从学术研究到生产实践,从城镇管理乃至国家治理,都将发生本质的变化。大数据指的是大小超出常规的数据工具获取、存储、管理和分析能力的数据集,并不是说一定要超过特定TB值得数据集才能算是大数据。国际数据公司(IDC)从四个特征定义大数据,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。大数据几乎渗透到国民经济的所有部门,应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究等。如今开源大数据技术已经成熟,凭借其低成本和高扩展性的特点,推动了很多企业的数据汇聚、加工向大数据集群处理模式的转变。在大数据时代,数据资产化和价值化成为企业的核心竞争力,如何完成对爆发式增长的数据的处理成为企业实际的问题,目前,大数据平台下的数据处理分为批处理技术和实时处理技术,批处理工具包含Mapreduce、hive、spark以及衍生出来的impla、pig、和tez等技术,实时处理工具包括strom、和spark-staream以及相关配套的技术redis、kafka、和hbase等,如此多的工具就是为了满足在大数据环境下的数据处理。每个工具都有自己单独的任务提交与管理方式,并且往往主要针对特定应用场景,而现实中大数据处理一般都是混合型场景,因此进行大数据处理时往往会部署多种大数据处理工具,技术人员需要学习数据处理工具实在太多太杂,学习难度极高,大数据人才及其难得,对于企业人力成本也是不可承受之重,阻碍了大数据平台的普及,影响了行业发展。
技术实现思路
本专利技术的目的在于提供一种数据处理引擎,能够以统一的配置根据用户需求智能选择数据处理工具,自动完成数据处理,简化用户操作,降低数据处理难度,提升数据处理效率。为实现上述目的,本专利技术提供了一种数据处理引擎,包括:规则配置模块、与所述规则配置模块关联的规则库、与所述规则库关联的规则处理模块、与所述规则处理模块关联的规则编译模块、与所述规则编译模块关联的程序管理器、与所述程序管理器关联的执行模块、与所述执行模块关联的若干大数据平台;所述执行模块中设有多种数据处理工具;所述规则配置模块用于提供可视化界面供用户填写数据处理的规则配置参数或SQL语句,并根据预设的编译规则自动将用户填写的规则配置参数编译成配置程序或解析用户填写的SQL语句获取规则配置参数,再将规则配置参数编译成配置程序,并将配置程序写入规则库;所述规则库用于保存配置程序;所述规则处理模块用于从规则库加载配置程序,并根据预设的验证项验证配置程序的是否可执行,若配置程序可执行,则将配置程序发送到规则编译模块,若配置程序不可执行,则提示不可执行以及不可执行的原因;所述规则编译模块接收配置程序,并根据配置程序选定数据处理工具,同时将配置程序编译成选定的数据处理工具能够识别的一个或多个执行程序,并发送到程序管理器;所述程序管理器用于根据各个执行程序的关系确定各个执行程序的执行顺序,并依次发送到执行模块;所述执行模块用于接收执行程序,并将执行程序提交到该数据处理工具对应的大数据平台进行数据处理;所述大数据平台用于根据执行程序进行数据处理。所述数据处理工具包括:Hive、MYSQL、ORACLE、MAPREDUCE、PIG、SPARK、以及实时流数据处理工具。所述执行模块还用于与大数据平台进行交互,实时监控数据处理的执行进度。所述执行模块还用于停止大数据平台中正在执行的数据处理任务。当选定的数据处理工具为Hive时,所述规则编译模块将配置程序封装为Hive可识别的SQL语句;当选定的数据处理工具为MYSQL时,所述规则编译模块将配置程序封装为MYSQL可识别的MYSQL-SQL脚本;当选定的数据处理工具为ORACLE时,所述规则编译模块将配置程序封装为ORACLE可识别的ORACLE-SQL脚本;当选定的数据处理工具为MAPREDUCE时,所述规则编译模块依据配置程序识别规则,用代码生成器生成相应的模板代码;当选定的数据处理工具为PIG时,所述规则编译模块依据配置程序识别规则,用代码生成器生成相应的PIG脚本;当选定的数据处理工具为SPARK时,所述规则编译模块将配置程序将规则封装为SPARKDATAFRAME代码以及SPARK-SQL脚本当选定的数据处理工具为实时流数据处理工具时,所述规则编译模块依据配置程序识别规则,生成实时流数据处理工具相应的配置。所述规则配置参数包括:数据来源、数据连接条件、数据过滤条件、聚合条件、数据清理条件、以及字段映射配置。所述字段映射配置包括:字段来源模型、来源字段、映射规则、分区规则及字段属性。所述验证项包括:对数据连接条件、数据过滤条件、聚合条件、字段映射配置、以及数据清理条件分别进行语法验证,判断其表达式中函数对应数据处理工具是否存在以及该表达式是否符合对应数据处理工具的语法。所述控制中心解析用户填写的SQL语句获取规则配置参数的具体过程为:控制中心根据预设的判定规则判定SQL语句的复杂程度,若SQL语句为复杂语句则将其拆分为多个子程序,再解析各个子程序获取规则配置参数,若SQL语句为非复杂语句则直接解析该SQL语句获取规则配置参数。本专利技术的有益效果:本专利技术提供一种数据处理引擎,包括:规则配置模块、与所述规则配置模块关联的规则库、与所述规则库关联的规则处理模块、与所述规则处理模块关联的规则编译模块、与所述规则编译模块关联的程序管理器、与所述程序管理器关联的执行模块、与所述执行模块关联的大数据平台,其根据大数据处理的特点在规则配置模块中设置可视化界面供用户填写配置参数,并根据预设的编译规则自动将用户填写的规则配置参数编译成配置程序或提供可视化界面解析用户填写的SQL语句获取规则配置参数,再将规则配置参数编译成配置程序,根据配置程序智能选择数据处理工具并编译该数据处理工具可识别的执行程序进行数据处理,能够以统一的配置根据用户需求智能选择数据处理工具,自动完成数据处理,简化用户操作,降低数据处理难度,提升数据处理效率。附图说明为了能更进一步了解本专利技术的特征以及
技术实现思路
,请参阅以下有关本专利技术的详细说明与附图,然而附图仅提供参考与说明用,并非用来对本专利技术加以限制。附图中,图1为本专利技术的数据处理引擎的结构图。具体实施方式为更进一步阐述本专利技术所采取的技术手段及其效果,以下结合本专利技术的优选实施例及其附图进行详细描述。请参阅图1,本专利技术提供一种数据处理引擎,包括:规则配置模块1、与所述规则配置模块1关联的规则库2、与所述规则库2关联的规则处理模块3、与所述规则处理模块3关联的规则编译模块4、与所述规则编译模块4关联的程序管理器5、与所述程序管理器5关联的执行模块6、与所述执行模块6关联的若干大数据平本文档来自技高网
...
数据处理引擎

【技术保护点】
一种数据处理引擎,其特征在于,包括:规则配置模块(1)、与所述规则配置模块(1)关联的规则库(2)、与所述规则库(2)关联的规则处理模块(3)、与所述规则处理模块(3)关联的规则编译模块(4)、与所述规则编译模块(4)关联的程序管理器(5)、与所述程序管理器(5)关联的执行模块(6)、以及与所述执行模块(6)关联的大数据平台(7);所述执行模块(6)中设有多种数据处理工具;所述规则配置模块(1)用于提供可视化界面供用户填写数据处理的规则配置参数或SQL语句,并根据预设的编译规则自动将用户填写的规则配置参数编译成配置程序或解析用户填写的SQL语句获取规则配置参数,再将规则配置参数编译成配置程序,并将配置程序写入规则库(2);所述规则库(2)用于保存配置程序;所述规则处理模块(3)用于从规则库(2)加载配置程序,并根据预设的验证项验证配置程序的是否可执行,若配置程序可执行,则将配置程序发送到规则编译模块(4),若配置程序不可执行,则提示不可执行以及不可执行的原因;所述规则编译模块(4)接收配置程序,并根据配置程序选定数据处理工具,同时将配置程序编译成选定的数据处理工具能够识别的一个或多个执行程序,并发送到程序管理器(5);所述程序管理器(5)用于根据各个执行程序的关系确定各个执行程序的执行顺序,并依次发送到执行模块(6);所述执行模块(6)用于接收执行程序,并将执行程序提交到该数据处理工具对应的大数据平台(7)进行数据处理;所述大数据平台(7)用于根据执行程序进行数据处理。...

【技术特征摘要】
1.一种数据处理引擎,其特征在于,包括:规则配置模块(1)、与所述规则配置模块(1)关联的规则库(2)、与所述规则库(2)关联的规则处理模块(3)、与所述规则处理模块(3)关联的规则编译模块(4)、与所述规则编译模块(4)关联的程序管理器(5)、与所述程序管理器(5)关联的执行模块(6)、以及与所述执行模块(6)关联的大数据平台(7);所述执行模块(6)中设有多种数据处理工具;所述规则配置模块(1)用于提供可视化界面供用户填写数据处理的规则配置参数或SQL语句,并根据预设的编译规则自动将用户填写的规则配置参数编译成配置程序或解析用户填写的SQL语句获取规则配置参数,再将规则配置参数编译成配置程序,并将配置程序写入规则库(2);所述规则库(2)用于保存配置程序;所述规则处理模块(3)用于从规则库(2)加载配置程序,并根据预设的验证项验证配置程序的是否可执行,若配置程序可执行,则将配置程序发送到规则编译模块(4),若配置程序不可执行,则提示不可执行以及不可执行的原因;所述规则编译模块(4)接收配置程序,并根据配置程序选定数据处理工具,同时将配置程序编译成选定的数据处理工具能够识别的一个或多个执行程序,并发送到程序管理器(5);所述程序管理器(5)用于根据各个执行程序的关系确定各个执行程序的执行顺序,并依次发送到执行模块(6);所述执行模块(6)用于接收执行程序,并将执行程序提交到该数据处理工具对应的大数据平台(7)进行数据处理;所述大数据平台(7)用于根据执行程序进行数据处理。2.如权利要求1所述的数据处理引擎,其特征在于,所述数据处理工具包括:Hive、MYSQL、ORACLE、MAPREDUCE、PIG、SPARK、以及实时流数据处理工具。3.如权利要求1所述的数据处理引擎,其特征在于,所述执行模块(6)还用于与大数据平台(7)进行交互,实时监控数据处理的执行进度。4.如权利要求1所述的数据处理引擎,其特征在于,所述执行模块(6)还用于停止大数据平台(7)中正在执行的数据处理任务。...

【专利技术属性】
技术研发人员:谭红涛王志安张伟田海均吴建刘光榕
申请(专利权)人:深圳天源迪科信息技术股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1