一种面向大数据的ETL方法和装置制造方法及图纸

技术编号:12999977 阅读:84 留言:0更新日期:2016-03-10 12:53
本发明专利技术提供了一种面向大数据的ETL方法和装置,该方法包括:获取参数配置文件;根据参数配置文件对待同步数据进行参数配置;通过ETL方法对参数配置后的数据进行同步。可以实现多种数据源间数据的导入导出功能,以及通过可视化界面的简单配置,实现基于hdfs数据的多种数据转换操作。

【技术实现步骤摘要】

本专利技术涉及ETL
,尤其涉及一种面向大数据的ETL方法和装置
技术介绍
近几年来,互联网高速发展,社交网络逐渐走向成熟,云计算、物联网应用更加丰富,软件和硬件技术不断创新,这些变化使得政府和企业获得比以往任何时期都要多的数据,并且拥有了分析这些海量数据的计算能力和方法。目前,大数据已经成为一种像货币和黄金一样具有很大价值的经济资产,通过分析挖掘这些数据包含的潜在信息,可以推动企业,社会的发展。这些信息蕴含着巨大的商业价值,而对数据挖掘有意义的数据仅占其中的一小部分,因此为避免浪费不必要的时间,需要通过各种技术手段,把数据转换为信息、知识,而ETL (抽取-转换-装载)则是一种重要的技术手段。ETL,是 Extract1n-Transformat1n-Loading 的缩写,即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,它是构建数据仓库的重要环节。ETL是将不同业务系统的数据抽取出来,并将不同数据源的数据进行清洗转换整合后加载到数据仓库中的过程,目的是将分散,标准不一致的数据整合起来,成为联机分析处理,数据挖掘的基础。大数据环境下出现了很多数据处理分析的开源项目,以Hive为代表的基于SQL语言的大数据查询工具;从Google的Dremel系统延伸出的实时查询项目(impala);像PIG,Jaql的类脚本ETL处理工具;架构在Hadoop上的Java Api库(mapreduce算法包)。但这些开源项目的使用都是需要一定的编程基础的而且没有方便的UI界面,对数据分析人员还是不方便使用的。虽然传统ETL工具,如kettle,talend在bigdata领域做了一定的扩展,提供了图形化的拖拽界面,但是学习使用成本高,并且部门组件在大数据环境下执行效率不理想。并且目前业界使用的ETL开源工具,没有可视化的图形界面或者图形界面使用不方便对非技术人员学习使用成本较高。而现有像Sqoop的大数据数据抽取工具,执行脚本冗长,需要操作人员具有一定的使用基础,对操作人员要求较高。另外,对于传统ETL工具,虽然kettle,talend在bigdata领域做了一定的扩展,提供了图形化的拖拽界面,但是学习使用成本高,并且部门组件在大数据环境下执行效率不理想。
技术实现思路
为解决上述问题,本专利技术提出了一种面向大数据的ETL方法和装置。—方面,本专利技术实施例提供了一种面向大数据的ETL方法,包括:获取同步作业的参数配置模板;根据参数配置模板,对同步作业进行作业参数配置;根据作业参数配置,通过ETL方法对待同步数据进行同步与清洗。可选的,所述参数至少包括:参数名、输入路径、输出路径、数据字段范围、数据类型上述中的一种或多种。可选的,所述进行作业参数配置具体为:通过一个或多个能写入参数的配置模板,对待同步数据进行参数配置。可选的,所述待同步数据包括:FTP服务器、大数据平台、传统数据库中的一个或多个。可选的,所述对数据进行同步包括:对FTP服务器与大数据平台之间进行数据同步,传统数据库与大数据平台之间进行数据同步,大数据平台内部之间的数据进行同步。可选的,所述对数据进行同步之前还包括:对同步的数据匹配和过滤,并对匹配和过滤后的数据处理和合并。在另一个方面,本专利技术实施例提供了一种面向大数据的ETL装置,包括:配置文件获取模块,用于获取同步作业的参数配置模板;参数配置模块,用于根据参数配置模板,对同步作业进行作业参数配置;数据同步模块,用于根据作业参数配置,通过ETL方法对待同步数据进行同步。可选的,所述对待同步的数据进行参数配置至少包括:配置数据的输入路径、输出路径、数据字段范围、数据类型中的一种或多种。可选的,所述对数据进行同步包括:对FTP服务器与大数据平台之间进行数据同步,传统数据库与大数据平台之间进行数据同步,大数据平台内部之间的数据进行同步。可选的,该装置还包括:清洗与转换模块,用于在数据同步之前对同步的数据匹配和过滤,并对匹配和过滤后的数据处理和合并。有益效果如下:可以实现多种数据源间数据的导入导出功能;可以通过可视化界面的简单配置,实现基于hdfs数据的多种数据转换操作,并将这些操作封装到一个MapReduce作业中完成;该工具提供多种ETL操作的作业模板,用户只需要在作业提交后输入指定参数即可。【附图说明】下面将参照附图描述本专利技术的具体实施例,其中:图1示出了本专利技术实施例中一种面向大数据的ETL方法的流程示意图;图2示出了本专利技术实施例中参数配置界面示意图;图3示出了本专利技术实施例中数据清洗流程配置界面示意图;图4示出了本专利技术实施例中输入路径配置界面示意图;图5示出了本专利技术实施例中输出路径配置界面示意图;图6示出了本专利技术实施例中多种数据源之间的数据同步示意图;图7示出了本专利技术清洗转换链路示意图;图8示出了本专利技术实施例一种面向大数据的ETL装置的结构示意图;图9示出了本专利技术另一实施例一种面向大数据的ETL装置的结构示意图。【具体实施方式】为了使本专利技术的技术方案及优点更加清楚明白,以下结合附图对本专利技术的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是所有实施例的穷举。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。专利技术人在专利技术过程中注意到:对于传统ETL工具,虽然kettle,talend在bigdata领域做了一定的扩展,提供了图形化的拖拽界面,但是学习使用成本高,并且部门组件在大数据环境下执行效率不理想。另一方面,目前业界使用的ETL开源工具,没有可视化的图形界面或者图形界面使用不方便对非技术人员学习使用成本较高。而现有像Sqoop的大数据抽取工具,执行脚本冗长,需要操作人员具有一定的使用基础,对操作人员要求较高。基于此,本专利技术实施例提出了一种面向大数据的ETL方法和装置,下面进行说明。图1出了本申请实施例中一种面向大数据的ETL方法的流程示意图,如图所示,所述ETL可视方法可以包括如下步骤:步骤101、获取同步作业的参数配置模板;步骤102、根据参数配置模板,对同步作业进行作业参数配置;步骤103、根据作业参数配置,通过ETL方法对待同步数据进行同步与清洗。具体实施中,通常根据待同步数据的同步需求确定一个同步作业,并且为同步作业确定参数配置模板,由参数配置模板对同步作业进行作业参数配置,对于一类的同步数据同步需求通常可以用一个同步作业实现同步。此处同步即ETL中的Extract (抽取),Load (加载),清洗为ETL中的Transform (转换)。待同步的数据可以是各种数据库中的数据,例如可以是数据库hdfs,hive, hbase中的数据。进行数据同步时,首先对数据进行参数配置,具体的,采用图形化用户界面hue提供的参数模板进行配置。通过参数模板参数配置时,参数至少包括数据的输入路径、输出路径、数据字段范围、数据类型中的一种或多种。ETL系统可以将所有待同步数据的提交和管理通过Hue平台实现,Hue平台提供了一个workflow,当用户提交配置需求时,会弹出参数的配置界面,当参数配置完成后,将数据提交到hadoop集群中并由oozie进行管理。如图2所示,参数配置时提供了一个可以直接输入本文档来自技高网
...

【技术保护点】
一种面向大数据的ETL方法,其特征在于,包括:获取同步作业的参数配置模板;根据参数配置模板,对同步作业进行作业参数配置;根据作业参数配置,通过ETL方法对待同步数据进行同步与清洗。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘心光谢莹莹郭庆宋怀明惠润海
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1