一种面向大数据的ETL方法和装置制造方法及图纸

技术编号：12999977 阅读：84 留言：0更新日期：2016-03-10 12:53

本发明专利技术提供了一种面向大数据的ETL方法和装置，该方法包括：获取参数配置文件；根据参数配置文件对待同步数据进行参数配置；通过ETL方法对参数配置后的数据进行同步。可以实现多种数据源间数据的导入导出功能，以及通过可视化界面的简单配置，实现基于hdfs数据的多种数据转换操作。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及ETL
，尤其涉及一种面向大数据的ETL方法和装置。
技术介绍
近几年来，互联网高速发展，社交网络逐渐走向成熟，云计算、物联网应用更加丰富，软件和硬件技术不断创新，这些变化使得政府和企业获得比以往任何时期都要多的数据，并且拥有了分析这些海量数据的计算能力和方法。目前，大数据已经成为一种像货币和黄金一样具有很大价值的经济资产，通过分析挖掘这些数据包含的潜在信息，可以推动企业，社会的发展。这些信息蕴含着巨大的商业价值，而对数据挖掘有意义的数据仅占其中的一小部分，因此为避免浪费不必要的时间，需要通过各种技术手段，把数据转换为信息、知识，而ETL (抽取-转换-装载)则是一种重要的技术手段。ETL，是 Extract1n-Transformat1n-Loading 的缩写，即数据抽取(Extract)、转换(Transform)、装载(Load)的过程，它是构建数据仓库的重要环节。ETL是将不同业务系统的数据抽取出来，并将不同数据源的数据进行清洗转换整合后加载到数据仓库中的过程，目的是将分散，标准不一致的数据整合起来，成为联机分析处理，数据挖掘的基础。大数据环境下出现了很多数据处理分析的开源项目，以Hive为代表的基于SQL语言的大数据查询工具；从Google的Dremel系统延伸出的实时查询项目(impala);像PIG，Jaql的类脚本ETL处理工具；架构在Hadoop上的Java Api库(mapreduce算法包)。但这些开源项目的使用都是需要一定的编程基础的而且没有方便的UI界面，对数据分析人员还是不方便使用的。虽然传统ET...

【技术保护点】
一种面向大数据的ETL方法，其特征在于，包括：获取同步作业的参数配置模板；根据参数配置模板，对同步作业进行作业参数配置；根据作业参数配置，通过ETL方法对待同步数据进行同步与清洗。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘心光，谢莹莹，郭庆，宋怀明，惠润海，
申请(专利权)人：曙光信息产业北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人