Hadoop数据仓库的自动导入数据方法及系统技术方案

技术编号:16175770 阅读:51 留言:0更新日期:2017-09-09 03:00
本发明专利技术公开了一种Hadoop数据仓库的自动导入数据方法,包括:步骤一:搭载Hadoop数据仓库的服务器C预先配置用于从搭载关系型数据库的服务器A中获取数据的数据传输接口;步骤二:搭载作业调度器的服务器B预先配置用于调用所述数据传输接口的调用命令以及执行该调用命令的执行周期;步骤三:服务器B按照执行周期定期执行调用命令;步骤四:服务器C从服务器A中获取数据并生成HDFS文件;步骤五:服务器C将生成的HDFS文件导入至Hive数据仓库中。此外,本发明专利技术还公开了一种Hadoop数据仓库的自动导入数据系统,包括服务器A、服务器B以及服务器C。本发明专利技术解决了现有技术中每次将关系型数据库中的数据传输至Hadoop的数据仓库时需要人工操作的不便之处。

【技术实现步骤摘要】
Hadoop数据仓库的自动导入数据方法及系统
本专利技术涉及了一种Hadoop数据仓库的自动导入数据方法及系统。
技术介绍
随着企业要存储和分析处理的数据量越来越大,Hadoop越来越受到重视,Hadoop是Apache软件基金会的开源项目。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。由于Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,已然成为当前主流的大数据存储和分析平台。目前应用于大数据分析的基础数据通常是保存于如mysql、sqlsever、db2等关系型数据库中,由于对数据分析和处理的需要,需要将这些基础数据进行筛选并导入至Hadoop的Hive数据仓库中,通过Hadoop平台的运算处理能力实现针对大数据的数据分析。Sqoop是一款开源工具,利用Sqoop我们能够在Hadoop生态圈中建立一个供其他服务器调用的接口,通过调用该接口可以实现将关系型数据库中指定的数据导入到Hadoop的HDFS中,Hadoop最终再将这些HDFS文件导入至Hive数据仓库中。由于用于分析的数据经常性会变动,每次进行数据更新时,都需要采用人工敲入代码的方式来调用数据传输接口,面对复杂的传输和处理流程,要求工作人员必须定时定期操作,因此费时费力。
技术实现思路
针对现有技术的不足,本专利技术提供了一种Hadoop数据仓库的自动导入数据方法及系统,解决了现有技术中每次将关系型数据库中的数据传输至Hadoop的数据仓库时需要人工操作的不便之处。为实现上述目的,本专利技术提供了一种Hadoop数据仓库的自动导入数据方法,包括:步骤一:搭载Hadoop数据仓库的服务器C预先配置用于从搭载关系型数据库的服务器A中获取数据的数据传输接口;步骤二:搭载作业调度器的服务器B预先配置用于调用所述数据传输接口的调用命令以及执行该调用命令的执行周期;步骤三:服务器B按照执行周期定期执行调用命令;步骤四:服务器C从服务器A中获取数据并生成HDFS分布式文件系统文件;步骤五:服务器C将生成的HDFS文件导入至Hive数据仓库中。作为本专利技术的进一步改进,所述步骤一具体包括:服务器C预先配置数据传输接口的接口参数,该接口参数包括用于和服务器A建立连接关系的服务器A的数据库地址、数据库用户名和密码、服务器C的主机名以及用户名和密码,以及用于获取指定数据的数据筛选条件、表名以及列名。作为本专利技术的进一步改进,所述步骤三和步骤四之间还包括:步骤A:服务器B监控服务器A中HDFS文件的生成情况;所述步骤四和步骤五之间还包括:步骤B:服务器B在监控到服务器A中HDFS文件生成完毕后向服务器C发送将HDFS数据导入至Hive数据仓库的指令。本专利技术还提供了一种Hadoop数据仓库的自动导入数据系统,包括:服务器A,用于搭载存储基础数据的关系型数据库;服务器B,用于搭载作业调度器,用于预先配置调用所述数据传输接口的调用命令,以及按照执行周期定期执行调用命令;服务器C,用于搭载Hadoop数据仓库,用于预先配置从搭载关系型数据库的服务器A中获取数据的数据传输接口,用于从服务器A中获取数据并生成HDFS文件,以及将生成的HDFS文件导入至Hive数据仓库中。作为本专利技术的进一步改进,所述服务器B包括:调用命令配置模块,用于输入数据传输接口的调用命令;执行周期配置模块,用于配置执行调用指令的执行周期。作为本专利技术的进一步改进,所述服务器C包括:数据传输接口配置模块,用于配置数据传输接口;HDFS文件生成模块,用于将获取的数据转化为HDFS文件;Hive数据仓库导入模块,用于将生成的HDFS文件导入至Hive数据仓库中。作为本专利技术的进一步改进,所述调用命令配置模块包括:接口参数配置单元:用于配置数据传输接口的接口参数,接口参数包括数据筛选条件、服务器A的数据库地址、表名以及列名。作为本专利技术的进一步改进,所述服务器B还包括:HDFS文件监控模块:用于监控服务器C中HDFS文件的生成情况;指令发送模块:用于向服务器C发送将HDFS数据导入至Hive数据仓库的指令。本专利技术的有益效果是:本申请技术方案提供的Hadoop数据仓库的自动导入数据方法及系统,应用于关系型数据库到分布式系统架构中Hive数据仓库的数据导入,实现了关系型数据库的数据能够定时定期地导入至Hadoop的Hive数据仓库中。与传统技术相比,面对复杂的传输和处理流程不需要人工进行操作,节省了工作人员的时间,而且不容易出错。附图说明图1为本专利技术Hadoop数据仓库的自动导入数据方法实施例的流程图;图2为本专利技术Hadoop数据仓库的自动导入数据系统实施例的结构框图;图3为本专利技术Hadoop数据仓库的自动导入数据系统实施例中服务器B的结构框图;图4为本专利技术Hadoop数据仓库的自动导入数据系统实施例中服务器C的结构框图;图5为本专利技术Hadoop数据仓库的自动导入数据系统实施例中调用命令配置模块的结构框图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本专利技术进一步详细说明。本专利技术Hadoop数据仓库的自动导入数据方法的实施例,如图1所示,包括:步骤一100:搭载Hadoop数据仓库的服务器C预先配置用于从搭载关系型数据库的服务器A中获取数据的数据传输接口;步骤二101:搭载作业调度器的服务器B预先配置用于调用所述数据传输接口的调用命令以及执行该调用命令的执行周期;步骤三102:服务器B按照执行周期定期执行调用命令;步骤四103:服务器C从服务器A中获取数据并生成HDFS文件;步骤五104:服务器C将生成的HDFS文件导入至Hive数据仓库中。在本实施例中,所述步骤一具体包括:服务器C预先配置数据传输接口的接口参数,该接口参数包括用于和服务器A建立连接关系的服务器A的数据库地址、数据库用户名和密码、服务器C的主机名以及用户名和密码,以及用于获取指定数据的数据筛选条件、表名以及列名。服务器B通过调用服务器A中预先配置的数据传输接口能够实现服务器A和服务器C之间建立连接关系,并且服务器C从服务器A中获取指定的数据。在本实施例中,所述步骤三102和步骤四103之间还包括:步骤A110:服务器B监控服务器A中HDFS文件的生成情况;服务器C在从服务器A中获取数据时,会生成相应的HDFS文件,服务器B定时通过hadoopfs-get<hdfsfile><localfileordir>语句获取此hdfs文件,以此判断数据获取是否完成。所述步骤四103和步骤五104之间还包括:步骤B120:服务器B在监控到服务器A中HDFS文件生成完毕后向服务器C发送将HDFS数据导入至Hive数据仓库的指令。在此过程中,服务器B向服务器C发送Hive接口的Load指令,服务器C在收到服务器B发送的指令后将HDFS文件导入至Hive数据仓库中。本专利技术Hadoop数据仓库的自动导入数据系统的实施例如图2-5所示,包括:服务器A200,用于搭载存储基础数据的关系型数据库;服务器B210,用于搭载作业调度器,用于预先配置调用所述数据传输接口的调用命令,以及按照执行周期定期执行调用命令;服务器C220,用于搭载Hadoop本文档来自技高网...
Hadoop数据仓库的自动导入数据方法及系统

【技术保护点】
一种Hadoop数据仓库的自动导入数据方法,其特征在于:包括:步骤一:搭载Hadoop数据仓库的服务器C预先配置用于从搭载关系型数据库的服务器A中获取数据的数据传输接口;步骤二:搭载作业调度器的服务器B预先配置用于调用所述数据传输接口的调用命令以及执行该调用命令的执行周期;步骤三:服务器B按照执行周期定期执行调用命令;步骤四:服务器C从服务器A中获取数据并生成HDFS文件;步骤五:服务器C将生成的HDFS文件导入至Hive数据仓库中。

【技术特征摘要】
1.一种Hadoop数据仓库的自动导入数据方法,其特征在于:包括:步骤一:搭载Hadoop数据仓库的服务器C预先配置用于从搭载关系型数据库的服务器A中获取数据的数据传输接口;步骤二:搭载作业调度器的服务器B预先配置用于调用所述数据传输接口的调用命令以及执行该调用命令的执行周期;步骤三:服务器B按照执行周期定期执行调用命令;步骤四:服务器C从服务器A中获取数据并生成HDFS文件;步骤五:服务器C将生成的HDFS文件导入至Hive数据仓库中。2.根据权利要求1中所述的Hadoop数据仓库的自动导入数据方法,其特征在于:所述步骤一具体包括:服务器C预先配置数据传输接口的接口参数,该接口参数包括用于和服务器A建立连接关系的服务器A的数据库地址、数据库用户名和密码、服务器C的主机名以及用户名和密码,以及用于获取指定数据的数据筛选条件、表名以及列名。3.根据权利要求1或2中所述的Hadoop数据仓库的自动导入数据方法,其特征在于:所述步骤三和步骤四之间还包括:步骤A:服务器B监控服务器A中HDFS文件的生成情况;所述步骤四和步骤五之间还包括:步骤B:服务器B在监控到服务器A中HDFS文件生成完毕后向服务器C发送将HDFS数据导入至Hive数据仓库的指令。4.一种Hadoop数据仓库的自动导入数据系统,其特征在于:包括:服务器A,用于搭载存储基础数据的关系型数据库;服务器B,用于搭载作业调度器,...

【专利技术属性】
技术研发人员:王振宇
申请(专利权)人:温州市鹿城区中津先进科技研究院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1