一种使用HIVE备份表进行大数据处理的方法及系统技术方案

技术编号：21628553 阅读：43 留言：0更新日期：2019-07-17 10:58

本发明专利技术公开了一种使用HIVE备份表进行大数据处理的方法及系统，所述方法包括抽取增量数据并都HIVE中；对增量数据进行ETL处理；将经过ETL处理得到的处理数据与增量数据通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行分区备份，并且利用分区字段信息来更新备份表；再下一个抽取周期进行下一轮的增量数据抽取；用户根据分区字段提取所需的数据；所述系统包括数据抽取模块、ETL处理模块、分区备份模块以及数据提取模块，所述数据抽取模块用于从原始数据库中抽取增量数据；所述ETL处理模块用于对增量数据进行ETL处理；所述分区备份模块用于对数据通过分区字段进行分区并存储到备份表中；所述数据提取模块用于根据分区字段提取相应的数据。

A Method and System for Large Data Processing Using HIVE Backup Table

全部详细技术资料下载

【技术实现步骤摘要】
一种使用HIVE备份表进行大数据处理的方法及系统
本专利技术涉及数据处理领域，更具体地，涉及一种使用HIVE备份表进行大数据处理的方法及系统。
技术介绍
随着计算机技术的快速发展，我们已经迈入了信息社会，各种各样的社会行为都被信息化，我们身边充斥着无处不在的各种信息，各类信息更是以爆炸的形式增长着，这便是大数据时代的到来；庞大数据信息中蕴含这巨大的战略意义，而获得这些意义的前提是要对如此庞大的数据进行有效的分析及处理；HIVE是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表,HIVE具有诸多优点，十分适合大数据集的批处理作业，如今对HIVE的研究主要在于使用HIVE对数据进行分区存储的技术，但对HIVE存储后的使用存在还需要改善的空间；在进行基于大数据的基础运算分析时，每次都根据需求在不同的库或日志提取大量数据，尤其是当需求是不断重复导入和计算增量数据的过程时，需要重复的进行复杂的数据提取，这无疑影响了数据计算的效率。
技术实现思路
为了解决
技术介绍
存在的针对增量数据的大数据运算效率低的问题，本专利技术提供了一种使用HIVE备份表进行大数据处理的方法及系统，所述方法及系统每次只抽取增量数据，并将历史数据存储在HIVE表中，在信息重复导入及增量数据计算时，从HIVE表中直接提取数据，节省开发过程不断重复计算的时间；所述一种使用HIVE备份表进行大数据处理的方法包括：步骤1，从基于原始数据库中存储的日志文件中抽取增量数据，并且将所述增量数据导入至HIVE中；步骤2，对所述增量数据进行ETL处理；步骤3，将经过ETL处理得到的处理数据与...

【技术保护点】
1.一种使用HIVE备份表进行大数据处理的方法，所述方法包括：步骤1，从基于原始数据库中存储的日志文件中抽取增量数据，并且将所述增量数据导入至HIVE中；步骤2，对所述增量数据进行ETL处理；步骤3，将经过ETL处理得到的处理数据与增量数据进行分区备份，所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份，并且利用分区字段信息来更新备份表；步骤4，从原始数据库中抽取下一轮的增量数据至HIVE中，所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据，并重复步骤2及步骤3。

【技术特征摘要】
1.一种使用HIVE备份表进行大数据处理的方法，所述方法包括：步骤1，从基于原始数据库中存储的日志文件中抽取增量数据，并且将所述增量数据导入至HIVE中；步骤2，对所述增量数据进行ETL处理；步骤3，将经过ETL处理得到的处理数据与增量数据进行分区备份，所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份，并且利用分区字段信息来更新备份表；步骤4，从原始数据库中抽取下一轮的增量数据至HIVE中，所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据，并重复步骤2及步骤3。2.根据权利要求1所述的方法，其特征在于：所述ETL处理包括将增量数据中的无用数据去掉并填补缺失数据，所述无用数据包括不规则数据以及垃圾数据。3.根据权利要求1所述的方法，其特征在于：所述增量数据按照时间周期进行抽取，所述抽取增量数据的周期是固定或不固定的。4.根据权利要求1所述的方法，其特征在于：所述增量数据按照时间周期进行抽取，所述抽取增量数据的周期依据用户需求确定。5.根据权利要求1所述的方法，其特征在于：所述备份表包括多次抽取分区备份的多个分区字段；所述分区字段包括日期。6.根据权利要求1所述的方法，其特...

【专利技术属性】
技术研发人员：陈益梦，范钢，潘竞旭，田宜喜，谢宇，张玉魁，陈荣兴，
申请(专利权)人：航天信息股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人