一种使用HIVE备份表进行大数据处理的方法及系统技术方案

技术编号:21628553 阅读:43 留言:0更新日期:2019-07-17 10:58
本发明专利技术公开了一种使用HIVE备份表进行大数据处理的方法及系统,所述方法包括抽取增量数据并都HIVE中;对增量数据进行ETL处理;将经过ETL处理得到的处理数据与增量数据通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行分区备份,并且利用分区字段信息来更新备份表;再下一个抽取周期进行下一轮的增量数据抽取;用户根据分区字段提取所需的数据;所述系统包括数据抽取模块、ETL处理模块、分区备份模块以及数据提取模块,所述数据抽取模块用于从原始数据库中抽取增量数据;所述ETL处理模块用于对增量数据进行ETL处理;所述分区备份模块用于对数据通过分区字段进行分区并存储到备份表中;所述数据提取模块用于根据分区字段提取相应的数据。

A Method and System for Large Data Processing Using HIVE Backup Table

【技术实现步骤摘要】
一种使用HIVE备份表进行大数据处理的方法及系统
本专利技术涉及数据处理领域,更具体地,涉及一种使用HIVE备份表进行大数据处理的方法及系统。
技术介绍
随着计算机技术的快速发展,我们已经迈入了信息社会,各种各样的社会行为都被信息化,我们身边充斥着无处不在的各种信息,各类信息更是以爆炸的形式增长着,这便是大数据时代的到来;庞大数据信息中蕴含这巨大的战略意义,而获得这些意义的前提是要对如此庞大的数据进行有效的分析及处理;HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,HIVE具有诸多优点,十分适合大数据集的批处理作业,如今对HIVE的研究主要在于使用HIVE对数据进行分区存储的技术,但对HIVE存储后的使用存在还需要改善的空间;在进行基于大数据的基础运算分析时,每次都根据需求在不同的库或日志提取大量数据,尤其是当需求是不断重复导入和计算增量数据的过程时,需要重复的进行复杂的数据提取,这无疑影响了数据计算的效率。
技术实现思路
为了解决
技术介绍
存在的针对增量数据的大数据运算效率低的问题,本专利技术提供了一种使用HIVE备份表进行大数据处理的方法及系统,所述方法及系统每次只抽取增量数据,并将历史数据存储在HIVE表中,在信息重复导入及增量数据计算时,从HIVE表中直接提取数据,节省开发过程不断重复计算的时间;所述一种使用HIVE备份表进行大数据处理的方法包括:步骤1,从基于原始数据库中存储的日志文件中抽取增量数据,并且将所述增量数据导入至HIVE中;步骤2,对所述增量数据进行ETL处理;步骤3,将经过ETL处理得到的处理数据与增量数据进行分区备份,所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份,并且利用分区字段信息来更新备份表;步骤4,从原始数据库中抽取下一轮的增量数据至HIVE中,所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据,并重复步骤2及步骤3;进一步的,所述ETL处理包括将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据;进一步的,所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期是固定或不固定的;进一步的,所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期依据用户需求确定;进一步的,所述备份表包括多次抽取分区备份的多个分区字段;所述分区字段包括日期;进一步的,根据业务需求在备份表中使用Spark通过分区字段查找并提取相应文件夹中的数据;所述一种使用HIVE备份表进行大数据处理的系统包括:数据抽取模块,所述数据抽取模块用于从原始数据库中抽取增量数据,并将增量数据发送至ETL处理模块以及分区备份模块;ETL处理模块,所述ETL处理模块用于对增量数据进行ETL处理,并将处理得到的处理数据发送至分区备份模块;分区备份模块,所述分区备份模块用于对增量数据以及处理数据通过分区字段进行分区并备份存储到备份表中;数据提取模块,所述数据提取模块根据业务需求指令对应的分区字段在分区备份模块中提取相应的数据;进一步的,所述ETL处理模块将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据;进一步的,所述数据抽取模块按照时间周期抽取增量数据,所述抽取增量数据的周期是固定或不固定的;进一步的,所述分区备份模块通过分区字段进行分区是指将对应数据存储到文件夹名称包括分区字段的文件夹中;进一步的,所述分区字段包括日期。本专利技术的有益效果为:本专利技术的技术方案,给出了一种使用HIVE备份表进行大数据处理的方法及系统,所述方法及系统每次只抽取增量数据,并将历史数据存储在HIVE表中,在根据增量数据计算数据变化趋势等重复信息计算时,只需从HIVE表中直接提取数据,大量的节省了开发过程中不断重复计算的时间,提高了针对增量数据的大数据运算效率。附图说明通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:图1为本专利技术具体实施方式的一种使用HIVE备份表进行大数据处理的方法的流程图;图2为本专利技术具体实施方式的一种使用HIVE备份表进行大数据处理的系统的结构图。具体实施方式现在参考附图介绍本专利技术的示例性实施方式,然而,本专利技术可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本专利技术,并且向所属
的技术人员充分传达本专利技术的范围。对于表示在附图中的示例性实施方式中的术语并不是对本专利技术的限定。在附图中,相同的单元/元件使用相同的附图标记。除非另有说明,此处使用的术语(包括科技术语)对所属
的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。图1为本专利技术具体实施方式的一种使用HIVE备份表进行大数据处理的方法的流程图;所述方法将增量数据通过ETL处理后通过分区字段进行分区备份,再根据业务需求通过分区字段查找并提取相应数据;所述一种使用HIVE备份表进行大数据处理的方法包括:步骤101,从基于原始数据库中存储的日志文件中抽取增量数据,并且将所述增量数据导入至HIVE中;所述增量数据是指所述原始数据库中上一次抽取数据后至本次抽取数据之间新增的数据;将所述增量数据导入HIVE中的一个表里;所述每一个表在HIVE中都有一个相应的目录存储数据。进一步的,所述增量数据按照时间周期进行抽取,所述增量数据抽取的时间周期可以是固定的;如一个月、一个星期、一天、一小时或者一分钟;所述增量数据抽取的时间周期也可以是依据用户的需求随时抽取;进一步的,所述增量数据按照数据量进行抽取,当增量数据达到预设的数据量阈值时,进行增量数据的抽取;所述预设的数据量阈值根据用户需求确定;同时,所述增量数据也可根据用户的需求随时抽取;步骤102,对所述增量数据进行ETL处理;所述ETL处理是指通过对数据的抽取、清洗、转化、集成以及装载的过程,所述数据清洗是指发现并纠正数据中可识别的错误,在本实施例中,所述清洗包括包括将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据;数据通过清洗后,进行转化和集成,通过预先定义好的适用于HIVE的数据仓库模型,将处理后的数据加载到HIVE中去;步骤103,将经过ETL处理得到的处理数据与增量数据进行分区备份,所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份,并且利用分区字段信息来更新备份表;进一步的,所述备份表包括多次抽取分区备份的多个分区字段;所述分区字段包括日期;步骤104,从原始数据库中抽取下一轮的增量数据至HIVE中,所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据,并重复步骤2及步骤3;所述从原始数据库中抽取下一轮增量数据是指达到下一个抽取周期时进行抽取;进一步的,根据业务需求在备份表中使用Spark通过分区字段查找并提取相应文件夹中的数据;以节省开发过程中不断重复计算的世界,提高了针对增量数据的大数据运算效率。图2为本专利技术具体实施方式的一种使用HIVE备份表进行大数据处理的系统的结构图。所述系统按周期抽取增量数据,使用ETL处理模块进行ETL处理后存入HIVE备本文档来自技高网
...

【技术保护点】
1.一种使用HIVE备份表进行大数据处理的方法,所述方法包括:步骤1,从基于原始数据库中存储的日志文件中抽取增量数据,并且将所述增量数据导入至HIVE中;步骤2,对所述增量数据进行ETL处理;步骤3,将经过ETL处理得到的处理数据与增量数据进行分区备份,所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份,并且利用分区字段信息来更新备份表;步骤4,从原始数据库中抽取下一轮的增量数据至HIVE中,所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据,并重复步骤2及步骤3。

【技术特征摘要】
1.一种使用HIVE备份表进行大数据处理的方法,所述方法包括:步骤1,从基于原始数据库中存储的日志文件中抽取增量数据,并且将所述增量数据导入至HIVE中;步骤2,对所述增量数据进行ETL处理;步骤3,将经过ETL处理得到的处理数据与增量数据进行分区备份,所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份,并且利用分区字段信息来更新备份表;步骤4,从原始数据库中抽取下一轮的增量数据至HIVE中,所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据,并重复步骤2及步骤3。2.根据权利要求1所述的方法,其特征在于:所述ETL处理包括将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据。3.根据权利要求1所述的方法,其特征在于:所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期是固定或不固定的。4.根据权利要求1所述的方法,其特征在于:所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期依据用户需求确定。5.根据权利要求1所述的方法,其特征在于:所述备份表包括多次抽取分区备份的多个分区字段;所述分区字段包括日期。6.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:陈益梦范钢潘竞旭田宜喜谢宇张玉魁陈荣兴
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1