【技术实现步骤摘要】
Hive数据仓库的数据处理方法及装置
[0001]本专利技术涉及大数据
,尤其涉及一种Hive数据仓库的数据处理方法及装置。
技术介绍
[0002]大数据环境下,对于应用程序的性能测试往往都需要百万级别、千万级别甚至上亿级别的数据量进行测试。且大数据环境下的应用程序的开发,都需要考虑应用的并行度,执行效率等基本性能问题。然而有时候因为上游系统,或者历史存量数据中存在大数据文件,几G甚至几十G的文件;在大数据框架下,这些大文件将会导致程序运行的并行度降低,程序执行效率低下,大数据框架的特性无法真正体现;除此之外单个文件过大也会导致资源消耗过高,在资源不是特别充足的条件下,还会导致程序执行失败。
[0003]因而,Spark和Hadoop大数据生态中的应用性能会要求,存储于Hive表和Hadoop中的数据文件大小最好是128M,故大文件无法直接被存储,而需要使用程序对文件内容逐行按顺序读取为一个个小的可被存储的文件,但这样的操作复杂,非常浪费开发测试过程的时间;且逐行读取文件内容,很容易出现数据丢失和数据重复的问题 ...
【技术保护点】
【技术特征摘要】
1.一种Hive数据仓库的数据处理方法,其特征在于,包括:确定待存储数据存入Hive数据仓库时的Hive正式表的信息;根据所述Hive正式表的信息,建立与所述Hive正式表表结构相同且名称不同的临时中间表;将待存储数据导入临时中间表中,从临时中间表中将数据读取到Hadoop分布式文件系统中;将Hadoop分布式文件系统中每个弹性分布式数据集RDD的最小单元中的文件,依次写入Hive正式表中。2.如权利要求1所述的Hive数据仓库的数据处理方法,其特征在于,所述Hive正式表的信息,包括:表名、字段名、字段类型、数据量、分区信息、存储结构和文件存储格式。3.如权利要求1所述的Hive数据仓库的数据处理方法,其特征在于,从临时中间表中将数据读取到Hadoop分布式文件系统中,包括:利用Spark sql配置分布式集群可利用的最大资源,将数据从临时中间表读取到Hadoop分布式文件系统中。4.如权利要求1所述的Hive数据仓库的数据处理方法,其特征在于,还包括:确定待存储数据的文件大小,判断待存储数据的文件大小是否超出预设文件规格;确定待存储数据存入Hive数据仓库时的Hive正式表的信息,包括:待存储数据的文件大小超出预设文件规格时,确定待存储数据存入Hive数据仓库时的Hive正式表的信息。5.一种Hive数据仓库的数据处理装置,其特征在于,包括:正式表信息确定模块,用于确定待存储数据存入Hive数据仓库时的Hive正式表的信息;中间表构建模块,用于根据所述...
【专利技术属性】
技术研发人员:朱阿龙,田林,张亚泽,何聪聪,豆敏娟,刘琦,张靖羚,石慧彪,刘宇琦,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。