Hive分区优化方法技术

技术编号:41554211 阅读:15 留言:0更新日期:2024-06-06 23:40
本发明专利技术涉及数据处理技术领域,尤其涉及一种Hive分区优化方法,包括步骤S1,客户端上传离线同步业务代码到JobManager运行FlowGraph数据流图;步骤S2,JobManager初始化,检查并创建表,避免Task运行过程中连接hive对hive造成压力;步骤S3,TaskManager中离线同步业务代码在内存中根据业务数据生成分区,并将数据写入对应的分区在hdfs上刷写成文件,Task结束后通知JobManager;步骤S4,JobManager收到所有Task结束状态后,开始移动写入的临时业务数据文件到hive表的正式目录,完成后修复hive表的元数据使新增分区通过可以被sql检索到;步骤S5,JobManager通知客户端作业结束。本发明专利技术将使用flink技术实现在内存中对数据进行高效分区,将数据直接写入hdfs文件系统,减少中间处理环节来提升hive分区数据写入的能力。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种hive分区优化方法。


技术介绍

1、大数据时代(dt),企业数字化建设过程中面对海量数据进行管理时,数据仓库的建设是一个基本的要求,存在于企业数据平台的数据底座最底层,对数据进行分层,分区管理.使用hive对数据进行分层,分区管理时会直接使用hive的sql语句进行管理,传统做法依靠hive自身能力使用mapreduce对数据进行处理分区存储写入到hdfs文件系统中,过程复杂,性能低下。


技术实现思路

1、为此,本专利技术提供一种hive分区优化方法,用以克服现有技术中使用mapreduce对数据进行处理分区存储写入到hdfs文件系统中效率低下的问题。

2、为实现上述目的,本专利技术提供一种hive分区优化方法,包括:

3、步骤s1,客户端上传离线同步业务代码到jobmanager运行flowgraph数据流图;

4、步骤s2,jobmanager初始化,检查并创建表,避免task运行过程中连接hive对hive造成压力;

本文档来自技高网...

【技术保护点】

1.一种Hive分区优化方法,其特征在于,包括:

2.根据权利要求1所述的Hive分区优化方法,其特征在于,所述元数据包括表、分区和字段信息。

3.根据权利要求2所述的Hive分区优化方法,其特征在于,在所述步骤S4中,所有Task结束状态,整个作业结束后再移动临时数据。

4.根据权利要求1所述的Hive分区优化方法,其特征在于,在所述步骤S3中,根据企业的业务需要,对数据进行静态分区和动态分区存储,以生成分区。

5.根据权利要求4所述的Hive分区优化方法,其特征在于,所述分区设置有分区规则,包括:

6.根据权利要求1所述的H...

【技术特征摘要】

1.一种hive分区优化方法,其特征在于,包括:

2.根据权利要求1所述的hive分区优化方法,其特征在于,所述元数据包括表、分区和字段信息。

3.根据权利要求2所述的hive分区优化方法,其特征在于,在所述步骤s4中,所有task结束状态,整个作业结束后再移动临时数据。

4.根据权利要求1所述的hive分区优化方法,其特征在于,在所述步骤s3中,根据企业的业务需要,对数据进行静态分区和动态分区存储,以生成分区。

5.根据权利要求4所述的hive分区优化方法,其特征在于,所述分区设置有分区规则,包括:

6.根据权利要求1所...

【专利技术属性】
技术研发人员:高海玲高经郡李永科
申请(专利权)人:北京科杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1