Hive分区优化方法技术

技术编号：41554211 阅读：15 留言：0更新日期：2024-06-06 23:40

本发明专利技术涉及数据处理技术领域，尤其涉及一种Hive分区优化方法，包括步骤S1，客户端上传离线同步业务代码到JobManager运行FlowGraph数据流图；步骤S2，JobManager初始化,检查并创建表，避免Task运行过程中连接hive对hive造成压力；步骤S3，TaskManager中离线同步业务代码在内存中根据业务数据生成分区，并将数据写入对应的分区在hdfs上刷写成文件，Task结束后通知JobManager；步骤S4，JobManager收到所有Task结束状态后，开始移动写入的临时业务数据文件到hive表的正式目录，完成后修复hive表的元数据使新增分区通过可以被sql检索到；步骤S5，JobManager通知客户端作业结束。本发明专利技术将使用flink技术实现在内存中对数据进行高效分区，将数据直接写入hdfs文件系统,减少中间处理环节来提升hive分区数据写入的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种hive分区优化方法。

技术介绍

1、大数据时代(dt)，企业数字化建设过程中面对海量数据进行管理时，数据仓库的建设是一个基本的要求,存在于企业数据平台的数据底座最底层,对数据进行分层，分区管理.使用hive对数据进行分层，分区管理时会直接使用hive的sql语句进行管理，传统做法依靠hive自身能力使用mapreduce对数据进行处理分区存储写入到hdfs文件系统中，过程复杂，性能低下。

技术实现思路

1、为此，本专利技术提供一种hive分区优化方法，用以克服现有技术中使用mapreduce对数据进行处理分区存储写入到hdfs文件系统中效率低下的问题。

2、为实现上述目的，本专利技术提供一种hive分区优化方法，包括：

3、步骤s1，客户端上传离线同步业务代码到jobmanager运行flowgraph数据流图；

4、步骤s2，jobmanager初始化,检查并创建表，避免task运行过程中连接hive对hive造成压力；

本文档来自技高网...

【技术保护点】

1.一种Hive分区优化方法，其特征在于，包括：

2.根据权利要求1所述的Hive分区优化方法，其特征在于，所述元数据包括表、分区和字段信息。

3.根据权利要求2所述的Hive分区优化方法，其特征在于，在所述步骤S4中，所有Task结束状态，整个作业结束后再移动临时数据。

4.根据权利要求1所述的Hive分区优化方法，其特征在于，在所述步骤S3中，根据企业的业务需要，对数据进行静态分区和动态分区存储，以生成分区。

5.根据权利要求4所述的Hive分区优化方法，其特征在于，所述分区设置有分区规则，包括：

6.根据权利要求1所述的H...

【技术特征摘要】

1.一种hive分区优化方法，其特征在于，包括：

2.根据权利要求1所述的hive分区优化方法，其特征在于，所述元数据包括表、分区和字段信息。

3.根据权利要求2所述的hive分区优化方法，其特征在于，在所述步骤s4中，所有task结束状态，整个作业结束后再移动临时数据。

4.根据权利要求1所述的hive分区优化方法，其特征在于，在所述步骤s3中，根据企业的业务需要，对数据进行静态分区和动态分区存储，以生成分区。

5.根据权利要求4所述的hive分区优化方法，其特征在于，所述分区设置有分区规则，包括：

6.根据权利要求1所...

【专利技术属性】
技术研发人员：高海玲，高经郡，李永科，
申请(专利权)人：北京科杰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人