【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种hive分区优化方法。
技术介绍
1、大数据时代(dt),企业数字化建设过程中面对海量数据进行管理时,数据仓库的建设是一个基本的要求,存在于企业数据平台的数据底座最底层,对数据进行分层,分区管理.使用hive对数据进行分层,分区管理时会直接使用hive的sql语句进行管理,传统做法依靠hive自身能力使用mapreduce对数据进行处理分区存储写入到hdfs文件系统中,过程复杂,性能低下。
技术实现思路
1、为此,本专利技术提供一种hive分区优化方法,用以克服现有技术中使用mapreduce对数据进行处理分区存储写入到hdfs文件系统中效率低下的问题。
2、为实现上述目的,本专利技术提供一种hive分区优化方法,包括:
3、步骤s1,客户端上传离线同步业务代码到jobmanager运行flowgraph数据流图;
4、步骤s2,jobmanager初始化,检查并创建表,避免task运行过程中连接hive对hive造成
本文档来自技高网...
【技术保护点】
1.一种Hive分区优化方法,其特征在于,包括:
2.根据权利要求1所述的Hive分区优化方法,其特征在于,所述元数据包括表、分区和字段信息。
3.根据权利要求2所述的Hive分区优化方法,其特征在于,在所述步骤S4中,所有Task结束状态,整个作业结束后再移动临时数据。
4.根据权利要求1所述的Hive分区优化方法,其特征在于,在所述步骤S3中,根据企业的业务需要,对数据进行静态分区和动态分区存储,以生成分区。
5.根据权利要求4所述的Hive分区优化方法,其特征在于,所述分区设置有分区规则,包括:
6.根
...【技术特征摘要】
1.一种hive分区优化方法,其特征在于,包括:
2.根据权利要求1所述的hive分区优化方法,其特征在于,所述元数据包括表、分区和字段信息。
3.根据权利要求2所述的hive分区优化方法,其特征在于,在所述步骤s4中,所有task结束状态,整个作业结束后再移动临时数据。
4.根据权利要求1所述的hive分区优化方法,其特征在于,在所述步骤s3中,根据企业的业务需要,对数据进行静态分区和动态分区存储,以生成分区。
5.根据权利要求4所述的hive分区优化方法,其特征在于,所述分区设置有分区规则,包括:
6.根据权利要求1所...
【专利技术属性】
技术研发人员:高海玲,高经郡,李永科,
申请(专利权)人:北京科杰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。