一种hive中大小表关联的优化方法技术

技术编号:18525902 阅读:2035 留言:0更新日期:2018-07-25 12:44
本发明专利技术公开了一种hive中大小表关联的优化方法,属于大数据处理技术领域,解决了针对Hive大小表关联时大表存在索引的场景下效率低下的问题;本发明专利技术利用大表的索引特性,降低传输和分析的数据量,进而提升大小表关联分析的效率。

【技术实现步骤摘要】
一种hive中大小表关联的优化方法
本专利技术属于大数据处理

技术介绍
随着数据量的增长和大数据技术的发展,如何快速有效地找出蕴藏在海量数据中的信息成为大数据时代面临的难题,基于分布式技术的多表关联分析(简称多表关联)是业界常用的一种从海量数据中发掘数据价值的手段。在实际应用中多表关联可分为大数据表与大数据表关联分析(简称大大表关联)和大数据表与小数据表关联分析(简称大小表关联),多表关联的效率成为衡量分布式处理框架的一个重要指标。Hadoop是当前大数据处理领域中常用的分布式技术;Hive是一款构建于Hadoop之上的数据仓库工具,对外提供HQL(类SQL)接口,底层借助MapReduce或者Spark分析存储在HDFS上的大规模数据集。此外,Hive也能分析其他存储系统中的数据,例如HBase、RDB、MongoDB等。Hive中大大表关联和大小表关联的底层实现分别对应MapReduce计算框架中的Reduce-sidejoin和Map-sidejoin。Reduce-sidejoin存在以下缺点:需要两个阶段的Task;需要将MapTask的结果进行存储并传输到Red本文档来自技高网...

【技术保护点】
1.一种hive中大小表关联的优化方法,其特征在于:包括如下步骤:步骤1:建立由多个服务器组成的服务器集群,在服务器集群的基础上建立Hadoop框架结构;步骤2:在Hadoop框架结构上搭建hive数据仓库工具,Hive数据仓库工具对外提供HQL接口,Hive数据仓库工具将存储在HDFS或其他存储介质上的大规模数据集映射为数据表,所述数据表根据数据量的大小分为大数据表和小数据表;步骤3:Hive客户端通过Hive数据仓库工具底层借助Mapreduce完成对数据表的分析;步骤4:以MapReduce计算框架作为hive的执行引擎,hive客户端执行多表关联任务触发MapReduce job任务执...

【技术特征摘要】
1.一种hive中大小表关联的优化方法,其特征在于:包括如下步骤:步骤1:建立由多个服务器组成的服务器集群,在服务器集群的基础上建立Hadoop框架结构;步骤2:在Hadoop框架结构上搭建hive数据仓库工具,Hive数据仓库工具对外提供HQL接口,Hive数据仓库工具将存储在HDFS或其他存储介质上的大规模数据集映射为数据表,所述数据表根据数据量的大小分为大数据表和小数据表;步骤3:Hive客户端通过Hive数据仓库工具底层借助Mapreduce完成对数据表的分析;步骤4:以MapReduce计算框架作为hive的执行引擎,hive客户端执行多表关联任务触发MapReducejob任务执行实际的关联任务,所述MapReducejob任务包括数个MapTask,在MapTask中对大数据表和小数据表根据关联字段进行关联分析;步骤5:在执行MapReducejob任务之前,首先判断大小数据表的数据量是否满足要求:是,则执行步骤6;否,则执行步骤10;步骤6:判断大数据表是否含有索引字段:是,则执行步骤7;否,则执行步骤10;步骤7:判断大数据表关联字段是否是索引字段,是,则执行步骤8;否,则执行步骤10;步骤8:MapReduce根据小数据表的数据量和关联字段的特点对小数据表的数据进行分区,生成数个...

【专利技术属性】
技术研发人员:马东周帅锋郑伟鲁光明马全辉卞璐璐穆宁王栋平
申请(专利权)人:南京烽火软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1