一种基于SDD‑1算法的Hive连接查询方法技术

技术编号：10388510 阅读：204 留言：0更新日期：2014-09-05 13:43

本发明专利技术公开了一种基于SDD‑1算法的Hive连接查询方法，采用数据预处理和双半连接两种技术来实现，数据预处理阶段进行数据传输前用投影等一元操作完成对数据的精简，同时还对各节点上进行数据的预排序；双半连接技术是指不仅对行的数据进行缩减，同时对列的数据进行缩减。结果表明，本发明专利技术采用双半连接技术能够大大减少各个节点之间的数据传输量，从而大大减少对带宽资源的消耗；同时采用数据归并排序预处理，可以当元组数达到一定规模后使响应速度加快。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了，采用数据预处理和双半连接两种技术来实现，数据预处理阶段进行数据传输前用投影等一元操作完成对数据的精简，同时还对各节点上进行数据的预排序；双半连接技术是指不仅对行的数据进行缩减，同时对列的数据进行缩减。结果表明，本专利技术采用双半连接技术能够大大减少各个节点之间的数据传输量，从而大大减少对带宽资源的消耗；同时采用数据归并排序预处理，可以当元组数达到一定规模后使响应速度加快。【专利说明】—种基于SDD-1算法的Hive连接查询方法
本专利技术属于计算机信息技术应用领域，具体涉及。
技术介绍
SDD-1算法是一种在传统分布式关系型数据库中广泛应用的查询方法。Hive是一个基于Hadoop文件系统之上的数据仓库架构，实现了类似传统关系数据库的SQL语句查询功能。现有Hive在进行连接查询时采用了排序归并算法，该算法的执行分为Map (数据映射)阶段和Reduce (数据处理)阶段:Map阶段对执行连接的数据库表按照连接属性集中进行排序，Reduce阶段将各个Map阶段生成的分段排序结果进行归并连接，输出查询结果。上述算法存在两个问题=(I)Map阶段产生的大量中间结果数据需要通过网络传输到Reduce端，会消耗大量的带宽；(2)Reduce端需要进行多次归并排序操作，执行时间较长。为了更好了使用Hive进行海量数据的连接查询，需要在实际应用中解决这两个问题。
技术实现思路
本专利技术的目的在于解决Hive在进行连接查询时采用Hive原始连接查询算法所存在的执行时间长和带宽资源消耗大等问题，提供了，以使Hive系统达到响应快和带...
一种<a href="http://www.xjishu.com/zhuanli/55/201410237997.html" title="一种基于SDD‑1算法的Hive连接查询方法原文来自X技术">基于SDD‑1算法的Hive连接查询方法</a>

【技术保护点】
一种基于SDD‑1算法的Hive连接查询方法，其特征在于：包括以下步骤：1）在各个分布节点上执行投影等操作，将所有可执行的一元操作和局部操作构成执行策略集，对原始数据进行精简；2）对上述的执行策略集进行归并排序预处理，将每一属性进行排序，使其各个属性形成一个有序的中间数据序列； 3）在Hadoop中对中间数据序列进行Map处理；4）使用基于行和列的双半连接技术将Map阶段产生的结果传送到Reduce端；5）在Reduce端处理来自Map端比较有序的数据；6）将查询处理的结果返回给客户端。

【技术特征摘要】

【专利技术属性】
技术研发人员：周莲英，吴淑跃，郭远，郑吉，喻志浩，
申请(专利权)人：江苏大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人