基于HDFS的迭代式回溯算法的负载均衡与计算本地化方法技术

技术编号：11015165 阅读：127 留言：0更新日期：2015-02-06 00:22

本发明专利技术涉及基于HDFS的迭代式回溯算法的负载均衡与计算本地化方法，包括：S1：Planner读取所有数据分析引擎系统中全部存活节点的IP地址和负载状态；S2：Planner从名称节点上读取表的所有数据包的分布信息；S3：通过Planner读取的所有数据分析引擎系统中全部存活节点的IP地址和负载状态以及从名称节点上读取表的所有数据包的分布信息利用迭代式回溯算法实现负载均衡。本发明专利技术通过产生的Planner在尽力保证计算本地化的基础上，能够快速、高效的实现负载均衡。

全部详细技术资料下载

【技术实现步骤摘要】
基于HDFS的迭代式回溯算法的负载均衡与计算本地化方法
本专利技术涉及计算机分布式数据库
，尤其涉及基于HDFS的迭代式回溯算法的负载均衡与计算本地化方法。
技术介绍
目前，大部分数据分析引擎是通过搬动HDFS文件来实现负载均衡，即改变HDFS文件的物理位置，例如，从Data Node A (数据节点A)搬到Data Node B (数据节点B)，本专利技术人还没有发现在数据运行时实现负载均衡方面的相关研究。Map Reduce模型的不足是分配任务方式存在一些不必要的远程读取，影响查询或者存储数据的性能。
技术实现思路
本专利技术所要解决的技术问题是如何将大表计算发送到数据存储的节点去执行，尽量避免数据通过网络传输到其它节点去计算，节约带宽占用的关键问题。为此目的，本专利技术提出了基于HDFS的迭代式回溯算法的负载均衡与计算本地化方法，提高系统的计算和查询速度。具体包括以下步骤: SI =Planner读取所有数据分析引擎系统中全部存活节点的IP地址和负载状态； S2 =Planner从名称节点上读取表的所有数据包的分布信息； S3:通过Planner读取的数据分析引擎系统中全部存活节点的IP地址和负载状态以及从所述名称节点上读取表的所有数据包的分布信息利用迭代式回溯算法实现负载均衡。进一步地,所述步骤SI还包括:Planner将全部存活节点的负载状态换算为相对应大小的数据包。进一步地，所述步骤SI还包括:内存空间量最大的节点不需要进行换算为相对应大小的数据包。具体地,所述Planner将全部...
基于HDFS的迭代式回溯算法的负载均衡与计算本地化方法

【技术保护点】
基于HDFS的迭代式回溯算法的负载均衡与计算本地化方法，其特征在于，包括具体以下步骤：S1：Planner读取所有数据分析引擎系统中全部存活节点的IP地址和负载状态；S2：Planner从名称节点上读取表的所有数据包的分布信息；S3：通过Planner读取的数据分析引擎系统中全部存活节点的IP地址和负载状态以及从所述名称节点上读取表的所有数据包的分布信息利用迭代式回溯算法实现负载均衡。

【技术特征摘要】
1.基于HDFS的迭代式回溯算法的负载均衡与计算本地化方法，其特征在于，包括具体以下步骤: 51=Planner读取所有数据分析引擎系统中全部存活节点的IP地址和负载状态； 52=Planner从名称节点上读取表的所有数据包的分布信息； 53:通过Planner读取的数据分析引擎系统中全部存活节点的IP地址和负载状态以及从所述名称节点上读取表的所有数据包的分布信息利用迭代式回溯算法实现负载均衡。2.如权利要求1所述的方法，其特征在于，所述步骤SI还包括:Planner将全部存活节点的负载状态换算为相对应大小的数据包。3.如权利要求1所述的方法，其特征在于，所述步骤SI还包括:内存空间量最大的节点不需要进行换算为相对应大小的数据包。4.如权利要求2所述的方法，其特征在于，所述Planner将全部存活节点的负载状态换算为相对应大小的数据包的具体过程为:找到空闲内存量最大的节点，将其空闲内存值记为Mmax ；以及分别计算其它节点的数据包的大小，等于Iax-Mtoe其中，Mf_为当前机器的空闲内存量。5.如权利要求1所述的方法，其特征在于，所述步骤S2还包括:如果副本所在的节点地址列表为空，则该数据包的副本所在的机器上没有运行数据分析引擎，通过远程读取，将副本地址设置成所有存活的数据分析引擎的地址；如果副本所在的节点地址列表不为空，则不添加数据分析引擎地址到地址列表中。6.如权利要求1所述的方法，其特征在于，所述步骤S3还包括: 531:...

【专利技术属性】
技术研发人员：刘垚，孔令雷，王小玉，霍卫平，金正皓，
申请(专利权)人：北京东方国信科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人