一种实现作业内的MapReduce数据本地化的方法技术

技术编号：12060681 阅读：55 留言：0更新日期：2015-09-17 11:08

本发明专利技术提供一种实现作业内的MapReduce数据本地化的方法，属于计算机技术领域。本发明专利技术通过改变作业内的任务调度算法，使得作业的任务数据本地化程度能够得到进一步提升。针对某一指定作业，本发明专利技术方法在调度一个计算任务给一个计算节点的时候，通过综合考虑计算节点的关于该作业的剩余本地化数据块数目和通过一系列处理计算得来的关于该计算节点的未来预计需要处理的任务数目来进行不同任务的分配。本发明专利技术提供的方法无需预先测量各个计算节点的计算性能，实施灵活方便，且不影像局部作业的执行效率，能在最大程度上降低Map阶段的网络带宽占用，从而提高集群作业并行度，同时各个作业的整体执行时间也得到明显缩短。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机
，具体涉及一种实现作业内的MapReduce数据本地化的优化方法。
技术介绍
随着分布式计算模型的发展，在MapReduce分布式计算模型之后，涌现出了很多其他的分布式计算模型，例如Spark和Storm。这些模型在数据处理方面各有侧重，所以在大型互联网公司，这些分布式模型都是同时搭载在一个物理集群上的。各个分布式计算模型虽然都可以做到互相隔离，但是整个物理集群的网络带宽资源都是公用的，所以提升MapReduce计算模型的网络带宽消耗，减少MapReduce计算模型的网络带宽消耗量，不仅对同一物理集群的其他计算模型有利，而且与此同时可以提升MapReduce计算模型中作业的执行效率。MapReduce集群的网络带宽消耗的主要由如下几种情况构成:1.用户从本地上传数据到HDFS上造成的网络带宽消耗；2.Shuffle阶段将Map阶段的输出传输到Reduce阶段造成的网络带宽消耗；3.Reduce阶段将处理结果存储到HDFS所造成的网络带宽消耗；4.非本地化的任务造成的网络带宽消耗。上述情况1、2、3下造成的网络带宽消耗是不可避免的，其中情况2的带宽消耗可以通过在Map阶段设置Combiner ( —种在Map端的同Reducer作用类似的函数)和压缩Map阶段的最终输出数据等措施来缓解。情况4的网络带宽消耗主要是由于非本地化任务需要通过网络远程拷贝数据到本地作处理，这种情况造成的网络带宽消耗可以通过优化调度算法来提高数据本地化任务的比率，从而避免不必要的带宽消耗。另外，通过实验发现，大部分非本地化任务都是在Shuffle...
一种实现作业内的MapReduce数据本地化的方法

【技术保护点】
一种实现作业内的MapReduce数据本地化的方法，在拥有n个物理计算节点的集群上，针对得到调度的具体作业A，在其实施过程中按以下方法实现本地化：步骤一：由于集群有同构和异构之分，在计算尚未开始时假设集群是同构的，即假设所有物理计算节点的计算性能Pi均为1，其中i∈[1,n]；对于作业A，假设该作业对应的数据块个数为b个，且每个数据块在HDFS上的默认备份数为3，设各计算节点上的数据块个数为FTi，则总数据块数量∑FTi＝3b；为每个计算节点分配第一轮任务，即为每个物理计算节点分配一个数据块，每个计算节点处理其分配到的第一个计算任务，并计算每个物理计算节点处理各自申请的第一个计算任务的处理效率，由此得到每个物理计算节点的实际计算性能RPTi，其中i＝1,…,n；步骤二：计算各物理计算节点针对作业A还需要处理的任务个数PBTi，步骤三：统计各计算节点关于作业A的当前剩余未分配的本地化数据块数量LTi，并将各数据块当前的标记值设为0；步骤四：计算各计算节点数据块饱和度SATi，其中SATi＝LTi/PBTi，SAT代表各计算节点上关于作业A剩余的本地化数据块数量相对根据性能计算的数据块数量...

【技术特征摘要】

【专利技术属性】
技术研发人员：高胜立，薛瑞尼，管仲洋，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人