基于动态标记优先值的MapReduce数据本地化方法技术

技术编号：12674586 阅读：82 留言：0更新日期：2016-01-07 18:55

本发明专利技术提供了一种基于动态标记优先值的MapReduce数据本地化方法，包括以下步骤：将各计算节点上的本地化数据块初始化标记值为2n，计算各计算节点本地化数据块的数量；按照各计算节点的数据块数量进行升序排序；依次从数据块数量最少的计算节点开始，将每个计算节点上的数据块的后续备份数据块的标记值减去一个确定的数DecS；优先选择标记值最大的数据块进行调度；任务调度后，再次调整每个计算节点的数据块数量，并进行升序排序，排序后进行标记值调整，最终完成数据处理。本发明专利技术通过标记数据块并设置不同优先值，从而提升作业的数据本地化程度，进而提升MapReduce上作业的执行效率和减少作业的带宽占用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机大规模数据运算，尤其是MapReduce运算领域，特别涉及一种。
技术介绍
MapReduce计算框架作为Hadoop平台的核心组件，Hadoop平台所有计算任务都是在MapReduce上完成的，所以Hadoop平台的计算效率和吞吐量与MapReduce的作业执行效率和吞吐量息息相关。在Hadoop平台，MapReduce分布式计算框架是搭建在以冗余形式存储数据块的分布式文件系统HDFS上，HDFS以数据块的形式存储用户数据并且数据块默认冗余数为3，也就是说一个作业对应的文件大小为100个数据块(在HDFS中，数据块默认大小为64MB)时，在HDFS中存储关于该作业的数据块数目为300。数据本地化是一种在本地获取计算数据的过程，数据本地化程度高，能减少计算节点的计算等待时间，同时也能减少数据拷贝量，从而达到高效利用集群网络带宽的目的。由于存储数据的节点和参加计算的节点是重合的，所以MapReduce可以利用这种冗余形式的数据块来提升分布式计算任务的数据本地化程度。原始的MapReduce任务调度方法在接受计算节点的任务请求时，为了提升计算任务的数据本地化程度，优先选择该计算节点的本地任务，次之是本机架的任务，最后是本数据中心的任务。然而，这种数据本地化方法并不能实现高程度的数据本地化，主要原因有:1) 一个作业的数据块在各计算节点上分布相对不均匀；2)各计算节点的计算性能有差异，并不完全是同构的机器。在原始的调度方法中，MapReduce认为集群中的机器是同构的，且没有考虑数据块分布的不均衡性；3)每个计算节点在选取本地数据块...

【技术保护点】
一种基于动态标记优先值的MapReduce数据本地化方法，其特征在于：包括以下步骤；设一个集群中拥有n个计算节点，各计算节点的名称为T1，T2，…，Ti，…，Tn，某个在集群上运行的作业拥有m个数据块且各数据块的名称为B1，B2，…，Bx，…，Bm，数据块默认冗余数为3，则Bx有三个存储的数据块Bx1、Bx2、Bx3；将各计算节点上的本地化数据块初始化标记值为2n，计算各计算节点本地化数据块的数量，不妨设Ti上有本地化数据块CLTi个；按照各计算节点的数据块数量进行升序排序，不妨设一种升序序列为INC1，INC2，…，INCp，…，INCj，…，INCk，…，INCn，其中，位置INCj对应CLTi个数据块，且对应计算节点Ti；依次从INC1对应的计算节点开始，直到INCn对应的计算节点，将每个计算节点上的数据块的后续备份数据块的标记值减去一个确定的数DecS，DecS的值由位置INCj确定，位置INCj对应DecS的值n‑j+1；在任务调度过程中，若调度本地化的数据块，则优先选择标记值最大的数据块，若本地没有数据块，则优先选择本机架位置INC数值高的计算节点上标记值高的数据块进行拷贝...

【技术特征摘要】

【专利技术属性】
技术研发人员：杨玉琴，陈麟，
申请(专利权)人：成都信息工程大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人