MapReduce应用的相关参数的配置方法和装置制造方法及图纸

技术编号:12822023 阅读:94 留言:0更新日期:2016-02-07 12:43
本发明专利技术涉及分布式文件系统,其提供了一种MapReduce应用的相关参数的配置方法和装置,该方法包括:接收第一MapReduce作业的处理请求;获取历史MapReduce作业的作业特征属性;从所述历史MapReduce作业的作业特征属性中查找到与所述第一MapReduce作业相关的第二MapReduce作业的作业特征属性;以及根据所述第二MapReduce作业的作业特征属性配置所述第一MapReduce作业的相关参数。按照该参数配置方法,能够有效地降低文件传输的网络开销、尽可能实现本地化处理的MapReduce作业的参数配置方法,减少管理员配置负担的同时,有效地增加系统资源利用率。

【技术实现步骤摘要】

本专利技术涉及分布式文件系统,更具体地,涉及基于分布式文件系统的MapReduce应用的相关参数的配置方法和装置
技术介绍
分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。MapReduce是Google公司提出的一种用于大规模并行编程的软件架构。由于MapReduce架构可以实现大规模数据集(大于1TB)的并行运算,并通过把对数据集的大规模操作分发给网络上的多个节点进行并行运算来实现伸缩性,因此被分布式文件系统广泛应用。概念“Map(映射)”和“Reduce(化简)”及其主要思想,都是从函数式编程语言借来的。当前的MapReduce中间件实现要求应用开发者指定一个Map(映射)函数,用来把一组键值对映射成一些新的键值对(key-valuepair),称作中r>间键值对;此外还本文档来自技高网...

【技术保护点】
一种基于分布式文件系统的MapReduce应用的相关参数的配置方法,包括:接收第一MapReduce作业的处理请求;获取历史MapReduce作业的作业特征属性;从所述历史MapReduce作业的作业特征属性中查找到与所述第一MapReduce作业相关的第二MapReduce作业的作业特征属性;根据所述第二MapReduce作业的作业特征属性配置所述第一MapReduce作业的相关参数。

【技术特征摘要】
1.一种基于分布式文件系统的MapReduce应用的相关参数的配置方
法,包括:
接收第一MapReduce作业的处理请求;
获取历史MapReduce作业的作业特征属性;
从所述历史MapReduce作业的作业特征属性中查找到与所述第一
MapReduce作业相关的第二MapReduce作业的作业特征属性;
根据所述第二MapReduce作业的作业特征属性配置所述第一
MapReduce作业的相关参数。
2.根据权利要求1所述的方法,其中所述历史MapReduce作业的
作业特征属性包括历史MapReduce作业的作业名称和以下中的至少一
个:输入文件的路径、输入文件的大小、输出文件的路径、输出文件的
大小、Map任务数和Reduce任务数。
3.根据权利要求1所述的方法,如果所述第一MapReduce作业是数据
生成类型,则从所述历史MapReduce作业的作业特征属性中查找与所述
第一MapReduce作业相关的第二MapReduce作业进一步包括:
从所述历史MapReduce作业的作业特征属性中查找到与所述第一
MapReduce作业相似的第三MapReduce作业;
从历史MapReduce作业的作业特征属性中查找到以所述第三
MapReduce的输出文件作为输入文件的第二MapReduce作业。
4.根据权利要求1所述的方法,如果所述第一MapReduce作业是数
据消费类型,
则从所述历史MapReduce作业的作业特征属性中查找到与所述第一
MapReduce作业相关的第二MapReduce作业进一步包括:
从所述历史MapReduce作业的作业特征属性中查找到与所述第一
MapReduce作业相似的第二MapReduce作业。
5.根据权利要求3或4所述的方法,其中根据所述第二MapReduce
作业的作业特征属性配置所述第一MapReduce作业的相关参数进一步包
括:
根据所述第二MapReduce作业的输入文件的分片大小划分所述第一
MapReduce作业的输入文件的数据块大小。
6.根据权利要求5所述的方法,其中根据所述第二MapReduce作业
的输入文件的分片大小划分所述第一MapReduce作业的输入文件的数据
块大小包括:将所述第一MapReduce作业的输入文件的数据块大小配置
为所述第二MapReduce作业的输入数据分片大小的整数倍。
7.根据权利要求6所述的方法,其中根据所述第二MapReduce作业
的作业特征属性配置所述第一MapReduce作业的相关参数进一步包括:
根据所述第二MapReduce作业的输入文件的分片大小确定所述第一
MapReduce作业的Map任务数或Reduce任务数。
8.根据权利要求7所述的方法,其中根据所述第二MapReduce作业
的输入文件的分片大小确定所述第一MapReduce作业的Map任务数或
Reduce任务数进一步包括:
获取处理所述第一MapReduce作业的计算节点数和对应于每个计算
节点的资源槽的数目;
将所述第一MapReduce作业的Map任务数或Reduce任务数配置为所
有计算节点的资源槽的总数的整数倍。
9.根据权利要求3所述的方法,其中从所述历史MapReduce作业的
作业特征属性中查找到与所述第一MapReduce作业相似的第三
MapReduce作业包括:
以所述第一MapReduce作业的作业名称作为关键字在所述历史
MapReduce作业的作业特征属性中进行查找;
响应于查找到一个与所述第一MapReduce作业具有相同作业名称
的历史MapReduce作业,则确定该历史MapReduce作业为所述第三
MapReduce作业;
响应于查找到多个具有相同作业名的历史MapReduce作业,则根据
以下的至少之一确定与第一MapReduce作业相似的第三MapReduce作
业:输出文件的路径、输出文件的大小和计算节点数目。
10.根据权利要求4所述的方法,其中从所述历史MapReduce作业的
作业特征属性中查找到与所述第一MapReduce作业相似的第二
MapReduce作业进一步包括:以所述第一MapReduce作业的作业名称作
为关键字在所述历史MapReduce作业的作业特征属性中进行查找;
响应于查找到一个与所述第一MapReduce作业具有相同作业名称
的历史MapReduce作业,则确定该历史MapReduce作业为所述第二
MapReduce作业;
响应于查找到多个具有相同作业名的历史MapReduce作业,则根据
以下的至少之一确定与第一MapReduce作业相似的第二MapReduce作
业:输入文件的路径、输出文件的大小和计算节点数。
11.根据权利要求3所述的方法,还包括根据所述第三MapReduce作
业的Map任务数确定所述第一MapReduce作业的Map任务数。
12.根据权利要求4所述的方法,还包括根据所述第二MapReduce作
业的Map任...

【专利技术属性】
技术研发人员:邹嘉史巨伟郑勇王晨刘杰
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1