【技术实现步骤摘要】
基于MapReduce架构实现图处理的方法和装置
本专利技术涉及图处理,更具体地,涉及一种基于MapReduce架构实现图处理的方法和装置。
技术介绍
MapReduce是Google公司提出的一种用于大规模并行编程的软件架构。用于大规模数据集(大于1TB)上的并行运算。概念“Map(映射)”和“Reduce(化简)”及其主要思想,都是从函数式编程语言借来的。当前的MapReduce中间件实现要求应用开发者指定一个Map(映射)函数,用来把一组键值对映射成一些新的键值对(key-valuepair),称作中间键值对;此外还要求应用开发者指定一个Reduce(化简)函数,用来对Map函数输出的中间键值对进行进一步处理。MapReduce架构多用于大规模数据集(大于1TB)的并行运算,并通过把对数据集的大规模操作分发给网络上的多个节点进行并行运算来实现伸缩性。在web访问日志分析、文档聚类、机器学习、数据统计、基于统计的机器翻译等领域有广泛的应用。例如,Hadoop就是一种MapReduce的实现。越来越多的云计算服务商在云计算系统中部署了MapReduce架构。图处理是大规模数据处理问题中的一类重要问题。在社交化网络中对各种实体关系的分析和数据挖掘中,以及各种优化求解问题中,就涉及到大量的图处理算法。图处理算法的MapReduce实现通常由多个迭代构成,而每个迭代则由多级Map任务和Reduce任务组成。图处理算法一般需要经过多次迭代,最后收敛形成一个稳定的解。在现有的图处理问题中,输入数据集的规模非常大,难以在单个节点上完成运算。因此在基于MapReduc ...
【技术保护点】
基于MapReduce架构实现图处理的方法,包括:接收图处理作业的输入文件;利用获取的MapReduce任务的度数与执行时间的关系分布和所述图处理作业的度数分布预测所述图处理作业的MapReduce任务执行时间分布;根据预测的所述图处理作业的MapReduce任务执行时间分布将所述图处理作业的输入文件切分为MapReduce任务的输入数据分片。
【技术特征摘要】
1.基于MapReduce架构实现图处理的方法,包括:接收图处理作业的输入文件;利用获取的MapReduce任务的度数与执行时间的关系分布和所述图处理作业的度数分布预测所述图处理作业的MapReduce任务执行时间分布;根据预测的所述图处理作业的MapReduce任务执行时间分布将MapReduce任务的输入文件切分为MapReduce任务的输入数据分片。2.根据权利要求1所述的方法,其中根据预测的所述图处理作业的MapReduce任务执行时间分布将MapReduce任务的输入文件切分为MapReduce任务的输入数据分片包括:检测图处理作业的输入文件中的节点的键值对是否以该节点的度数进行构造;响应于检测结果为是,则按照度数对所述节点的键值对排序;根据预测的所述图处理作业的MapReduce任务执行时间分布将排序的节点的键值对切分为MapReduce任务的输入数据分片。3.根据权利要求2所述的方法,其中根据预测的所述图处理作业的MapReduce任务执行时间分布将所述图处理作业的输入文件切分为输入数据分片包括:响应于检测结果为否,用节点的度数对图处理作业的输入文件中的节点的键值对进行构造;按照度数对构造后的键值对排序;根据预测的所述图处理作业的MapReduce任务执行时间分布将排序的节点的键值对切分为MapReduce任务的输入数据分片。4.根据权利要求3所述的方法,其中用节点的度数对图处理作业的输入文件中的节点的键值对进行构造包括:用节点的度数对图处理作业的输入文件中的节点的键值对的键值名进行构造。5.根据权利要求2至4中任一项所述的方法,其中MapReduce任务的度数与执行时间的关系分布是Map任务的度数与执行时间的关系分布,利用获取的MapReduce任务的度数与执行时间的关系分布和图处理作业的度数分布预测图处理作业的MapReduce任务执行时间分布包括利用Map任务的度数与执行时间的关系分布和图处理作业的度数分布预测所述图处理作业的Map任务执行时间分布。6.根据权利要求5所述的方法,其中根据预测的所述图处理作业的MapReduce任务执行时间分布将排序的节点的键值对切分为MapReduce任务的输入数据分片包括:根据预测的Map任务执行时间分布将排序的节点的键值对平均切分为Map任务的输入数据分片;由作业调度器将Map任务的输入数据分片指派给Map任务服务器执行。7.根据权利要求2至4中任一项所述的方法,其中MapReduce任务的度数与执行时间的关系分布是Reduce任务的度数与执行时间的关系分布,利用获取的MapReduce任务的度数与执行时间的关系分布和图处理作业的度数分布预测所述图处理作业的MapReduce任务执行时间分布包括利用Reduce任务的度数与执行时间的关系分布和图处理作业的度数分布预测图处理作业的Reduce任务执行时间分布。8.根据权利要求7所述的方法,其中根据预测的所述图处理作业的MapReduce任务执行时间分布将排序的节点的键值对切分为MapReduce任务的输入数据分片包括:根据预测的Reduce任务执行时间分布将排序的节点的键值对平均切分为Reduce任务的输入数据分片;将Reduce任务的输入数据分片输入到Reduce任务的分区器;由作业调度器将分区器输出的输入数据分片指派给Reduce任务服务器执行。9.根据权利要求1所述的方法,其中MapReduce任务的度数与执行时间的关系分布是从该M...
【专利技术属性】
技术研发人员:史巨伟,陈冠诚,刘弢,王鲲,王晨,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。