分布式计算系统的中间文件处理装置及方法制造方法及图纸

技术编号:6867331 阅读:314 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种分布式计算系统的中间文件处理装置及方法,所述装置基于Map-Reduce框架,包括Map单元和Reduce单元,所述Map单元包括:中间文件生成模块,用于在处理Map任务后按照预设文件大小生成多个中间文件;传输模块,按照多个中间文件的生成顺序依次将所述中间文件传输至Reduce单元;所述Reduce单元包括接收所述中间文件的通信模块,以及对所述中间文件进行计算、输出最终结果的计算模块。采用本发明专利技术提供的装置及方法,能提高分布式计算系统的运行效率。

【技术实现步骤摘要】

本专利技术涉及分布式计算
,尤其涉及一种。
技术介绍
分布式计算系统(Map-Reduce)处理大数据量的时候,将庞大的数据切片分而治之,并行计算每片数据后进行结果汇总。传统的分布式计算系统包括Master单元、若干Map 单元和若干Reduce单元。其中,Master单元是分布式计算系统的主要控制程序,负责Map 单元和Reduce单元的任务调度,控制它们的运行以及监控它们的运行状态;Map单元是处理一部分数据的单元,全部的数据由多个Map来处理,每个Map都会产生临时的中间结果 (即中间文件);Reduce单元负责将所有Map单元处理后的中间结果进行合并,得到最终结^ ο通常,将Map-Reduce系统中的各计算单元(若干Map单元以及若干Reduce单元) 部署到某些计算机器中,由于计算机器自身本地磁盘存储空间有限,且中间计算文件很大, 超过计算机器本地磁盘空间大小,如本地磁盘只有500M剩余空间,而计算得到的中间数据文件却有100G甚至更大,因此需要将这海量的中间数据文件正确保存并传输到Reduce单元进行进一步的计算。传统的方式是将运行Map单元的计算机器要处理的大本文档来自技高网...

【技术保护点】
1.一种分布式计算系统的中间文件处理装置,所述装置基于Map-Reduce框架,包括Map单元和Reduce单元,其特征在于,所述Map单元包括:中间文件生成模块,用于在处理Map任务后按照预设文件大小生成多个中间文件;传输模块,按照多个中间文件的生成顺序依次将所述中间文件传输至Reduce单元;所述Reduce单元包括接收所述中间文件的通信模块,以及对所述中间文件进行计算、输出最终结果的计算模块。

【技术特征摘要】

【专利技术属性】
技术研发人员:伍海君赵大勇杨绍鹏王宇欧贻葆阙太富
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1