一种改进的虚拟机群下MapReduce数据处理方法技术

技术编号:5228518 阅读:315 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种改进的虚拟机群下MapReduce数据处理方法,任务调度管理中心将任务分配给虚拟机,获取任务分配的虚拟机向数据存储管理中心询问任务的输入数据所在的物理机,虚拟机在得到的物理机中选取与自身拓扑距离最近的物理机进行数据读取,并作数据处理。本发明专利技术将数据存储和处理分开独立,物理机专用于存储数据,虚拟机专用于数据处理,并设计了适应虚拟机群的数据读取策略,缩短了作业时间,解决了性能迟滞,减少资源消耗,提高了MapReduce数据处理性能。

【技术实现步骤摘要】

本专利技术属于分布式计算模型领域,具体涉及虚拟机群下MapReduce性能的提升。
技术介绍
云计算技术发展迅猛,应用也越来越广泛。云计算有两个重要的组成部分,一个 是虚拟化技术虚拟化技术是一种将底层物理设备与上层操作系统、软件分离的一种去耦 合技术,它可以实现计算资源的高效灵活使用,可以更加充分合理地利用计算资源,满足 日益多样的计算需求,使人们能够透明,高效,可定制地使用计算资源,从而真正实现灵活 构建,按需计算的理念;第二个是大规模数据处理中间件,以MapReduce为代表的大规模 数据处理模型正在得到广泛应用,MapReduce是一个包含有容错性和自动任务调度的分布 式计算中间件,让用户定义两个处理函数后,便可以自行处理任务分配、任务重启等事情, MapReduce运行环境让用户不需要显示的去考虑这些问题,从而让用户专注于程序逻辑设 计。但是,MapReduce设计之初没有考虑虚拟机群环境,所以,到目前为止,在结合这两者的 优势研究方面,并没有出现可观的方法。以亚马逊Amazon公司提出的EC2 (弹性云计算) 为例,用户在自定义的虚拟机群上启动MapReduce后,Ma本文档来自技高网...

【技术保护点】
一种改进的虚拟机群下MapReduce数据处理方法,涉及物理机、虚拟机、数据存储管理中心和任务调度管理中心,物理机存储任务的输入数据,虚拟机进行数据处理,该方法具体为:(1)任务调度管理中心将任务分配给虚拟机;(2)获取任务分配的虚拟机向数据存储管理中心查询任务的输入数据所在的物理机;(3)虚拟机在步骤(2)得到的物理机中选取与自身拓扑距离最近的物理机进行数据读取,并作数据处理。

【技术特征摘要】
一种改进的虚拟机群下MapReduce数据处理方法,涉及物理机、虚拟机、数据存储管理中心和任务调度管理中心,物理机存储任务的输入数据,虚拟机进行数据处理,该方法具体为(1)任务调度管理中心将任务分配给虚拟机;(2)获取任务分配的虚拟机向数据存储管理中心查询任务的输入数据所在的物理机;(3)虚拟机在步骤(2)得...

【专利技术属性】
技术研发人员:金海吴松石宣化黄大川
申请(专利权)人:华中科技大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1