【技术实现步骤摘要】
一种面向MapReduce框架的有效计算与数据传输重叠执行方法
本专利技术涉及大数据处理计算框架等领域,特别是提出了一种面向MapReduce框架的有效计算与数据传输重叠执行方法。
技术介绍
MapReduce是Google公司于2004年提出的一种用于大数据处理的并行计算框架,通过在大量廉价的机群节点同时运行多个任务并行地处理海量数据,提高了处理数据的性能,在过去十多年得到了迅速的发展和广泛应用。MapReduce框架主要提供了映射和化简操作,其中映射操作对集合中每个元素应用同一个操作,在Mapper端实现;化简操作遍历集合中的元素返回一个综合结果,在Reducer端实现。Mapper端的操作主要包含了数据读取、键值对生成、键值对映射、分区与磁盘溢写,数据读取即从分布式文件系统读取对应数据块内容,键值对生成将元素对象抽象为键值对<key,value>的形式,是操作数据的最小单位,键值对映射将原键值通过一系列映射变换得到新的键值对,分区与磁盘溢写包含两部分内容,分区根据键值key的hash值对Reducer个数取余得到一个编号值,这个编号值决定了键值对 ...
【技术保护点】
1.一种面向MapReduce框架的有效计算与数据传输重叠执行方法,包括以下步骤:(1)创建细粒度数据块;在MapReduce框架中,默认的数据处理单位是粗粒度数据块Block,其大小一般为64M或128M,对Block进一步细分,得到多个细粒度数据块(Fine‑grained block,FG‑Block),对这些FG‑Block进行流水线处理;设数据块Block的大小为c,细分粒度为f,细分后得到的细粒度数据块FG‑Block数量为n,则有以下关系:n=c/f(2)分离数据传输与有效计算;将主要利用CPU资源对数据处理的操作称为有效计算,如数据转换与数据聚合,将主要利用 ...
【技术特征摘要】
1.一种面向MapReduce框架的有效计算与数据传输重叠执行方法,包括以下步骤:(1)创建细粒度数据块;在MapReduce框架中,默认的数据处理单位是粗粒度数据块Block,其大小一般为64M或128M,对Block进一步细分,得到多个细粒度数据块(Fine-grainedblock,FG-Block),对这些FG-Block进行流水线处理;设数据块Block的大小为c,细分粒度为f,细分后得到的细粒度数据块FG-Block数量为n,则有以下关系:n=c/f(2)分离数据传输与有效计算;将主要利用CPU资源对数据处理的操作称为有效计算,如数据转换与数据聚合,将主要利用I/O资源和带宽资源的数据处理操作称为数据传输,如数据读写与网络通信,将有效计算与数据通信分耦,实现有效计算与数据传输重叠执行;(2.1)有效计算;有效计算主要分为Mapper端的有效计算与Reducer端的有效计算,Mapper端的有效计算主要将数据转换成键值对形式,再通过一系列映射变换产生新的键值对,根据新键值对的键值通过HASH函数分区,计算结果超过内存阈值则向磁盘溢写文件;Reducer端的有效计算主要是从多个Mapper端获取得到的数据并合并统计得到最终的结果;(2.2)数据传输;数据传输指将Mapper端产生的数据传输到Reducer端的过程,Mapper端的计算结果超出内存阈值就会溢写到磁盘,对溢写文件逐一判断,若溢写文件大小超过一定阈值则将溢写文件发送到Reducer端,否则对溢写文件合并,合并达到阈值后将...
【专利技术属性】
技术研发人员:张元鸣,蒋建波,高天宇,肖刚,陆佳炜,高飞,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。