一种基于映射-归约计算模型的洗牌数据缓存方法技术

技术编号：14525158 阅读：58 留言：0更新日期：2017-02-02 03:42

本发明专利技术公开了一种基于映射‑归约计算模型的洗牌数据缓存方法，包括映射‑归约计算框架将一个映射‑归约工作按任务为单位的划分通过接口发送到洗牌缓存主机，洗牌缓存主机接收到任务划分数据后，加上时间戳保存在本地内存中；洗牌缓存主机对任务划分数据采用随机算法将其中的归约任务与集群的各个节点做一个一对三的映射，并以哈希表的形式保存在洗牌缓存主机的内存中等步骤。本发明专利技术能够提升基于映射‑归约模型的分布式计算框架的计算性能，避免低效的用户手动设置检查点，提升分布式计算框架的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机分布式系统以及分布式计算框架领域。具体来讲，主要是为基于映射(Map)-归约(Reduce)计算模型提供基于内存的分布式洗牌(shuffle)数据缓存，从而提升该计算框架的性能和鲁棒性。
技术介绍
映射-归约计算模型以及基于该模型设计的分布式计算系统是目前主流的大数据分布式系统，比如Spark，Hadoop。基于该模型的计算在映射和归约阶段之间存在着一个洗牌(Shuffle)，将映射和归约进行了隔离。目前的所有设计都是采用将洗牌数据写入磁盘做持久化处理，然后再进行传输。而磁盘的性能远不如内存，因此给计算系统带来了此较大的性能开销。于此同时，该类型的计算框架主要通过磁盘来保证计算的容错性(Hadoop)，或者需要用户手动地增加检查点(Spark)。这些容错机制由于和计算逻辑相互重叠，不但没有充分利用现有的硬件特性，而且穿插在计算过程中大大影响了计算本身的性能。目前虽然有一些基于内存的分布式文件系统，但是他们主要的是针对数据块本身，而数据块本身的体积往往远大于洗牌数据，因此需要大量的内存作为支撑。基于以上的背景，本专利技术提供了一种基于内存的分布式洗牌数据缓存方法来消除洗牌传输和基于磁盘的容错性机制带来的性能开销，提升计算框架的性能和鲁棒性。
技术实现思路
本专利技术针对基于映射-归约模型的分布式计算系统，通过将洗牌传输数据缓存在分布式系统的内存中来消除洗牌传输和基于磁盘的容错性机制带来的性能开销。本专利技术的技术解决方案如下：一种映射-规约计算模型的洗牌数据缓存方法，包括如下步骤：步骤1：映射-归约计算框架将一个映射-归约工作按任务为单位的...

【技术保护点】
一种基于映射‑归约计算模型的洗牌数据缓存方法，其特征在于，该方法包括如下步骤：步骤1：映射‑归约计算框架将一个映射‑归约工作按任务为单位的划分通过接口发送到洗牌缓存主机，洗牌缓存主机接收到任务划分数据后，加上时间戳保存在本地内存中；步骤2：洗牌缓存主机对任务划分数据采用随机算法将其中的归约任务与集群的各个节点做一个一对三的映射，并以哈希表的形式保存在洗牌缓存主机的内存中步骤3：计算框架调度其中一个节点执行一个映射任务，该节点执行完映射任务后，通过调用缓存系统的接口将该映射任务的洗牌数据发送至本地洗牌缓存执行器进程的内存空间，同时返回，表示任务执行完成；步骤4：当一个节点上的缓存系统的执行器进程收到映射任务的洗牌数据时，按照洗牌数据默认的划分方式，将数据按照归约任务划分成多个洗牌归约数据块，保存在内存中；步骤5：本地洗牌缓存执行器向洗牌缓存主机请求归约任务与节点的映射表，并根据洗牌缓存主机的归约任务与节点的映射表，将步骤4中划分完毕的洗牌归约数据块分发到与之对应的三个归约任务远程节点，并按照步骤2中主从节点的设置分别给数据块加上主备份和从备份的标签；步骤6：远程节点收到洗牌归约数据块时读...

【技术特征摘要】
1.一种基于映射-归约计算模型的洗牌数据缓存方法，其特征在于，该方法包括如下步骤：步骤1：映射-归约计算框架将一个映射-归约工作按任务为单位的划分通过接口发送到洗牌缓存主机，洗牌缓存主机接收到任务划分数据后，加上时间戳保存在本地内存中；步骤2：洗牌缓存主机对任务划分数据采用随机算法将其中的归约任务与集群的各个节点做一个一对三的映射，并以哈希表的形式保存在洗牌缓存主机的内存中步骤3：计算框架调度其中一个节点执行一个映射任务，该节点执行完映射任务后，通过调用缓存系统的接口将该映射任务的洗牌数据发送至本地洗牌缓存执行器进程的内存空间，同时返回，表示任务执行完成；步骤4：当一个节点上的缓存系统的执行器进程收到映射任务的洗牌数据时，按照洗牌数据默认的划分方式，将数据按照归约任务划分成多个洗牌归约数据块，保存在内存中；步骤5：本地洗牌缓存执行器向洗牌缓存主机请求归约任务与节点的映射表，并根据洗牌缓存主机的归约任务与节点的映射表，将步骤4中划分完毕的洗牌归约数据块分发到与之对应的三个归约任务远程节点，并按照步骤2中主从节点的设置分别给数据块加上主备份和从备份的标签；步骤6：远程节点收到洗牌归约数据块时读取该数据块的标签，如果该标签显示为主备份则将其保存在内存中，如果该标签显示为从备份则将其写入硬盘；如果此时主备份节点的内存空间不足，则会触发洗牌缓存体统的洗牌数据剔除步骤；，同时进入步骤7。步骤7：重复步骤3到步骤6的过程，直到该工作的所有映射任务执行完毕，进入步骤8；步骤8：计算框架在调度前通过洗牌缓存系统的接口查询所有归约任务的分布情况；步骤9：计算框架根据归约任务的分布情况调度归约任务：首先选取其中的主备份节点，将一个归约任务分发到该节点...

【专利技术属性】
技术研发人员：付周望，王一丁，戚正伟，管海兵，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人