一种基于预测的Map/Reduce数据处理平台内存资源动态分配方法组成比例

技术编号：12140629 阅读：89 留言：0更新日期：2015-10-01 19:43

一种基于预测的Map/Reduce数据处理平台内存资源动态分配方法，分配方法分为五个步骤，初始化、任务内存资源使用预测、任务内存资源释放、任务内存资源追加和回溯。本方法针对Map任务和Reduce任务在运行过程中内存资源使用量具有明显波动性的特征，根据Map任务和Reduce任务运行过程中的内存使用量历史记录，采用线性回归和t检验法，统计任务内存使用规律，预测任务后续运行中需要使用的内存量，并根据任务内存使用预测量，动态追加或减少正在运行的Map任务和Reduce任务的内存分配量，从而有效提高Map/Reduce平台内存资源的使用效率，提升Map/Reduce作业的执行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于分布式计算领域，具体设及Map/Re化ce型海量数据处理平台中内存资源的使用预测与动态分配方法。
技术介绍
Map/Re化ce是一种新型的并行计算模型，已被广泛应用于海量数据处理领域。内存是支撑Map/Re化ce应用运行的重要计算资源。在实际运行中，一个Map/Re化ce应用是由一个或多个Map/Re化ce作业组成。每个Map/Re化ce作业的执行通常包含一个Map阶段和一个Re化ce阶段。其中，Map阶段和Re化ce阶段可分别映射为多个Map任务进程和 Re化ce任务进程并行执行。Map/Re化ce应用的运行平台（W下简称"Map/Re化ce平台"） W任务为单位为Map/Re化ce应用分配其运行所需的内存资源。由于Map/Re化ce应用普遍具有大数据处理的特征，是否分配充足的内存资源，已成为制约Map/Re化ce应用执行效率的关键因素。目前，Map/Re化ce平台对内存资源的分配通常采用W用户设置为导向的方法，即用户在Map任务和Re化ce任务运行前或运行中主动发起内存资源申请请求，给出确定的内存资源需求量，Map/Re化ce平台根据用户指定的需求量为其分配或追加内存资源；任务一旦获得内存资源将持续占用，直至任务运行结束，或在其他运行任务需要追加内存资源时被动释放。然而，上述方法运用于实际Map/Re化ce生产性平台存在如下问题；Map任务和 Re化ce任务在其运行过程中对内存资源的使用量往往具有显著的波动性，用户对任务的内存资源的实际消耗需求难W准确把握。因此，在Map/Re化ce平台中采用W用户设置...

【技术保护点】
一种基于预测的Map/Reduce数据处理平台内存资源动态分配方法，内存资源分配方法分为五个步骤：初始化、任务内存资源使用预测、任务内存资源释放、任务内存资源追加和回溯；在本方法中，有五个基本参数：预测函数拟合次数阈值Cmax、任务内存资源追加判断阈值Ua、任务内存资源释放判断阈值Ur、内存追加量计算时间步长τ、任务抢占优先级权值比例θ；Cmax一般取值在3～5之间，Ua取值在0.1～0.5之间，Ur取值在0.5～1之间，τ取值在5～10秒，θ取值在0～1之间；其特征在于：所述方法在计算机上按以下步骤实现，(1)初始化：从Map/Reduce平台既有资源及作业管理组件采集运行任务tij(1≤i≤m，1≤j≤n)内存动态分配所需的初始化信息，包括任务当前内存分配量RCij、任务开始运行时刻c_iij和任务的内存资源使用量历史记录集合RNij；其中，i表示任务所属Map/Reduce作业编号，j表示任务在作业内的任务编号；(2)建立任务tij的内存资源使用量预测函数；2.1)设置任务tij的内存资源使用预测量是关于时间的函数，预测函数形如其中，aij与cij是待估算的参数；2.2)令平台中...

【技术特征摘要】

【专利技术属性】
技术研发人员：梁毅，张辰，陈翔，詹静，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人