【技术实现步骤摘要】
一种面向Spark的批处理应用执行时间预测模型构建方法
本专利技术属于分布式计算领域,具体涉及Spark系统中批处理应用执行时间的预测模型构建方法。
技术介绍
分布式内存计算系统是大数据处理领域的最新技术进展。Spark系统作为典型分布式内存计算系统已被广泛应用于大数据处理的众多场景中。批处理应用是Spark系统支撑的一类主要应用,其特点是基于有向无环图(DirectedAcyclicGraph,DAG)计算模型对静态数据集进行并行处理。批处理应用执行时间预测是保证批处理应用达到软实时需求,指导Spark系统资源分配以及应用均衡决策、保障批处理应用服务质量的基础。然而,如何精确预测Spark批处理应用执行时间仍然是一个开放的技术挑战。近年来,针对大数据系统的批处理应用执行时间预测研究工作可分为两类,分别是基于源代码分析的执行时间预测和选取相关因素构建执行时间预测模型。基于源代码分析预测批处理应用的执行时间,即首先对应用的源码进行建模分析,分析源码中每种操作的执行次数以及复杂度来对批处理应用执行时间进行评估。但是这类方 ...
【技术保护点】
1.一种面向Spark的批处理应用执行时间预测模型构建方法,其特征在于,执行过程分为2个阶段:/n1)Spark批处理应用执行时间预测模型的构建/n1-1)初始化/n1-1.1)根据Spark批处理应用的计算特征和对资源使用的特征分别在应用层和系统层选取影响Spark批处理应用执行时间的备选指标;/n1-1.2)采用控制变量法,变化上述备选指标,寻找在当前的指标组合下,该批处理应用的执行时间,样本集的形式化定义如(1)所示:/nT={(x
【技术特征摘要】
1.一种面向Spark的批处理应用执行时间预测模型构建方法,其特征在于,执行过程分为2个阶段:
1)Spark批处理应用执行时间预测模型的构建
1-1)初始化
1-1.1)根据Spark批处理应用的计算特征和对资源使用的特征分别在应用层和系统层选取影响Spark批处理应用执行时间的备选指标;
1-1.2)采用控制变量法,变化上述备选指标,寻找在当前的指标组合下,该批处理应用的执行时间,样本集的形式化定义如(1)所示:
T={(x11,x12,...x1n,y1),...(xm1,xm2,...xmn,ym)}(1)
其中xij表示第i个样本的第j个特征属性的特征值,m是样本的个数,n是特征指标的个数,yi表示在特征集{xi1,xi2,...xin}下的应用执行时间;
1-2)Spark批处理应用执行时间分类
1-2.1)用斯皮尔曼相关系数从备选指标中选择与应用执行时间强相关性的指标;计算公式如(2)所示:
其中m表示样本的数量,di=αi-βi,其中元素αi、βi分别表示某种指标的第i个指标值在此指标集中的排行和第i条样本的执行时间在执行时间集合中的排行;
1-2.2)定义数据点P=(p1,p2,...,pn);其中p1…pn是应用执行时间的强相关指标;
1-2.3)采用标准化欧式距离来计算数据点间距离,计算公式如(3)所示:
其中Pej和Pfj分别表示数据点Pe和Pf的第j个指标值,sj为两个数据点间第j个特征值的标准差;
1-2.4)选用均值漂移聚类算法对Spark批处理应用的执行时间进行分类:
1-2.4.1)在未被分类的数据点中随机选择一个点作为中心O=RandomSelect(s);
1-2.4.2)找出离中心点距离在半径值r之内的所有点,记做集合R,认为这些点属于簇c,Qr={s:Distance(s,pre)<r};
1-2.4.3)计算从中心点开始到集合R中每个元素的向量,将这些向量相加,得到偏移向量
其中,Qr是以O为中心点,半径为r的高维球区域;num是包含在Qr范围内点的个数;xi是包含在Sr范围内的点;
1-2.4.4)将中心点移动到偏移均值位置Oz+1=Rz+Oz
其中,Rz为z状态下求得的偏移均值;Oz为z状态下的中心;
1-2.4.5)重复步骤1-2.4.1)-1-2.4.4),直到偏移向量的大小大于0.01,记住此时的中心点;
1-2.4.6)重复1-2.4.1)-1-2.4.5),直到所有的点都被归类;
1-2.4.7)根据每个类,对每个点的访问频率,取访问频率最大的那个类,作为当前点集的所属类;
1-2.4.8)从小到大变化r值,重复步骤1-2.4.1)到1-2.4.7),直到寻找到能够使评价函数E最小的分类方式,计算方法如(4):
其中,Pc表示类簇c的某个数据点,Oc表示类簇c的中心点,k为类簇个数;
1-3)Spark批处理应用执行时间预测
1-3.1)根据Spark应用执行流程来筛选出所有可能影响应用执行时间的参数;
1-3.2)变化应用的...
【专利技术属性】
技术研发人员:梁毅,李硕,曾绍康,伍佳名,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。