一种基于延迟调度技术的大数据分析作业性能优化装置制造方法及图纸

技术编号:26065101 阅读:33 留言:0更新日期:2020-10-28 16:37
本发明专利技术公开了一种基于延迟调度技术的大数据分析作业性能优化装置,其特点是大数据分析作业性能优化装置为作业预运行模块与作业相关参数模块、运行节点相关特征参数模块和DelayStage机制模块组成的大数据分析平台,各功能模块将提交大数据分析作业到带有DelayStage机制的Spark集群进行作业运行,并基于作业相关参数和运行节点的相关特征参数,对特定并行阶段的提交时间进行延迟执行,得到作业运行结果。本发明专利技术与现有技术相比具有结构简单,使用方便,经济、高效,各功能模块将集群的计算资源在并行阶段之间进行交叉复用,大大缓解并行阶段之间的资源竞争,从而提升集群资源的利用率,并优化作业运行性能。

【技术实现步骤摘要】
一种基于延迟调度技术的大数据分析作业性能优化装置
本专利技术涉及大数据分析作业
,具体地说是一种基于延迟调度技术的大数据分析作业性能优化装置。
技术介绍
在当今大数据时代背景下,数据中心正在托管和处理越来越多的数据,据《福布斯》报道,每天在互联网上生成和处理数据量大约有2.5EB。对海量数据的及时分析是Facebook、Google和阿里巴巴等公司决策所必需的,在这些公司中,大数据处理框架(例如,MapReduce、Spark、Flink和TensorFlow)通常被用来处理庞大的数据。大数据分析作业(job)通常由多个阶段(stage)组成,这些阶段用有向无环图(DirectedAcyclicGraph,DAG)表示。这些阶段彼此之间可能有依赖关系(串行的),也可能没有依赖关系(并行的)。每个阶段进一步分为若干任务(task),同一个阶段中任务之间可以并行地执行。每个阶段通过网络读取输入数据,使用工作节点的CPU处理数据分片,并将输出数据写入本地磁盘。在最新的阿里巴巴集群trace(Alibabaclustertracev201本文档来自技高网...

【技术保护点】
1.一种基于延迟调度技术的大数据分析作业性能优化装置,其特征在于大数据分析作业性能优化装置为作业预运行模块、作业相关参数模块、运行节点相关特征参数模块和DelayStage机制模块组成的大数据分析平台,所述作业预运行模块将Spark提交作业的10%数据量的作业进行预运行后将其输入作业相关参数模块;所述作业相关参数模块对预运行后的大数据分析作业进行分析,获取作业相关参数和运行节点的相关特征参数后将其输入运行节点相关特征参数模块;所述运行节点相关特征参数模块对输入的相关特证参数进行分析,并通过Linux指令获取运行节点的相关特证参数后将其输入DelayStage机制模块;所述DelayStage机...

【技术特征摘要】
1.一种基于延迟调度技术的大数据分析作业性能优化装置,其特征在于大数据分析作业性能优化装置为作业预运行模块、作业相关参数模块、运行节点相关特征参数模块和DelayStage机制模块组成的大数据分析平台,所述作业预运行模块将Spark提交作业的10%数据量的作业进行预运行后将其输入作业相关参数模块;所述作业相关参数模块对预运行后的大数据分析作业进行分析,获取作业相关参数和运行节点的相关特征参数后将其输入运行节点相关特征参数模块;所述运行节点相关特征参数模块对输入的相关特证参数进行分析,并通过Linux指令获取运行节点的相关特证参数后将其输入DelayStage机制模块;所述DelayStage机制模块将提交大数据分析作业到带有DelayStage机制的Spark集群进行作业运行,并基于作业相关参数和运行节点的相关特征参数,对特定并行阶段的提交时间进行延...

【专利技术属性】
技术研发人员:徐飞邵武杰
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1