分布式DAG系统的自适应优化方法和装置制造方法及图纸

技术编号：14454865 阅读：105 留言：0更新日期：2017-01-19 02:44

本申请公开一种分布式DAG系统的自适应优化方法和装置，其中该方法包括：获取每个计算节点的性能数据；根据所述性能数据分别计算每个计算节点处理数据记录的时间，并根据计算节点处理数据记录的时间计算该计算节点的并发度；根据计算得到的并发度调整系统当前的并发度。通过本申请，能够使计算流水线满负载一致运行，在大幅节约机器成本的同时提升系统性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机
，尤其涉及一种分布式DAG系统的自适应优化方法和装置。
技术介绍
DAG(Directedacyclicgraph，有向无环图)可用于描述分布式离线/在线系统的工作流程图。图1示例了增量计算平台(Galaxy)某个任务(Job)的DAG拓扑图，图1中的每个计算节点(Model)由多个执行单元(Executor)并发运行。在典型的分布式离线/在线计算平台中，计算节点的类型可能包含有映射处理(Mapper)、归约处理(Reduce)、聚合处理(Merger)中的一种或者几种。在DAG系统中，数据流从DAG图的根节点(即Source节点)流入，经过各级运算节点，从叶子节点(即Output节点)流出。在DAG中可能有1个或者多个根节点，在图1中包含有两个根节点：计算节点0和计算节点1；叶子节点也可能有一个或者多个，在图1中包含有4个叶子节点：计算节点16(Merger)、计算节点17(Merger)、计算节点18(Merger)和计算节点19(Merger)。DAG拓扑图各级计算节点的计算对数据流形成了流水线，数据分批次从根节点流入，逐级经过各级计算计算节点后，结果从叶子节点输出。其中，计算节点的计算能力与速度，可以由该计算节点的并发度，即执行单元(Executor)的并发数目调整。满负载完美运行的系统要求DAG中的所有计算节点计算能力具有一致性，如果某个计算节点的计算能力小于上级计算节点，那么上级计算节点输出的数据将在该计算节点堆积等待处理，并由此影响系统的吞吐性能。在现有技术中，广泛使用的分布式离线/在线基于流水线的计算平台对计算节点...

【技术保护点】
一种分布式有向无环图DAG系统的自适应优化方法，所述分布式DAG系统包括多个计算节点，其特征在于，所述方法包括：获取每个计算节点的性能数据；根据所述性能数据分别计算每个计算节点处理数据记录的时间，并根据计算节点处理数据记录的时间计算该计算节点的并发度；根据计算得到的并发度调整系统当前的并发度。

【技术特征摘要】
1.一种分布式有向无环图DAG系统的自适应优化方法，所述分布式DAG系统包括多个计算节点，其特征在于，所述方法包括：获取每个计算节点的性能数据；根据所述性能数据分别计算每个计算节点处理数据记录的时间，并根据计算节点处理数据记录的时间计算该计算节点的并发度；根据计算得到的并发度调整系统当前的并发度。2.根据权利要求1所述的方法，其特征在于，还包括：对所述DAG系统进行广度优先遍历，获取遍历到的计算节点的性能数据并根据所述性能数据计算该计算节点处理一条数据记录的时间，根据计算节点处理一条数据记录的时间计算该计算节点的并发度。3.根据权利要求1所述的方法，其特征在于，所述计算节点的类型包括以下的一种或多种：映射处理节点、归约处理节点、聚合处理节点；所述方法还包括：根据计算节点的类型获取该计算节点的性能数据。4.根据权利要求3所述的方法，其特征在于，还包括：将获取到的计算节点的性能数据存储至存储系统；从所述存储系统读取存储的性能数据，并根据读取的性能数据计算计算节点处理数据记录的时间。5.根据权利要求3所述的方法，其特征在于，进一步包括：对于映射处理节点，获取映射处理节点执行一条数据记录的时间；根据以下公式计算映射处理节点处理数据记录的时间：ppti＝li，其中，l为映射处理节点执行一条数据记录的时间。6.根据权利要求3所述的方法，其特征在于，进一步包括：对于归约处理节点，获取归约处理节点执行预定批次数据所花费的时间以及执行预定批次数据的数据数量；根据以下公式计算映射处理节点处理数据记录的时间：ppti＝fi/ti，其中，f为归约处理节点执行预定批次数据所花费的时间、t为归约处理节点执行预定批次数据的数据数量。7.根据权利要求3所述的方法，其特征在于，进一步包括：对于聚合处理节点，获取聚合处理节点执行预定批次数据所花费的时间、执行预定批次数据的数据数量、生成检查点所需时间、生成一次检查点所间隔的数据批次；根据以下公式计算聚合处理节点处理数据记录的时间：ppti＝max(fi/ti,cpti/ti*cbi)，其中，f为聚合处理节点执行预定批次数据所花费的时间、t为聚合处理节点执行预定批次数据的数据数量、cpt为生成检查点所需时间、cb为生成一次检查点所间隔的数据批次。8.根据权利要求5、6或7所述的方法，其特征在于，根据以下公式计算计算节点的并发度：adjV.dop＝Sum(v.dop*v.ratio*adjV.ppt/v.ppt)，其中，adjV为当前计算节点、v是当前计算节点的上游邻接计算节点、Sum()表示对当前计算节点的所有上游邻接计算节点求和、ratio为计算节点的吞吐率。9.根据权利要求1所述的方法，其特征在于，所述根据计算得到的新的并发度调整系统当前的并发度，包括：对比计算得到的新的并发度与系统当前的并发度，如果差值大于预设阈值则初始化系统并以新的并发度运行系统。10.一种分布式DAG系统的自适应优化装置，所述分布式DAG系统包括多个计算节点，其特征在于，所述装置包括：数据获取模块，用于获取每个计算节点的性能数据；计算模块，用于根据所述性...

【专利技术属性】
技术研发人员：黄益聪，强琦，余骏，金晓军，廖新涛，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人