The invention discloses a combined load balancing work back fill method, first of all, on the basis of task characteristics, task division, resource consumption can be divided into CPU or IO resource consumption; then the backfilling strategy is improved, the backfilling scheduling strategy based on Workflow unit; finally is to deliver backfill tasks, improvement in the task selection on the backfill backfill strategy, task selection, task characteristics and needs of the host load, high load IO host consumption, low consumption load CPU. The method of the invention can effectively dispatch the task stream, reduce the execution time of the task stream, and also realize the load balancing of many nodes in the high-performance computing system.
【技术实现步骤摘要】
一种结合负载均衡的工作流回填方法
本专利技术涉及高性能计算领域,尤其是指一种结合负载均衡的工作流回填方法。
技术介绍
大数据背景下,数据呈指数级别增加,大数据的处理依赖以集群为主的高性能计算系统,而高性能计算系统的性能又很大程度上依赖于调度和负载均衡策略,所以一个好的调度策略和负载均衡策略显得越为重要。如今运行在高性能计算系统上任务流越来越多,例如基因测序。基因测序是对目标DNA进行碱基的序列测定,并进行各种相关分析。基因测序已经广泛应用于快速疾病诊断、疫情检测、大规模物种群体进化及个性化医疗等。基因测序的大部分计算任务如全基因组重测序(WGRS)等都需要大量的计算,耗费巨大资源,依赖于高性能平台处理,而且都是典型的工作流计算任务。然而适合任务流的调度策略却很少,很多系统将任务流拆分成单个任务运行,按照传统的单任务投递方式进行调度,也就是单个任务投递,下一级任务依赖上一级任务结果的则进行人工等待,等上一级任务完成则将上一级运行结果作为输入,开始下一级的任务。随着技术的发展,目前也有许多运行任务流的系统,但仍然存在以下问题:(1)在系统层面上,虽然整个计算任务是按照任务流提交,通过设定任务流的有向无环图(DAG)提交给系统,但是系统调度本质上还是以单个任务为单位,只不过无需人工的等待并能够自动运行下一级任务,调度策略还是以单个任务为单位,并不是以整个任务流作为调度单位,因此计算效率无法保证。(2)在工作流调度时,经常出现任务特性和任务规模差异较大的情况。目前很多调度方法主要关注调度效率,例如在一般任务调度上有良好表现的资源预留与回填(简称回填,Backfil ...
【技术保护点】
一种结合负载均衡的工作流回填方法,其特征在于,包括以下步骤:1)对任务特性的划分先对任务进行分类,采用kmeans聚类方式将任务划分成CPU资源消耗型或者IO资源消耗型,主要是标识任务类型,聚类的类别数k的确定,这里采用一种失真度的度量方式来确定聚类类别数k,如下式(1)和式(2)所示:
【技术特征摘要】
1.一种结合负载均衡的工作流回填方法,其特征在于,包括以下步骤:1)对任务特性的划分先对任务进行分类,采用kmeans聚类方式将任务划分成CPU资源消耗型或者IO资源消耗型,主要是标识任务类型,聚类的类别数k的确定,这里采用一种失真度的度量方式来确定聚类类别数k,如下式(1)和式(2)所示:式中,sk为聚成k类的总失真度sk=∑k∑i(xi-xk)2,xi第i个输入数据,xk为第k个中心点,αk为权重,Nd为输入数据维数,αk-1和sk-1分别是聚k-1类的权值和失真度,f(k)则表示聚成k类的失真度比例;通过不断的选择k取值,获取f(k)-k的变化曲线,然后找出变化曲线最低点,最低点即类别k理想情况;在最低点处,失真度sk达到最小;通过式(1)、(2)确定k,最后再依据下式(3)计算每个数据的类型信息;式中,xi表示第i个数据点,ck表示第k个聚类中心点,f(xi)表示映射的任务类别信息值;任务模型根据任务基本属性CPU、IO以及任务类别信息值f(xi)这3属性在模拟平台上产生任务;2)对回填策略的改进主要对算法层面进行改进,使回填算法能够适应工作流;在对传统回填算法改进上增加了工作流调度方式、工作流输入方式即输入任务和任务偏序关系;还包含了对工作流调度方案的改进,主要是对回填调度算法改进以及工作流单位和普通单个任务的竞争约束规则;改进回填算法执行流程:在模拟平台上先根据任务2个资源属性即CPU、IO数据以及类别信息值,结合平台设置相关参数产生任务,然后再根据任务之间的偏序关系生成任务流,具体是利用邻接矩阵,建立DAG来保存任务流信息,最后增加了设置任务优先级操作,对任务优先级进行设置,将任务提交至等待队列;在等待队列中首先选择可调度任务,扫描等待队列,从队列头开始调度,查看任务资源需求是否得到满足,然后对任务流检测,如果是任务流,则检测父级任务是否完成,如果能够调度则提交给调度器,否则将任务进行回填处理,将任务提交至回填子程序,最后对任务运行时间的精确预测操作,寻找回填间隙,如果能够回填,则重新提交给任务流检测子程序,如果不能回填,则将任务仍放入等待队列,开启下一个任务;对任务运行时间的预测,主要是利用前后N条历史数据来获取限定,根据下式(4)、(5)预测任务运行时间;
【专利技术属性】
技术研发人员:董守斌,吕丹,董守玲,张铃启,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。