System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 混部集群中基于二阶段干扰感知离线任务调度方法及系统技术方案_技高网

混部集群中基于二阶段干扰感知离线任务调度方法及系统技术方案

技术编号:40348746 阅读:7 留言:0更新日期:2024-02-09 14:33
本发明专利技术提供了一种混部集群中基于二阶段干扰感知离线任务调度方法及系统,包括:基于历史任务资源数据分析,建立基于高斯混合模型的离线任务特征聚类预测模型;根据不同任务对资源的敏感程度不同的分析,构建基于因果推断的任务特征分析,推断出任务是否为CPU敏感型或内存敏感型;根据推断出的任务资源特征,建立基于强化学习的在线干扰量化模型,对任务的调度进行打分,选择一批不发生SLA违反的容器作为候选容器;对不同任务的组合关系进行分析预测,从候选容器中选择一个最佳容器作为调度的策略。本发明专利技术适合大规模集群的分布式混合部署的微服务框架。

【技术实现步骤摘要】

本专利技术涉及大规模数据中心领域,具体地,涉及一种混部集群中基于二阶段干扰感知离线任务调度方法及系统


技术介绍

1、在如今的大规模数据中心里,通常包含面向用户的延迟敏感型(latency-sensitive,ls)的在线服务和大量批处理的尽最大努力(best-effort,be)的离线任务。在线服务通常是与用户进行交互的,包括即时的软件消息、实时搜索或者购买预定等实时信息,在线服务一般对时延要求比较高,并以响应时间作为衡量服务性能的指标。离线任务通常指的是进行大量计算的批处理任务,这类任务往往一次性执行,并对时间要求不高,通常包含数据库sql执行语句、进行合并或复制的任务和机器学习训练任务等。为了提高机器的资源利用率,通常将这两类应用部署在同一集群中,并使用分布式系统进行调度。但是部署在同一主机,甚至在同一socket的在线服务与离线任务之间难免会产生干扰问题,这会导致在线服务的服务质量下降。

2、在主机整体资源利用率较低时,干扰问题一般不太严重,不会对在线服务产生显著的影响;但是随着任务变多,主机资源利用率升高时,干扰问题就会比较明显。这是因为处于同一socket的任务会共享主机的llc,处于同一cpu物理核的任务会共享l1、l2 cache,cache的内容查找和缺页替换问题会带来很高的性能开销。与在线服务相比,离线任务的优先级通常较低,因此在干扰问题较为严重时,需要暂停甚至杀死离线任务来保证在线服务的服务质量,直到干扰问题得到缓解,再恢复离线任务的运行。这样的做法虽然可以减少干扰问题的发生,但是不断地杀死离线任务同样带来很大的性能开销和浪费。

3、为了缓解或者避免干扰问题的发生,主要研究的问题可以分为两类:基于性能剖析的干扰避免和基于反馈式的干扰缓解。基于性能剖析的干扰避免问题通常会采取预训练特征分析的方法,例如对比单独部署的服务和不断增加压力下的服务的性能的变化,来量化干扰以及避免干扰的发生。但是这类问题通常难以泛化,或者在服务扩展时还需要进行模型的重新构建。基于反馈式的干扰缓解问题通常要基于性能指标的实时采集,通过响应时间或者cpi(cycle per instruction)的变化来采取不同的策略,这类方法无需在服务启动之前做过多的模型训练,但是对服务运行时的采集性能有很高的要求,往往不适用于大规模集群中的部署,因为需要在所有的主机上都进行采集工具的部署。此外,如何在主机发生sla违反时快速地将主机服务恢复至正常也是一个巨大的挑战。

4、专利文献cn116880980a公开了一种多资源感知的gup共享动态资源调度方法及系统,涉及计算机
,包括:离线获取每个深度学习任务在不同gpu数量上的平均单次迭代时间;离线记录每次迭代中的数据加载、数据预处理、前向和反向传播、参数同步四个阶段的平均持续时间作为每种资源类型的占用时间;根据集群空闲资源和任务的不同资源需求决定任务合并共享gpu的最优分组策略和在集群中的最优放置策略,将任务下发至计算节点执行。但该专利技术没有进一步考虑离线任务间自身的干扰问题,在混合部署的场景下更好的避免干扰的发生。


技术实现思路

1、针对现有技术中的缺陷,本专利技术的目的是提供一种混部集群中基于二阶段干扰感知离线任务调度方法及系统。

2、根据本专利技术提供的一种混部集群中基于二阶段干扰感知离线任务调度方法,包括:

3、步骤s1:基于历史任务资源数据分析,建立基于高斯混合模型的离线任务特征聚类预测模型;

4、步骤s2:根据不同任务对资源的敏感程度不同的分析,构建基于因果推断的任务特征分析,推断出任务是否为cpu敏感型或内存敏感型;

5、步骤s3:根据推断出的任务资源特征,建立基于强化学习的在线干扰量化模型,对任务的调度进行打分,选择一批不发生sla违反的容器作为候选容器;

6、步骤s4:对不同任务的组合关系进行分析预测,从候选容器中选择一个最佳容器作为调度的策略。

7、优选地,在所述步骤s1中:

8、基于数据中心的真实生产集群中的数据进行分析,集群中的在线服务运行于特定主机之上,采用负载均衡的思想,在线服务有实例部署在不同的主机上,用户的请求被平均地转发到各个实例上进行处理;在线服务采集的性能指标包括主机cpu利用率、主机mem利用率、每秒查询率qps、以及响应时间rt;随着时间的变化,qps呈现周期性的波动,并且cpu利用率通常处于相对较低的水平;

9、与在线服务相反,离线任务占用较高的cpu利用率,每个离线任务的实例消耗资源较少,离线任务的数量较多,并且每个离线任务以job、task、instance的层次结构划分出多个实例;task级别描述的是不同离线任务下子任务的类型,一个sql任务包含多个map、join和reduce子任务,由于子任务之间为上下游的关系,形成一条链路,离线任务表示成一个有向无环图dag;业务生产环境中存在着任务重复运行的特点,若有两个离线任务的dag图相同,则这两个任务执行了相同的代码逻辑,但是所运行的代码片断不同;

10、不同类型的离线任务有不同的资源消耗特征;负责数据复制和迁移的duplicate任务cpu用量相对较低,运行时间随着数据量的增加而变长;查询任务sql和sqlrt进行数据的处理、合并、排序操作,sqlrt任务要求在预设时间内完成,占用资源量通常较多;机器学习类任务algorithm随着具体任务的不同有不同的资源消耗量,机器学习类任务运行时间比其他任务的时间更长,根据不同任务的调用链关系和任务类型对任务进行进一步资源画像;

11、基于高斯混合模型的预测框架:

12、同一个cpu核上,或同一个socket上的进程存在资源竞争的问题,不同任务的实例的cpu用量处于不同的范围内,呈现出不同的均值和方差,多个任务的组合有特定的均值及方差,采用高斯混合模型对实例的资源消耗情况进行预测,待预测的指标有实例的每秒cpu用量、每秒内存用量和运行时间。

13、优选地,在所述步骤s2中:

14、基于因果推断的特征分析:

15、基于预测模型,得到离线任务实例的资源使用情况,cpu敏感型任务指的是当离线容器内的资源利用率波动剧烈情况符合预设标准时,离线任务实例本身的资源用量也会受到影响程度符合预设标准的一批实例;cpu不敏感型指的就是实例资源用量不会受到容器资源利用率的影响的实例;

16、对于同一类离线任务,运行时间和每秒cpu用量呈现反比例趋势,实例的运行时间越长,每秒的cpu用量就越少,运行时间越短,每秒的cpu用量越多;实例与主机cpu用量之间的关系为:主机容器的cpu用量越高,实例的cpu用量越低;这样的实例符合cpu敏感型任务,设计因果推断模型进行特征分析;

17、通过随机化实验确定只有离线容器利用率对实例产生影响;使用多因素之间的因果推断研究,构建贝叶斯网络模型,计算公式如下:

18、ate= e[y|treatment]-本文档来自技高网...

【技术保护点】

1.一种混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,包括:

2.根据权利要求1所述的混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,在所述步骤S1中:

3.根据权利要求1所述的混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,在所述步骤S2中:

4.根据权利要求1所述的混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,在所述步骤S3中:

5.根据权利要求1所述的混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,在所述步骤S4中:

6.一种混部集群中基于二阶段干扰感知离线任务调度系统,其特征在于,包括:

7.根据权利要求6所述的混部集群中基于二阶段干扰感知离线任务调度系统,其特征在于,在所述模块M1中:

8.根据权利要求6所述的混部集群中基于二阶段干扰感知离线任务调度系统,其特征在于,在所述模块M2中:

9.根据权利要求6所述的混部集群中基于二阶段干扰感知离线任务调度系统,其特征在于,在所述模块M3中:

10.根据权利要求6所述的混部集群中基于二阶段干扰感知离线任务调度系统,其特征在于,在所述模块M4中:

...

【技术特征摘要】

1.一种混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,包括:

2.根据权利要求1所述的混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,在所述步骤s1中:

3.根据权利要求1所述的混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,在所述步骤s2中:

4.根据权利要求1所述的混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,在所述步骤s3中:

5.根据权利要求1所述的混部集群中基于二阶段干扰感知离线任务调度方法,其特征在于,在所述步骤s4中:

...

【专利技术属性】
技术研发人员:钱诗友邓喻丰曹健薛广涛
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1