当前位置: 首页 > 专利查询>澳门大学专利>正文

一种多维资源在离线混部的动态调度方法及其系统技术方案

技术编号:35910221 阅读:13 留言:0更新日期:2022-12-10 10:49
本发明专利技术涉及离线资源调度技术领域,特别涉及一种多维资源在离线混部的动态调度方法及其系统;本发明专利技术先新作业提交,进行过滤从而筛选出符合要求的节点,再各节点根据各自的干扰健康度的取值变化,执行动态资源调整和离线作业重新迁徙,然后获取每个节点当前的资源监控数据指标且维护监控历史数据,继续每隔设定的间隔时间,获取各节点的资源监控数据指标从而计算得到各节点的当前干扰健康度;最后根据各节点的干扰健康度进行打分,选出得到最高分的节点作为调度节点,并把新作业调度至该调度节点上;本发明专利技术通过监控资源数据指标,采用初始调度后动态资源调整,再进行重新迁移的策略来保证混部场景下在线作业的性能不受影响。保证混部场景下在线作业的性能不受影响。保证混部场景下在线作业的性能不受影响。

【技术实现步骤摘要】
一种多维资源在离线混部的动态调度方法及其系统


[0001]本专利技术涉及离线资源调度
,特别涉及一种多维资源在离线混部的动态调度方法及其系统。

技术介绍

[0002]传统的服务部署方式使得数据中心的服务器资源利用率较低,一般在10%

20%之间,导致大量资源的浪费;在在离线混部技术是近年来备受各大云厂商重视的能提升资源利用率的有效手段,它通过将在线服务和离线作业混合部署到同一个集群的方式,大幅提升服务器的资源利用率,但目前在离线混部技术还存在诸多问题,如在离线作业由于可能要同时争抢服务器上的共享资源,导致在线服务的性能受到干扰,用户体验受到影响。
[0003]在在离线混部场景下的作业调度是一个复杂的多目标问题,既要考虑集群维度的负载均衡、作业亲和性等常规优化目标,还要考虑混部后的在线作业性能干扰情况,且调度完成后还要随着作业的实际运作情况随时动态调整资源,才能最大保障在线业务的SLA(Service Level Agreement,服务等级协议),因此是一个非常有挑战性的问题。
[0004]以往的工作中提出了一些方案,如Delimitrou等人提出的Paragon调度模型使用内存使用量、L1/L2/L3缓存、网络带宽等一系列监测指标作为输入,使用协同过滤算法来预测混部后节点的性能干扰情况,最后使用贪心算法来寻找最佳的节点,再如Vasile提出的HySARC调度模型则对作业所需的CPU和IO资源进行聚类,然后进行资源的匹配以完成调度,再如Garefalakis等人提出的Medea调度模型则将调度看成一个整数线性规划问题,将最大化资源利用率、最小碎片化等多个目标放在一个目标函数内,然后使用优化器进行求解;以上这些人提出的方案均不能很好地在离线混部场景下的作业调度问题。

技术实现思路

[0005]本专利技术主要解决的技术问题是提供了一种多维资源在离线混部的动态调度方法,其通过监控资源数据指标,利用深度神经网络构建准确的性能干扰模型,采用初始调度后动态资源调整,再进行重新迁移的策略来保证混部场景下在线作业的性能不受影响;还提供了一种多维资源在离线混部的动态调度系统。
[0006]为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种在离线混部的动态调度方法,其中,包括如下步骤:
[0007]步骤S1、新作业提交,进行过滤从而筛选出符合要求的节点;
[0008]步骤S2、各节点根据各自的干扰健康度的取值变化,执行动态资源调整和离线作业重新迁徙;
[0009]步骤S3、获取每个节点当前的资源监控数据指标且维护监控历史数据;
[0010]步骤S4、每隔设定的间隔时间,获取各节点的资源监控数据指标从而计算得到各节点的当前干扰健康度;
[0011]步骤S5、根据各节点的干扰健康度进行打分,选出得到最高分的节点作为调度节
点,并把新作业调度至该调度节点上。
[0012]作为本专利技术的一种改进,在步骤S2内,每个节点上均设有用于维护节点的干扰健康度的DeamonSet类型的Agent,所述Agent根据干扰健康度的取值变化来持续执行动态资源调整和离线作业重新迁移。
[0013]作为本专利技术的进一步改进,所述动态资源调整的步骤为:
[0014]步骤S201、若检测到当前节点的干扰健康度≤5且>2,触发离线作业资源压缩动作,限制该节点上的当前所有离线作业CPU使用额度同时将离线作业的CFS Quota值调整为当前值的一半;
[0015]步骤S202、若检测到当前节点的干扰健康度>9,触发离线作业资源恢复动作,恢复该节点上的当前所有离线作业CPU使用额度且将离线作业的CFS Quota值恢复为初始值;
[0016]步骤S203、循环执行上述步骤S201和步骤S202,间隔为10秒。
[0017]作为本专利技术的更进一步改进,在步骤S202内,所述初始值从Kubernetes的API Server中获取。
[0018]作为本专利技术的更进一步改进,所述离线作业重新迁徙的步骤为:
[0019]步骤S211、若检测到当前节点的干扰健康度≤2且该节点上一次执行离线作业重新迁移动作的时间离当前时间之差超过2分钟,则触发离线作业重新迁移动作,且更新当前节点最近一次发生离线作业重新迁移的时间;否则,重新执行步骤S211,间隔为10秒;
[0020]步骤S212、对离线作业的CPU使用率进行排序,选出当前CPU使用率最高的离线作业,作为待迁移对象;
[0021]步骤S213、从待迁移对象的Annotation中获取该离线作业上一次被迁移的时间,若当前时间与上一次被迁移时间之差大于30分钟,则将待迁移对象去掉,且更新待迁移对象的Annotation,记录最近一次被迁移的时间;否则,重新选择待迁移对象;
[0022]步骤S214、由Kubernetes的ReplicaSet Controller对待迁移对象的重新拉起和调度;
[0023]步骤S215、循环执行步骤S211~步骤S214,间隔为10秒。
[0024]作为本专利技术的更进一步改进,在步骤S3内,资源监控数据指标包括整机CPU利用率、整机内存使用率、整机内存带宽使用率、IPC、磁盘占用百分比。
[0025]作为本专利技术的更进一步改进,在步骤S4内,每隔10秒获取每个节点的资源监控数据的过去60秒的历史数据。
[0026]作为本专利技术的更进一步改进,以过去60秒的维护监控历史数据作为输入,得到当前节点的干扰健康度。
[0027]作为本专利技术的更进一步改进,在步骤S4内,将当前节点的干扰健康度推送给各自节点的Agent更新最新时刻的干扰健康情况。
[0028]一种在离线混部的动态调度系统,其中,包括:
[0029]提交筛选模块,用于新作业提交且进行过滤从而筛选出符合要求的节点;
[0030]执行模块,用于各节点根据各自的干扰健康度的取值变化,执行动态资源调整和离线作业重新迁徙;
[0031]获取监控模块,用于获取每个节点当前的资源监控数据指标且维护监控历史数据;
[0032]计算模块,用于每隔设定的间隔时间,获取各节点的资源监控数据指标从而计算得到各节点的当前干扰健康度;
[0033]调度模块,用于根据各节点的干扰健康度进行打分,选出得到最高分的节点作为调度节点。
[0034]本专利技术的有益效果是:与现有技术相比,本专利技术通过监控资源数据指标,利用深度神经网络构建准确的性能干扰模型,采用初始调度后动态资源调整,再进行重新迁移的策略来保证混部场景下在线作业的性能不受影响。
附图说明
[0035]图1为本专利技术的在离线混部的动态调度方法的步骤框图;
[0036]图2为本专利技术的动态资源调整的步骤框图;
[0037]图3为本专利技术的离线作业重新迁徙的步骤框图;
[0038]图4为本专利技术的流程示意图。
具体实施方式<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在离线混部的动态调度方法,其特征在于,包括如下步骤:步骤S1、新作业提交,进行过滤从而筛选出符合要求的节点;步骤S2、各节点根据各自的干扰健康度的取值变化,执行动态资源调整和离线作业重新迁徙;步骤S3、获取每个节点当前的资源监控数据指标且维护监控历史数据;步骤S4、每隔设定的间隔时间,获取各节点的资源监控数据指标从而计算得到各节点的当前干扰健康度;步骤S5、根据各节点的干扰健康度进行打分,选出得到最高分的节点作为调度节点,并把新作业调度至该调度节点上。2.根据权利要求1所述的一种在离线混部的动态调度方法,其特征在于,在步骤S2内,每个节点上均设有用于维护节点的干扰健康度的DeamonSet类型的Agent,所述Agent根据干扰健康度的取值变化来持续执行动态资源调整和离线作业重新迁移。3.根据权利要求2所述的一种在离线混部的动态调度方法,其特征在于,所述动态资源调整的步骤为:步骤S201、若检测到当前节点的干扰健康度≤5且&gt;2,触发离线作业资源压缩动作,限制该节点上的当前所有离线作业CPU使用额度同时将离线作业的CFS Quota值调整为当前值的一半;步骤S202、若检测到当前节点的干扰健康度&gt;9,触发离线作业资源恢复动作,恢复该节点上的当前所有离线作业CPU使用额度且将离线作业的CFS Quota值恢复为初始值;步骤S203、循环执行上述步骤S201和步骤S202,间隔为10秒。4.根据权利要求3所述的一种在离线混部的动态调度方法,其特征在于,在步骤S202内,所述初始值从Kubernetes的API Server中获取。5.根据权利要求4所述的一种在离线混部的动态调度方法,其特征在于,所述离线作业重新迁徙的步骤为:步骤S211、若检测到当前节点的干扰健康度≤2且该节点上一次执行离线作业重新迁移动作的时间离当前时间之差超过2分钟,则触发离线作业重新迁移动作,且更新当前节点最近一次发生离线作业重新...

【专利技术属性】
技术研发人员:叶可江林鹏须成忠
申请(专利权)人:澳门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1