一种基于资源预调度故障极速恢复的operator装置制造方法及图纸

技术编号:27418288 阅读:31 留言:0更新日期:2021-02-21 14:35
本发明专利技术公开了一种基于资源预调度故障极速恢复的operator装置,包括以下步骤:S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice),针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展,针对其他调度系统需要通过第三方插件方式。本发明专利技术在故障发生时,对于批任务通过IPOD预锁定资源显著降低批任务故障恢复的时间,极速恢复故障,对于长服务,IPOD预调度实现无缝进行故障恢复,服务可靠性得到极大提升。服务可靠性得到极大提升。服务可靠性得到极大提升。

【技术实现步骤摘要】
一种基于资源预调度故障极速恢复的operator装置


[0001]本专利技术涉及云原生基础设施领域,特别涉及一种基于资源预调度故障极速恢复的operator装置。

技术介绍

[0002]目前基于云原生技术资源调度有三种:单体调度(集中式结构,一个中央调度器,如:Borg/Kubernetes),两层调度(树形结构,一个中央调度器,多个第二层调度器如:mesos/yarn)以及共享状态调度(分布式结构,多个对等调度器,如google的Omega)。
[0003]1,单体调度采用Master/Slave架构,由一台或多台服务器组成Master节点,系统内所有的数据都存储在Master节点中,系统内的所有业务均先由Master处理,多个slave节点与master连接,并将自己的资源信息汇报给master,由master统一资源和任务调度。master一旦检测到服务失败或与期望值不符,并下发指令重新调度和生成(如图1所示);
[0004]2,两层调度:把资源和任务分开调度,一层只负责资源管理和分配,一层负责任务与资源匹配(如图2所示);
[0005]3,共享状态调度:分布式调度,每个调度器支持共享集群状态,包括资源状态和任务状态,提升调度效率(如图3所示)。

技术实现思路

[0006]本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种基于资源预调度故障极速恢复的operator装置。
[0007]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0008]本专利技术一种基于资源预调度故障极速恢复的operator装置,包括以下步骤:
[0009]S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice),针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展,针对其他调度系统需要通过第三方插件方式;
[0010]S2.具体包括两种调度方式:
[0011]一种是批处理任务,通常需要几分钟/小时处理,这种对短时间的波动不是很敏感,为了保证数据一致性,避免重复计算,故障发生时,智能调度器IPOD进行故障预测,提前采用预锁定资源,一旦发生故障,跳过资源申请阶段,加速恢复;
[0012]另一种是长服务,长时间运行不停止的服务,对短时间波动很敏感,要求能够毫秒/秒级返回(如web服务),故障发生前,IPOD进行故障预测,预先调度服务,进行无缝切换;
[0013]S3.IPOD服务可靠性预测算法:
[0014]1)Work节点画像特征;
[0015]2)task画像特征;
[0016]3)计算过程:
[0017]a)按照特征画像描述,分别计算节点画像特征和task画像特征,分别更新到失败
队列,队列长度为10。更新方法:当队列未填满时直接填充队列,当队列已满按照k-mediods无监督聚类方法,进行合并(k=10),从新形成10条记录;
[0018]b)分别计算与10组的余弦相似度求均值,且失败队列至少须有1组;
[0019]c)余弦相似度>0.8和在线模型预测开启预调度,同时0.8作为初始参数,本任务修正参数为0;
[0020]d)超时(15分钟)任务未失败则取消预调度,并记录预调度次数,累计3次修正更新相识度阈值及本任务的初始矫正参数减去0.2进行修正;
[0021]e)同时对于未预测成功的的调度任务进行记录进行合并,以及任务参数修正,按加上0.2修正;
[0022]f)重复a-e步骤。
[0023]与现有技术相比,本专利技术的有益效果如下:
[0024]本专利技术在故障发生时,对于批任务通过IPOD预锁定资源显著降低批任务故障恢复的时间,极速恢复故障,对于长服务,IPOD预调度实现无缝进行故障恢复,服务可靠性得到极大提升。
附图说明
[0025]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0026]图1是本专利技术的实施例示意图之一;
[0027]图2是本专利技术的实施例示意图之一;
[0028]图3是本专利技术的实施例示意图之一;
[0029]图4是本专利技术的实施例示意图之一;
[0030]图5是本专利技术的实施例示意图之一;
[0031]图6是本专利技术的实施例示意图之一;
[0032]图7是本专利技术的实施例示意图之一;
[0033]图8是本专利技术的实施例示意图之一。
具体实施方式
[0034]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0035]实施例1
[0036]本专利技术如图1-8所示,本专利技术提供一种基于资源预调度故障极速恢复的operator装置,包括以下步骤:
[0037]S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice),针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展,针对其他调度系统需要通过第三方插件方式(如图1所示);
[0038]S2.具体包括两种调度方式(如图2所示):
[0039]一种是批处理任务,通常需要几分钟/小时处理,这种对短时间的波动不是很敏感,为了保证数据一致性,避免重复计算,故障发生时,智能调度器IPOD进行故障预测,提前
采用预锁定资源,一旦发生故障,跳过资源申请阶段,加速恢复;
[0040]另一种是长服务,长时间运行不停止的服务,对短时间波动很敏感,要求能够毫秒/秒级返回(如web服务),故障发生前,IPOD进行故障预测,预先调度服务,进行无缝切换;
[0041]S3.IPOD服务可靠性预测算法:
[0042]1)Work节点画像特征:
[0043][0044][0045]2)task画像特征:
[0046][0047]3)计算过程(如图3):
[0048]a)按照特征画像描述,分别计算节点画像特征和task画像特征,分别更新到失败队列,队列长度为10。更新方法:当队列未填满时直接填充队列,当队列已满按照k-mediods无监督聚类方法,进行合并(k=10),从新形成10条记录;
[0049]b)分别计算与10组的余弦相似度求均值,且失败队列至少须有1组;
[0050]c)余弦相似度>0.8和在线模型预测开启预调度,同时0.8作为初始参数,本任务修正参数为0;
[0051]d)超时(15分钟)任务未失败则取消预调度,并记录预调度次数,累计3次修正更新相识度阈值及本任务的初始矫正参数减去0.2进行修正;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于资源预调度故障极速恢复的operator装置,其特征在于,包括以下步骤:S1.在原调度系统上扩展智能预调度IPOD装置(IPOD:intelligentprescheduleroperatordevice),针对kubernetes系统可通过CRD(customresourcedefinition)方式扩展,针对其他调度系统需要通过第三方插件方式;S2.具体包括两种调度方式:一种是批处理任务,通常需要几分钟/小时处理,这种对短时间的波动不是很敏感,为了保证数据一致性,避免重复计算,故障发生时,智能调度器IPOD进行故障预测,提前采用预锁定资源,一旦发生故障,跳过资源申请阶段,加速恢复;另一种是长服务,长时间运行不停止的服务,对短时间波动很敏感,要求能够毫秒/秒级返回(如web服务),故障发生前,IPOD进行故障预测,预先调度服务,进...

【专利技术属性】
技术研发人员:徐华建谢巍胜张兴张校
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1