一种基于在线容错的云计算资源调度方法技术

技术编号:29928634 阅读:18 留言:0更新日期:2021-09-04 18:52
本发明专利技术公开了一种基于在线容错的云计算资源调度方法。在线容错包含静态容错和动态容错两个方面,针对反应容错方法备份成本高的问题,静态容错通过马尔科夫模型,筛选出关键组件,对其进行备份,提高备份组件的准确性,仅对少数组件备份便可达到很好的容错效果,即对使用频率高、功能重要的组件进行备份;针对主动容错监控成本高,动态容错通过数学建模的方式,分析各个组件的可靠性,可以通过少量指标就可以获得组件的实时状态,在故障发生时,迅速选择监控组件进行替换;以此提高了云计算系统的可靠性并减少云计算容错过程的成本开销。统的可靠性并减少云计算容错过程的成本开销。统的可靠性并减少云计算容错过程的成本开销。

【技术实现步骤摘要】
一种基于在线容错的云计算资源调度方法


[0001]本专利技术属于云计算
,具体涉及一种基于在线容错的云计算资源调度方法。

技术介绍

[0002]随着云计算、物联网、5G、大数据以及人工智能的不断普及和广泛应用,通过新一代信 息化技术不断实现各类资源的整合与共享,逐步形成一种全新的大规模复杂云系统。由于参 与计算的节点种类多样、位置分布稀疏且通常无法有效控制,容易产生安全问题;并且云服 务供应商在传输、处理和存储的过程中均存在网络拥塞的风险,如何提高系统容错能力、实 现高效快速计算成为新的挑战。
[0003]容错被定义为系统即使在出现故障时仍能继续执行其预期任务的能力。没有容错能力, 即使是一个设计精良,具有最佳组件和服务的系统也不能被认为是可靠的。因此,服务可靠 性对于广泛的云计算应用至关重要。目前,云计算领域容错方法,分为主动性方法和反应性 方法。主动容错在实际问题发生前进行检测,预测故障并替换可疑组件。反应容错则是当故 障发生时,反应性容错减少故障对应用程序执行的影响。
[0004]基于主动容错的方法:通过对系统状态进行持续监控,并使用人工智能算法估计组件故 障发生率。然后采取必要的措施来防止故障的发生,这些方法是基于概率统计的。主要包括: 自我修复(Self

Healing)、抢占迁移(Pre

emptive migration)、系统复兴(System rejuvenation) 等方法;
[0005]基于反应容错的方法:一般在故障发生后对其进行处理,使用系统维护程序来消除发生 的故障的影响。基于反应容错的方法不需要检查系统的行为,因此不会造成任何不必要的开 销。主要包括:检查点技术、虚拟机迁移、复写(Replication)等方法;
[0006]传统的容错方法虽然应用广泛,但存在以下问题:
[0007](1)基于主动容错的方法需要对系统进行持续监控,由于云计算组件众多,结构复杂, 对所有组件通过额外的监控组件进行监控,会消耗大量的云计算资源,产生巨大功耗,造成 极大的成本负担;
[0008](2)基于反应容错的方法在故障发生后进行,例如复写技术(Replication),通过备份组 件,保证系统的可靠性,但缺乏对组件的分析,若对所有组件进行备份,也会造成极大的资 源浪费。

技术实现思路

[0009]针对现有技术中的不足,本专利技术综合主动容错与反应容错的特点,提供一种基于在线容 错的云计算资源调度方法。本专利技术的目的在于提高云计算系统的可靠性、减少云计算容错过 程的成本开销。本专利技术的技术解决方案为:通过建立马尔科夫模型计算云组件的可靠性,静 态容错方法通过LeaderRank算法对组件进行排名,选出关键组件进行备份;系统发生故障时, 通过动态容错方法,筛选健康组件,进行快速替换,以此达到提高云计算系
统的可靠性、降 低容错成本的目的,主要内容包括:
[0010]为实现上述目的,本专利技术采用以下技术方案:一种基于在线容错的云计算资源调度方法, 包括如下步骤:
[0011]S1、云计算资源调度任务划分过程:将任务集合与资源池中的云组件集合进行匹配;
[0012]S2、在线容错过程:在线容错考虑调度过程中云计算组件故障,旨在以最低成本,完成 用户提交的任务,做到系统成本低,用户完成时间短的目标。首先通过静态容错筛选关键组 件(比如一个支付系统中负责支付功能的组件)对其备份,避免对全部组件进行备份,节约 成本;当系统发生故障时,通过动态容错,寻找可靠性高的组件进行替换,排除故障,及时 完成用户的任务;
[0013]S3、资源调度过程:上述过程,发生了多次调度。静态容错为对关键组件进行备份,为 第一次调度;即根据用户的任务,分配相应的组件,对关键组件备份,为资源调度提供蓝图; 云系统执行期间,若发生故障,如果判断是非关键组件故障,静态容错无法发挥作用,则需 要进行再次调度,通过动态容错找到替换组件,使任务正常运行;达到容错的目的。
[0014]为了解决在线容错产生的求解时间变长、寻找替换组件困难的问题,设计评价函数E, 将用户完成时间T以及组件的替换成本作为目标,使用线性加权法进行多目标优化,简化求 解目标,从理论上缩短计算量;其次,对于多次调度,仅采用一种调度算法不能快速、高效 求解,故需要设计新的调度算法。发生多次调度时,设计最大评价值优先算法(MEF算法), 将评价函数E作为适应度函数,将PSO算法与PBIL算法进行结合;采用PSO算法对种群进 行初始化,初步确定求解范围,通过静态容错筛选关键组件;接着采用PBIL算法,从宏观 控制种群进化方向,调用动态容错,排除故障,完成用户任务,进而更快得到最优分配以 Task1,Task2,...Task
n
及相应的评价值,实现多目标优化的资源调度。实现多目标优化的资源 调度。
[0015]具体过程如下:
[0016](1)构建基于多目标优化的评价函数
[0017]静态容错通过对关键组件备份,可以实现用较低的成本达到较好的容错效果,完成初步 调度;调度过程中发生故障,再次调度,调用动态容错,在两个关键组件之间寻找替换组件, 缩短用户完成时间,保障任务顺利进行。整个过程中,用户完成时间T、动态容错成本C、 系统延迟D,以及系统可用性A,共同影响资源调度的效率。通过线性加权法,设计评价函 数E,来反映资源调度的效率。
[0018](2)基于PSO算法初始化种群
[0019]由于粒子群算法PSO可设置大量的粒子充斥解空间,增大搜索到更优解的概率,拥有较 好的全局搜索能力;适用于本专利技术的资源调度方法。静态容错时,PSO算法对种群进行初始 化,初步确定求解范围,即对资源调度做出初步规划。
[0020](3)基于PBIL算法求解动态容错
[0021]执行任务发生故障时,动态容错强调寻找替换组件,是一种局部调度,因此,使用PBIL 算法继续求解。PBIL算法是一种基于现有解学习的进化算法,算法基于当前优秀个体的学习 得到概率模型,通过概率模型控制产生新的群体。通过PSO算法初试化种群之后,采用PBIL 算法继续求解,这里用评价值作为适应度函数,比遗传算法的交叉变异有更高的效
率,最终 得到了在系统评价值最大的情况下的资源分配情况,即让每个云任务都得到了最优的云组件 去处理。
[0022]为优化上述技术方案,采取的具体措施还包括:
[0023]进一步地,步骤S2包括:
[0024]S21、可靠性建模过程:云组件执行任务时,会发生故障,但云组件长时间运行错误的发 生率不是一个恒定不变的量而是随时间t变化的函数,故在线容错算法利用NHPP模型(非 齐次泊松过程模型),描述时间变量和软件的累计故障数。根据云组件故障的严重程度,分为 一般性失效与严重性失效;针对以上两种故障,分别采用静态容错与动态容错两种方法解决;
[0025]S22、静态容错过程:针对云组件的一般性失效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于在线容错的云计算资源调度方法,其特征在于,包括如下步骤:S1、云计算资源调度任务划分过程:将任务集合与资源池中的云组件集合进行匹配;S2、在线容错过程:首先通过静态容错筛选关键组件对其备份;当系统发生故障时,通过动态容错,寻找可靠性高的组件进行替换,排除故障;S3、资源调度过程:静态容错为对关键组件进行备份,为第一次调度;云系统执行期间,若发生故障,如果判断是非关键组件故障,静态容错无法发挥作用,则需要进行再次调度,通过动态容错找到替换组件,使任务正常运行;发生多次调度时,设计最大评价值优先算法,将评价函数E作为适应度函数,将PSO算法与PBIL算法进行结合;采用PSO算法对种群进行初始化,通过静态容错筛选关键组件;采用PBIL算法,调用动态容错,排除故障,完成用户任务,实现多目标优化的资源调度。2.根据权利要求1所述的云计算资源调度方法,其特征在于,步骤S2包括:S21、可靠性建模过程:利用NHPP模型,描述时间变量和软件的累计故障数;根据云组件故障的严重程度,分为一般性失效与严重性失效;针对以上两种故障,分别采用静态容错与动态容错两种方法解决;S22、静态容错过程:针对云组件的一般性失效,通过对关键组件备份,实现用较低的成本达到较好的容错效果,完成初步调度;静态容错考虑组件本身可靠性R以及完成过程可靠性Pt,采用改进的LeaderRank算法对组件进行排名,以此筛选出关键组件;S23、动态容错过程:针对云组件的严重性失效,故障产生时,在两个关键组件之间,寻找替换服务组件,将贪婪函数和松弛函数作为启发式函数求解,以找到接近最优的替换组件。3.根据权利要求2所述的云计算资源调度方法,其特征在于,一般性失效故障的期望函数m(t)性质如下:根据以上假设,可以得到:m(t+Δt)

m(t)=θ1[a

m(t)]Δt+o(t)m(t)]Δt+o(t)其中,a表示云组件总故障数;x
i
表示故障间隔,i=1,2......;R表示第i次失效发生后云组件可靠性;t表示云组件运行的时间;θ1表示云组件发生一般性失效故障的故障率;同理,云组件发生严重性失效时,其云组件可靠性函数R如下:θ2表示云组件发生严重性失效故障的故障率;静态容错完成过程可靠性Pt定义如下:
L
n
表示链接到云组件的设备数量,S
n
表示过程结构类型的数量,e

λt
是时间加权指数,表示过程可靠性随时间的下降程度;假设有n个云计算组件,迭代矩阵M是n维方阵:矩阵M是n维方阵:表示组件i到j的转移概率,是邻接矩阵,表示i到j的权重。4.根据权利要求2所述的云计算资源调度方法,其特征在于,动态容错是在两个关键组件之间,替换发生故障的服务,并同时满足QoS约束,将问题抽象为0

1整数约束的多目标优化问题,其公式如下:其中,T
cons
,D
cons
,C
cons
,A
cons
是为保证用户QoS需求的最低标准,T
cons
表示用户完成时间QoS要求,D
cons
表示延迟时间QoS要求,C
cons
表示容错成本QoS要求,A
cons
表示系统可用性QoS要求,不可能为0,故贪婪函数G:松弛函数H:5.根据权利要求4所述的云计算资源调度方法,其特征在于,把松弛函数作为资源调度算法的评价函数,将E作为评价函数,将松弛函数的权重系数简化为[0.25,0.25,0.25,0.25],将静态容错评价函数E的动态容错成本C看做C
cons
,同理系统延迟D看做D
cons
,并且系统可用性A看做A
cons
,静态容错的评价函数为:
6.根据权利要求4所述的云计算资源调度方法,其特征在于,云服务过程中系统延迟D如...

【专利技术属性】
技术研发人员:都繁杰叶莹刘赛刘军高丰李静胡游君张磊刘逸逸傅敏杰康恺彭玮舟常沁楠
申请(专利权)人:南京南瑞信息通信科技有限公司国网上海市电力公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1