一种基于在线容错的云计算资源调度方法技术

技术编号：29928634 阅读：18 留言：0更新日期：2021-09-04 18:52

本发明专利技术公开了一种基于在线容错的云计算资源调度方法。在线容错包含静态容错和动态容错两个方面，针对反应容错方法备份成本高的问题，静态容错通过马尔科夫模型，筛选出关键组件，对其进行备份，提高备份组件的准确性，仅对少数组件备份便可达到很好的容错效果，即对使用频率高、功能重要的组件进行备份；针对主动容错监控成本高，动态容错通过数学建模的方式，分析各个组件的可靠性，可以通过少量指标就可以获得组件的实时状态，在故障发生时，迅速选择监控组件进行替换；以此提高了云计算系统的可靠性并减少云计算容错过程的成本开销。统的可靠性并减少云计算容错过程的成本开销。统的可靠性并减少云计算容错过程的成本开销。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于在线容错的云计算资源调度方法

[0001]本专利技术属于云计算
，具体涉及一种基于在线容错的云计算资源调度方法。

技术介绍

[0002]随着云计算、物联网、5G、大数据以及人工智能的不断普及和广泛应用，通过新一代信息化技术不断实现各类资源的整合与共享，逐步形成一种全新的大规模复杂云系统。由于参与计算的节点种类多样、位置分布稀疏且通常无法有效控制，容易产生安全问题；并且云服务供应商在传输、处理和存储的过程中均存在网络拥塞的风险，如何提高系统容错能力、实现高效快速计算成为新的挑战。
[0003]容错被定义为系统即使在出现故障时仍能继续执行其预期任务的能力。没有容错能力，即使是一个设计精良，具有最佳组件和服务的系统也不能被认为是可靠的。因此，服务可靠性对于广泛的云计算应用至关重要。目前，云计算领域容错方法，分为主动性方法和反应性方法。主动容错在实际问题发生前进行检测，预测故障并替换可疑组件。反应容错则是当故障发生时，反应性容错减少故障对应用程序执行的影响。
[0004]基于主动容错的方法：通过对系统状态进行持续监控，并使用人工智能算法估计组件故障发生率。然后采取必要的措施来防止故障的发生，这些方法是基于概率统计的。主要包括：自我修复(Self
‑
Healing)、抢占迁移(Pre
‑
emptive migration)、系统复兴(System rejuvenation) 等方法；
[0005]基于反应容错的方法：一般在故障发生后对...

【技术保护点】

【技术特征摘要】
1.一种基于在线容错的云计算资源调度方法，其特征在于，包括如下步骤：S1、云计算资源调度任务划分过程：将任务集合与资源池中的云组件集合进行匹配；S2、在线容错过程：首先通过静态容错筛选关键组件对其备份；当系统发生故障时，通过动态容错，寻找可靠性高的组件进行替换，排除故障；S3、资源调度过程：静态容错为对关键组件进行备份，为第一次调度；云系统执行期间，若发生故障，如果判断是非关键组件故障，静态容错无法发挥作用，则需要进行再次调度，通过动态容错找到替换组件，使任务正常运行；发生多次调度时，设计最大评价值优先算法，将评价函数E作为适应度函数，将PSO算法与PBIL算法进行结合；采用PSO算法对种群进行初始化，通过静态容错筛选关键组件；采用PBIL算法，调用动态容错，排除故障，完成用户任务，实现多目标优化的资源调度。2.根据权利要求1所述的云计算资源调度方法，其特征在于，步骤S2包括：S21、可靠性建模过程：利用NHPP模型，描述时间变量和软件的累计故障数；根据云组件故障的严重程度，分为一般性失效与严重性失效；针对以上两种故障，分别采用静态容错与动态容错两种方法解决；S22、静态容错过程：针对云组件的一般性失效，通过对关键组件备份，实现用较低的成本达到较好的容错效果，完成初步调度；静态容错考虑组件本身可靠性R以及完成过程可靠性Pt，采用改进的LeaderRank算法对组件进行排名，以此筛选出关键组件；S23、动态容错过程：针对云组件的严重性失效，故障产生时，在两个关键组件之间，寻找替换服务组件，将贪婪函数和松弛函数作为启发式函数求解，以找到接近最优的替换组件。3.根据权利要求2所述的云计算资源调度方法，其特征在于，一般性失效故障的期望函数m(t)性质如下：根据以上假设，可以得到：m(t+Δt)
‑
m(t)＝θ1[a
‑
m(t)]Δt+o(t)m(t)]Δt+o(t)其中，a表示云组件总故障数；x
i
表示故障间隔，i＝1，2......；R表示第i次失效发生后云组件可靠性；t表示云组件运行的时间；θ1表示云组件发生一般性失效故障的故障率；同理，云组件发生严重性失效时，其云组件可靠性函数R如下：θ2表示云组件发生严重性失效故障的故障率；静态容错完成过程可靠性Pt定义如下：
L
n
表示链接到云组件的设备数量，S
n
表示过程结构类型的数量，e
‑
λt
是时间加权指数，表示过程可靠性随时间的下降程度；假设有n个云计算组件，迭代矩阵M是n维方阵：矩阵M是n维方阵：表示组件i到j的转移概率，是邻接矩阵，表示i到j的权重。4.根据权利要求2所述的云计算资源调度方法，其特征在于，动态容错是在两个关键组件之间，替换发生故障的服务，并同时满足QoS约束，将问题抽象为0
‑
1整数约束的多目标优化问题，其公式如下：其中，T
cons
，D
cons
，C
cons
，A
cons
是为保证用户QoS需求的最低标准，T
cons
表示用户完成时间QoS要求，D
cons
表示延迟时间QoS要求，C
cons
表示容错成本QoS要求，A
cons
表示系统可用性QoS要求，不可能为0，故贪婪函数G：松弛函数H：5.根据权利要求4所述的云计算资源调度方法，其特征在于，把松弛函数作为资源调度算法的评价函数，将E作为评价函数，将松弛函数的权重系数简化为[0.25，0.25，0.25，0.25]，将静态容错评价函数E的动态容错成本C看做C
cons
，同理系统延迟D看做D
cons
，并且系统可用性A看做A
cons
，静态容错的评价函数为：
6.根据权利要求4所述的云计算资源调度方法，其特征在于，云服务过程中系统延迟D如...

【专利技术属性】
技术研发人员：都繁杰，叶莹，刘赛，刘军，高丰，李静，胡游君，张磊，刘逸逸，傅敏杰，康恺，彭玮舟，常沁楠，
申请(专利权)人：南京南瑞信息通信科技有限公司国网上海市电力公司国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人