当前位置: 首页 > 专利查询>重庆大学专利>正文

一种云数据中心主机检查点设置的方法、装置和系统制造方法及图纸

技术编号:12621545 阅读:67 留言:0更新日期:2015-12-30 19:15
本发明专利技术公开一种云数据中心主机检查点设置的方法、装置和系统,属于云计算系统控制领域。本发明专利技术通过实时跟踪数据中心中各个主机的运行状态并对其可靠性变化趋势进行预判,动态的设置各个数据中心进入下一次检查点的时机,在兼顾系统可靠性的同时,最大化的减少了不必要的系统开销。

【技术实现步骤摘要】
一种云数据中心主机检查点设置的方法、装置和系统
本专利技术属于云计算系统控制领域,特别是涉及一种云数据中心主机检查点设置的方法、装置和系统。
技术介绍
云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。相对于传统的软件和计算形态,云计算具有松散耦合、随需应变、成本可控、资源虚拟、异构协同等显著的优势,使其更适应现今的电子商务、柔性制造、移动互联网等应用。云数据中心是指由多个异构的、由网络连接在一起的主机所组成的用于承载提供在线云服务的企业级应用的分布式计算系统。在云数据中心中,将大量的主机进行集中统一管理,可以保障主机运行所需要的稳定电源环境,适宜的温湿度控制以及网络带宽条件。同其他软硬件系统一样,长时间的任务执行会导致云数据中心中的主机的可靠性和性能下降和劣化。由于当今的云计算系统多运用于大规模科学计算、实时金融、在线交易、流媒体多播等高负载和高复杂度的应用,其主机时常处于超负荷运行的状态,可靠性和性能下降和劣化的问题更加突出。如果系统维护策略稍有不慎,就极易出现部分主机突发性崩溃的情况,并有可能进一步形成系统崩溃,造成重大损失。热备份技术,是一种应对可靠性和性能劣化的有效技术。热备份是指在服务器主机正常工作的情况下,将系统中应用程序运行状态记录成备份文件并保存下来。这个技术的一个关键问题,就是如何设置热备份检查的时间点(简称,检查点)。传统的检查点设置策略,一般是采用以固定周期对系统中各个主机设置热备份检查点,当某个服务器主机出现故障并重新运行时,可以利用备份文件恢复至检查点建立时刻的状态,以尽可能的还原故障出现前的运行场景和数据。基于固定周期的策略,容易导致“检查过密”(在相邻两次检查点之间,主机的可靠性表现平稳,并没有出现显著的劣化,但是系统却进行了两次热备份操作,增加了系统开销,从而造成了资源浪费)和“检查过疏”(在高负载运行状态下,主机时常出现短时间内的突发可靠性骤降的情况,容易导致主机还未到达下一个检查点时间便提前崩溃的情况)两种不良结果。导致上述后果的主要原因是:由于采用静态的策略选择检查点时机,忽视了主机负载、资源占用率、可用性和可靠性的动态变化趋势,因此可能选择执行时间已经很长但是仍然处于较健康状态的主机进行检查和热备份,或者是选择执行时间不长但是故障率较高的主机继续执行,从而使本该进行可靠性维护的主机缺乏维护,使本不该进行可靠性维护的过度维护。在此背景下,如何动态的跟踪云数据中心的运行态势并进行趋势预判,制定合理的数据中心主机检查点设置时机,便成为了研究的热点和难点。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供一种能够动态决定合理主机热备份检查时机的方法。为实现上述目的,本专利技术提供了一种云数据中心主机检查点设置的方法,按以下步骤进行:步骤一、将数据中心中每个主机的下一次检查点时间设置为正无穷:将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;步骤二、取得主机运行时性能数据:在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi;步骤三、评估各主机性能变化态势;首先计算各个主机最近故障率:然后用变量YCGi标记故障率异常值:其中,xs为预先给定的系数,满足1<xs;接下来,计算未来数据中心整体预期故障率WLE:WLE=mean{ZEi|1<i<n,YCGi=0};步骤四、预测各主机未来失效风险;首先,计算各主机的未来预期整体崩溃指数WLBKi:接下来,计算归一化的各个主机故障的潜在可能性数值:然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi:步骤五、确定检查点设置方案:为每个主机设置进入检查点预期时间JCDi;其中,临时变量TEMPi计算为:TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5;步骤六、主机检查控制;首先等待dd时间,然后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份。较佳的,所述dd计算为:其中,γ为预先给定的系数,满足0<γ<1。本专利技术所要解决的另一技术问题是提供一种能够动态决定合理主机热备份检查时机的装置。为实现上述目的,本专利技术提供了一种云数据中心主机检查点设置的装置,包括数据中心状态监测模块、控制决策模块和检查控制模块;所述数据中心状态监测模块内设有主机运行状态跟踪单元;所述控制决策模块包括主机运行时性能评估单元、主机失效风险评估单元和方案生成单元;所述主机运行状态跟踪单元的第一输出端连接所述主机运行时性能评估单元的输入端,所述主机运行时性能评估单元的第一输出端连接所述主机失效风险评估单元的第一输入端,所述主机失效风险评估单元的输出端连接所述方案生成单元的第一输入端,所述方案生成单元的输出端连接所述检查控制模块的输入端;所述主机运行时性能评估单元的第二输出端连接所述方案生成单元的第二输入端,所述主机运行状态跟踪单元的第二输出端连接所述主机失效风险评估单元的第二输入端;所述主机运行状态跟踪单元用于将数据中心中每个主机的下一次检查点时间设置为正无穷和取得主机运行时性能数据:将数据中心中每个主机的下一次检查点时间设置为正无穷:所述主机运行状态跟踪单元将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;,等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;取得主机运行时性能数据:所述主机运行状态跟踪单元(301)在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi;所述主机运行时性能评估单元用于评估各主机性能变化态势:所述主机运行时性能评估单元首先计算各个主机最近故障率:然后用变量YCGi标记故障率异常值:其中,xs为预先给定的系数,满足1<xs;接下来,计算未来数据中心整体预期故障率WLE:WLE=mean{ZEi|1<i<n,YCGi=0};所述主机失效风险评估单元用于预测各主机未来失效风险:所述主机失效风险评估单元首先计算各主机的未来预期整体崩溃指数WLBKi:接下来,计算归一化的各个主机故障的潜在可能性数值:然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi:所述方案生成单元用于确定检查点设置方案:本文档来自技高网
...

【技术保护点】
一种云数据中心主机检查点设置的方法,其特征在于按以下步骤进行:步骤一、将数据中心中每个主机的下一次检查点时间设置为正无穷:将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;,等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;步骤二、取得主机运行时性能数据:在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi;步骤三、评估各主机性能变化态势;首先计算各个主机最近故障率:ZEi=CCiWCSi-ZCSiif WCSi-ZCSi>02×CCistelse;]]>然后用变量YCGi标记故障率异常值:YCGi=1 if 1<i<n,ZEi>xs×mean{ZEI|1<i<n},DSJi>0,DSJi×ZEi>XFi0 else;]]>其中,xs为预先给定的系数,满足1<xs;接下来,计算未来数据中心整体预期故障率WLE:WLE=mean{ZEi|1<i<n,YCGi=0};步骤四、预测各主机未来失效风险;首先,计算各主机的未来预期整体崩溃指数WLBKi:WLBKi=(WLE)CLi×(ZEi)QRi-QCiif YCGi=0,QRi≥QCi(WLE)CLi+QRi-QCielseif YCGi=1,QRi≥QCi(WLE)CLi+QRielseif YCGi=1,QRi<QCi(WLE)CLi×(ZEi)QRielseif YCGi=0,QRi<QCi;]]>接下来,计算归一化的各个主机故障的潜在可能性数值:GYBKi=WLBKiΣi=1nWLBKiif Σi=1nWLBKi>00 else;]]>然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi:WLXi=(1-GYBKi)dt×cciz×(wcsi-zcsi)+WCi+QRiif WCSi-ZCSi>0(1-GYBKi)CCi+WCi+QRielse;]]>步骤五、确定检查点设置方案:为每个主机设置进入检查点预期时间JCDi;JCDi=t+dt2×(ZEiWLE)-1if ZEi>0,WLE>0,min{WLXi|0<i≤n}-WLXi<β×TEMPi+∞ else]]>其中,临时变量TEMPi计算为:TEMPi=max{WLXi|0<i≤n}‑min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0<β<0.5;步骤六、主机检查控制;首先等待dd时间,然后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份。...

【技术特征摘要】
1.一种云数据中心主机检查点设置的方法,其特征在于按以下步骤进行:步骤一、将数据中心中每个主机的下一次检查点时间设置为正无穷:将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;步骤二、取得主机运行时性能数据:在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi;步骤三、评估各主机性能变化态势;首先计算各个主机最近故障率:然后用变量YCGi标记故障率异常值:其中,xs为预先给定的系数,满足1&lt;xs;接下来,计算未来数据中心整体预期故障率WLE:WLE=mean{ZEi|1<i<n,YCGi=0};步骤四、预测各主机未来失效风险;首先,计算各主机的未来预期整体崩溃指数WLBKi:接下来,计算归一化的各个主机故障的潜在可能性数值:然后再计算考虑各个主机吞吐率和修复能力之后的未来近似可靠度WLXi:步骤五、确定检查点设置方案:为每个主机设置进入检查点预期时间JCDi;其中,临时变量TEMPi计算为:TEMPi=max{WLXi|0<i≤n}-min{WLXi|0<i≤n};所述t为当前时间;β为预先给定的比例值,0&lt;β&lt;0.5;步骤六、主机检查控制;首先等待dd时间,然后取得当前时间为t’,然后比较JCDi值与t’的大小,使所有JCDi值小于t’的主机进入检查点进行热备份;所述dd计算为:其中,γ为预先给定的系数,满足0&lt;γ&lt;1。2.一种云数据中心主机检查点设置的装置,其特征是:包括数据中心状态监测模块(3)、控制决策模块(4)和检查控制模块(5);所述数据中心状态监测模块(3)内设有主机运行状态跟踪单元(301);所述控制决策模块(4)包括主机运行时性能评估单元(401)、主机失效风险评估单元(402)和方案生成单元(403);所述主机运行状态跟踪单元(301)的第一输出端连接所述主机运行时性能评估单元(401)的输入端,所述主机运行时性能评估单元(401)的第一输出端连接所述主机失效风险评估单元(402)的第一输入端,所述主机失效风险评估单元(402)的输出端连接所述方案生成单元(403)的第一输入端,所述方案生成单元(403)的输出端连接所述检查控制模块(5)的输入端;所述主机运行时性能评估单元(401)的第二输出端连接所述方案生成单元(403)的第二输入端,所述主机运行状态跟踪单元(301)的第二输出端连接所述主机失效风险评估单元(402)的第二输入端;所述主机运行状态跟踪单元(301)用于将数据中心中每个主机的下一次检查点时间设置为正无穷和取得主机运行时性能数据:将数据中心中每个主机的下一次检查点时间设置为正无穷:所述主机运行状态跟踪单元(301)将变量组JCDi赋值为∞,JCDi表示第i个主机的下一次预期热备份时刻,0<i≤n,n为主机数量;等待dt时间后,进入下一个步骤;dt值为1000毫秒到100秒之间的任意数值;取得主机运行时性能数据:所述主机运行状态跟踪单元(301)在最近dt/2时间内获取各个主机新进入任务数量QRi、各个主机迁出任务数量QCi、各个主机的存量任务数量CLi、各个主机出错任务数量CCi、各个主机完成任务数量WCi、各个主机任务错误出现的最早时间ZCSi、各个主机任务错误出现的最晚时间WCSi,各个主机修复的失效和错误总数XFi、各个主机处于失效及修复的累积时间DSJi;所述主机运行时性能评估单元(401)用于评估各主机性能变化态势:所述主机运行时性能评估单元(401)首先计算各个主机最近故障率:然后用变量YCGi标记故障率异常值:其中,xs为预先给定的系数,满足1&lt;xs;接下来,计算未来数据中心整体预期故障率WLE:WLE=mean{ZEi|1<i<n,YCGi=0};所述主机失效风险评估单元(402)用于预测各主机未来失效风险:所述主机失效风险评估单元(402)首先计...

【专利技术属性】
技术研发人员:夏云霓郭坤垠罗辛俞可朱庆生
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1