一种基于图中心度的云计算系统物理设备故障检测方法技术方案

技术编号:19865965 阅读:37 留言:0更新日期:2018-12-22 13:48
发明专利技术涉及一种基于图中心度的云计算系统物理设备故障检测方法。周期性监测物理设备各资源的度量信息,根据各物理资源度量的历史信息建立XmR控制图,当在线监测的物理资源度量值超出控制图的正常范围则检测为异常度量,计算任意两个异常度量间的皮尔逊相关系数,当相关系数超出阈值则形成相关边从而建立异常度量的相关图,计算图中各异常度量的中心度作为该度量的异常程度,按照异常程度从高到低排序,排名靠前的异常度量所在的物理设备为发生故障的物理设备。

【技术实现步骤摘要】
一种基于图中心度的云计算系统物理设备故障检测方法
本专利技术涉及云计算系统故障检测方法,尤其涉及一种基于图中心度的云计算系统物理设备故障检测方法,属于软件

技术介绍
云计算系统目前已广泛应用于部署在线应用(如电子商务),同时现有对可靠性有较高要求的关键业务(如电信基础软件)也逐渐迁移到云计算系统。云计算系统是复杂的分布式系统,硬件设备来自于不同的提供商,以及不断演化以适应变化的业务需求,对保障大规模系统的可靠性带来了更大的挑战。及时发现并准确检测物理设备的故障是保障云计算系统可靠性的关键技术。当前的故障检测通常是采用故障注入的方法,向云计算系统中注入大量的典型故障,搜集此时系统的监测数据,训练得到故障模型。在系统运行过程中,将实时搜集到的监测数据与建立的故障模型进行匹配,以检测发生的故障(HerodotosHerodotouetal.ScalableNearReal-timeFailureLocalizationofDataCenterNetworks.In:ProceedingsoftheACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.2014,pp.1689–1698;ArjunRoyetal.PassiveRealtimeDatacenterFaultDetectionandLocalization.In:ProceedingsoftheConferenceonNetworkedSystemsDesign&Implementation.USENIX,2017,pp.595–612.)。但是云计算系统上部署有不同用户的多台物理设备,难以同时向这些机器注入多类型故障,并且在系统上部署的业务应用多种多样并且不断演化,需要重复执行故障注入和训练模型的过程,因此当前基于故障注入的故障检测方法难以在具体工程实践中广泛应用。分布式系统延迟分析方法检测操作引起的异常延迟以诊断可能的异常组件。CloudDiag(HaiboMietal.TowardFine-Grained,Unsupervised,ScalablePerformanceDiagnosisforProductionCloudComputingSystems.In:IEEETransactionsonParallelandDistributedSystems,24(6):1245–1255,2013.)监测处理用户请求的方法执行时间,根据延迟时间分布以诊断引起异常的方法调用。DARC(AvishayTraeger,IvanDeras,andErezZadok.DARC:DynamicAnalysisofRootCausesofLatencyDistributions.In:ProceedingsoftheInternationalConferenceonMeasurementandModelingofComputerSystems.ACM,2008,277–288.)监测从给定函数开始的调用路径,定位最大延迟函数。基于延迟分析的方法仅监测并分析组件的处理时间,而不能监测云计算系统的物理资源使用信息,难以检测物理设备故障。
技术实现思路
本专利技术的目的:提出一种面向云计算系统,基于无监督学习的物理设备故障检测方法,只需要在系统正常执行时搜集监测数据,训练系统正常行为模型,即可在线检测物理设备故障,无需人工注入故障或掌握领域知识。本专利技术的原理:在系统运行过程中搜集物理设备的监测数据,即物理设备度量,以建立物理设备度量历史监测数据集,在线检测异常的物理设备度量波动。挖掘物理设备度量之间的相关性以建立物理设备度量关联图,基于图中心度定位重要物理资源物理设备度量,从而检测异常物理设备及资源。本专利技术技术解决方案:一种基于图中心度的云计算系统物理设备故障检测方法。如图1所示,本专利技术分为离线建模和在线检测阶段等两个阶段。离线阶段,监测云计算系统历史物理设备度量监测数据以建立控制图,计算物理设备度量之间的两两相关性以建立物理设备度量相关图,从而刻画系统运行状态模型。在线阶段,周期监测云计算系统运行时物理设备度量,使用控制图检测异常物理设备度量,使用图中心度对各物理资源异常程度排序。其特点在于实现步骤如下:1.异常物理设备度量检测本专利技术将轻量级监测探针部署在目标物理设备上以搜集物理设备度量信息,在正常状态下,物理设备度量保持稳定,当性能出现问题,物理设备度量将会出现较大的波动,由此可以检测到物理设备度量异常的发生。控制图用以监测物理设备度量是否稳定,稳定是物理设备度量在现在和过去是一致的,并且期望将来也会是一致。通过控制图监测物理设备度量的变化情况,如果偏离标准值表现出不稳定状态,就会自动产生警告信息。每个控制图中有三个基准线,控制上限线,控制下限线和中值线,这些基准线在可控环境下由监测度量值动态计算出来。根据控制图中的基准线,能够检测出物理设备度量的波动。通常在控制上限之上,或是控制下限之下的度量值为异常。同样,虽然在上限和下限之间,但如果出现异常模式,即表现出异常的趋势,也可以检测为异常。例如,连续m个标识都位于中值线和上限线之间,或者下限线和中值线之间,可以定义为异常趋势。再如,连续n个标识在界限线内单调的上升或下降同样可定义为异常。根据应用场景的不同,可以选择不同类型的控制图和定义不同的异常模式。本专利技术定义X-mR控制图,其中,X图用以检测物理设备度量值,mR图检测物理设备度量的变化趋势。根据应用场景的不同,可以选择不同类型的控制图和定义不同的异常模式。XmR控制图的建立方法如下所示:(1)周期性监测负载向量与性能向量的物理设备度量xi,并计算物理设备度量的总体均值:,其中,是物理设备度量均值;xi是周期内第i个物理设备度量;n是周期内物理设备度量的数量。(2)计算移动范围(MovingRange)均值,将其作为控制图的中值线。,mRi=|xi+1–xi|,其中,为移动范围均值;mRi为移动范围;n为监测数量。(3)计算物理设备度量的上限(UCL,UpControlLimit)与下限(LCL,LowControlLimit)以建立X图。。(4)计算移动范围的上限(UCL,UpControlLimit)与下限(LCL,LowControlLimit)以建立mR图。,.。根据统计学理论,和分别取常数2.66和3.268。这样,可以得到XmR控制图,其中上限和下限之间的部分为正常区域,当高于上限或低于下限则检测为异常。2.物理设备度量关联图建立云计算系统中多种物理设备及资源利用之间往往具有相关性,需要监测的系统度量之间普遍存在稳定的线性关系。本专利技术采用皮尔逊(Pearson)相关系数用来测量两个变量间的线性相关程度,取值在-1到1之间,系数取值为1表示两个变量完全正相关,系数取值为-1表示两个变量完全负相关,系数取值为0表示两个变量完全不相关。计算任意两个度量之间的皮尔逊相关系数,当度量x和度量y强相关。3.异常物理设备及资源定位将检测为异常的物理设备度量排序以检测异常物理设备及资源。故障会导致产生越来越多的异常,这些异常会在物理资源内部和之间传播。例如,内存泄漏本文档来自技高网
...

【技术保护点】
1.一种基于图中心度的云计算系统物理设备故障检测方法,方法特征在于实现步骤如下:第一步;周期性监测物理设备的资源使用度量,如CPU利用率、内存占用率、每秒接收网络字节数、磁盘每次传输时间等;第二步,计算第一步监测到各度量的总体均值

【技术特征摘要】
1.一种基于图中心度的云计算系统物理设备故障检测方法,方法特征在于实现步骤如下:第一步;周期性监测物理设备的资源使用度量,如CPU利用率、内存占用率、每秒接收网络字节数、磁盘每次传输时间等;第二步,计算第一步监测到各度量的总体均值,移动范围值,移动范围均值,其中,xi为第i个周期监测度量值,n为周期数量;计算上限,下限,以建立X图,其中,为可任意设定的常数;计算移动范围值的上限,以建立mR图,其中,为可任意设定的常数;第三步,在第二步建立的XmR控制图中,上限和下限之间的部分为正常区域,...

【专利技术属性】
技术研发人员:李亚琼吴昊李守超周博王钟沛
申请(专利权)人:江苏润和软件股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1