一种分布式系统根源故障定位的方法及装置制造方法及图纸

技术编号:20763674 阅读:42 留言:0更新日期:2019-04-03 14:14
本发明专利技术涉及一种分布式系统根源故障定位的方法及装置,所述方法包括:获取分布式系统测试数据;利用所述测试数据的各属性对应的属性值构建多层次的数据网格;利用所述多层次的数据网格进行故障定位;本发明专利技术提供的技术方案,采用数据网格描述测试数据,对构建的数据网格进行多层次的描述和分析,从而快速准确地诊断分布式系统故障,有效防止系统失效产生的困扰和经济损失。

【技术实现步骤摘要】
一种分布式系统根源故障定位的方法及装置
本专利技术涉及数据挖掘
,具体涉及一种分布式系统根源故障定位的方法及装置。
技术介绍
分布式系统由部署在不同地域的软硬件设施共同构成,向不同区域的互联网用户提供服务。对于分布式系统的监测通常包括模拟用户的外部测试和对系统内部设备和软件等的监测。由于分布式系统自身结构复杂,一个系统故障可能引起多项监测指标异常和大量测试失效,系统管理员难以快速准确地诊断故障原因。同时,系统内部对设备和软件的监测往往存在盲点,使得内部监测指标均正常,但仍然发生系统失效。因此,将外部测试数据和内部监测数据进行归纳与分析,专利技术有效的基于数据分析的分布式系统故障诊断的辅助工具非常有必要。现有技术中包括智能故障诊断、分布式信息系统故障定位技术、数据分析技术。随着分布式信息系统的迅速发展,数据交互行为越来越复杂,系统故障不断攀升,分布式信息系统的智能维护也越来越受到关注。通常对系统运行状态的监测包括监测系统硬件性能指标、监测操作系统的属性、监测应用程序的吞吐量等,并进一步地利用数据挖掘、机器学习和统计方法进行自动化的故障排除和减少人工干预。基于事件处理的分布式信息系统故障定位技术通过构建一种基于集合的事件流模型,对事件进行形式化定义并定义操作,使得用户通过掌握几个简单的集合操作来定义复杂的故障规则。IBM研究人员通过主动探测结合贝叶斯网络进行故障诊断,提出序贯多故障方法求得问题的近似解。故障诊断技术是一种利用设备当前状态信息和历史状况,通过一定分析方法对设备状态进行评价的状态识别技术。智能故障诊断是利用人工智能技术,将系统当前状态和历史状况描述为数学符号,通过数理逻辑、机器学习等方法确定故障所在大致部位的技术。智能故障诊断技术包括故障树分析、规则推理、案例推理、决策树、神经网络、诊断贝叶斯网络诊断技术等。故障树分析方法具有强大知识表达能力,但对于复杂系统诊断知识获取困难。规则推理和案例推理诊断技术以符号形式显示地表示、存储和处理知识,表示直观、易理解,但缺点是基于符号推理的诊断技术知识获取困难、推理速度慢,不太适于实时诊断要求较高的诊断领域。决策树和神经网络诊断技术以数值矩阵形式表示和存储知识,计算过程等价于推理过程,不需人为干预,推理速度快,但缺点是决策树和诊断贝叶斯网络方法无法诊断未知故障,而神经网络模型参数的实际意义难以解释。
技术实现思路
本专利技术提供一种分布式系统根源故障定位的方法及装置,其目的是采用数据网格描述测试数据,对构建的数据网格进行多层次的描述和分析,从而快速准确地诊断分布式系统故障,有效防止系统失效产生的困扰和经济损失。本专利技术的目的是采用下述技术方案实现的:一种分布式系统根源故障定位的方法,其改进之处在于,所述方法包括:获取分布式系统测试数据;利用所述测试数据的各属性对应的属性值构建多层次的数据网格;利用所述多层次的数据网格进行故障定位。优选的,所述分布式系统测试数据,包括:测试属性及其对应的测试结果;所述测试属性包括:外部属性及其对应的内部属性;所述外部属性包括:测试地址、运营商和被测服务,所述外部属性对应的内部属性包括:网络设备状态、操作系统状态和应用程序状态,其中,所述外部属性对应的内部属性根据所述外部属性,利用数据流跟踪法获取;所述测试结果的属性值包括:被测服务可用和被测服务不可用。优选的,所述利用所述测试数据的各属性对应的属性值构建多层次的数据网格之前,包括:确定所述测试数据中各属性对应的属性值的枚举值;其中,若所述测试数据中属性对应的属性值为连续值,则对该属性值进行离散化处理,并利用泛化方法对所述离散处理后的属性值进行分类,获取该属性值的枚举值;若所述测试数据中属性对应的属性值为离散值,则利用泛化方法对所述属性值进行分类,获取该属性值的枚举值。优选的,所述利用所述测试数据的各属性对应的属性值构建多层次的数据网格,包括:通过测试属性的属性值构建第一层数据网格的各单元网格;判断第s层中测试属性是否存在子属性,若是,则利用所述子属性的属性值与不存在子属性的测试属性的属性值构建第s+1层数据网格的各单元网格,否则,结束操作,其中,s为大于等于1的正整数。进一步的,所述通过测试属性的属性值构建第一层数据网格的各单元网格,包括:对不同测试属性的属性值进行排列组合,每一个排列组合结果作为第一层数据网格的一个单元网格;所述利用所述子属性的属性值与不存在子属性的测试属性的属性值构建第s+1层数据网格的各单元网格,包括:对不同子属性的属性值和不同不存在子属性的测试属性的属性值进行排列组合,每一个排列组合结果作为第s+1层数据网格的一个单元网格。进一步的,所述利用所述多层次的数据网格进行故障定位,包括:确定第一层数据网格各属性的失效概率区分度度量和各属性对应的属性值服务不可用占比的最大值;若第一层数据网格各属性的失效概率区分度度量小于或等于区分度阈值且第一层数据网格各属性对应的属性值服务不可用占比的最大值大于等于故障阈值,则第一层数据网格各属性对应的属性值服务不可用占比的最大值对应的属性值所对应的单元网格为故障单元网格;判断第s层数据网格中故障单元网格对应的测试属性是否存在子属性,若是,则确定第s+1层数据网格中所述子属性的失效概率区分度度量和所述子属性对应的属性值服务不可用占比的最大值,若所述子属性的失效概率区分度度量小于或等于区分度阈值且所述子属性对应的属性值服务不可用占比的最大值大于等于故障阈值,则将所述子属性对应的属性值服务不可用占比的最大值对应的属性值所对应的单元网格作为第s+1层数据网格的故障单元网格,若否,则将第s层数据网格中故障单元网格对应的测试属性的属性值作为故障原因。其中,按下式确定第i个属性或第i个子属性的失效概率区分度度量Si:上式中,P'ij为类似信息熵,Ωi为第i个属性或第i个子属性的属性值集合,|Ωi|为第i个属性或第i个子属性的属性值总数;其中,按下式确定所述类似信息熵P'ij:上式中,Pij为第i个属性的或第i个子属性第j个属性值的服务不可用占比。本专利技术还提供一种分布式系统根源故障定位的装置,其改进之处在于,所述装置包括:获取单元,获取分布式系统测试数据;构建单元,利用所述测试数据的各属性对应的属性值构建多层次的数据网格;判断单元,利用所述多层次的数据网格进行故障定位。本专利技术的有益效果:1)本专利技术提供的技术方案,采用多层次的数据网格对测试数据进行描述与分析,可以快速准确地发现分布式系统的根源故障,减少检测的故障原因数量,大大提高故障诊断的准确率和效率;2)本专利技术提供的技术方案,基于网格聚类进行故障定位,不仅可以发现较为明确的故障原因,如某些属性值异常状态引起的失效故障原因;也可以发现不太明显的故障原因,即各属性值均正常时,最有可疑的属性和属性值;当根源故障原因不能准确判断时,可根据该线索,进行人工分析与判断。附图说明图1是本专利技术一种分布式根源故障定位的方法的流程图;图2是本专利技术实施例中分布式系统根源故障定位方法应用场景示意图;图3是本专利技术一种分布式根源故障定位的装置的结构示意图。具体实施方式下面结合附图对本专利技术的具体实施方式作详细说明。为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方本文档来自技高网
...

【技术保护点】
1.一种分布式系统根源故障定位的方法,其特征在于,所述方法包括:获取分布式系统测试数据;利用所述测试数据的各属性对应的属性值构建多层次的数据网格;利用所述多层次的数据网格进行故障定位。

【技术特征摘要】
1.一种分布式系统根源故障定位的方法,其特征在于,所述方法包括:获取分布式系统测试数据;利用所述测试数据的各属性对应的属性值构建多层次的数据网格;利用所述多层次的数据网格进行故障定位。2.如权利要求1所述的方法,其特征在于,所述分布式系统测试数据,包括:测试属性及其对应的测试结果;所述测试属性包括:外部属性及其对应的内部属性;所述外部属性包括:测试地址、运营商和被测服务,所述外部属性对应的内部属性包括:网络设备状态、操作系统状态和应用程序状态,其中,所述外部属性对应的内部属性根据所述外部属性,利用数据流跟踪法获取;所述测试结果的属性值包括:被测服务可用和被测服务不可用。3.如权利要求1所述的方法,其特征在于,所述利用所述测试数据的各属性对应的属性值构建多层次的数据网格之前,包括:确定所述测试数据中各属性对应的属性值的枚举值;其中,若所述测试数据中属性对应的属性值为连续值,则对该属性值进行离散化处理,并利用泛化方法对所述离散处理后的属性值进行分类,获取该属性值的枚举值;若所述测试数据中属性对应的属性值为离散值,则利用泛化方法对所述属性值进行分类,获取该属性值的枚举值。4.如权利要求1所述的方法,其特征在于,所述利用所述测试数据的各属性对应的属性值构建多层次的数据网格,包括:通过测试属性的属性值构建第一层数据网格的各单元网格;判断第s层中测试属性是否存在子属性,若是,则利用所述子属性的属性值与不存在子属性的测试属性的属性值构建第s+1层数据网格的各单元网格,否则,结束操作,其中,s为大于等于1的正整数。5.如权利要求4所述的方法,其特征在于,所述通过测试属性的属性值构建第一层数据网格的各单元网格,包括:对不同测试属性的属性值进行排列组合,每一个排列组合结果作为第一层数据网格的一个单元网格;所述利用所述子属性的属性值与不存在子属性的测试属性的属性值构建第s+1层数据...

【专利技术属性】
技术研发人员:赵丽郭三川何慧虹柳哲徐太忠王泽潘欣雨
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1