The invention relates to a distributed system root fault location method and device. The method includes: acquiring distributed system test data and selecting test data that are not available for the service under test in the test data; constructing fault diagnosis diagram using test data that are not available for the service under test in the test data, and acquiring complete sub-diagrams of the fault diagnosis diagram; and according to the above-mentioned method, acquiring the test data of the distributed system and selecting the test data that are not available for the service under test. Complete subgraph is used for fault location. The technical scheme provided by the invention constructs a fault diagnosis diagram by using the test data provided by the invention. According to the fault diagnosis diagram, the fault of distributed system can be diagnosed quickly and accurately, and the troubles and economic losses caused by system failure can be effectively prevented.
【技术实现步骤摘要】
一种分布式系统根源故障定位方法及装置
本专利技术涉及数据挖掘
,具体涉及一种分布式系统根源故障定位方法及装置。
技术介绍
随着云计算和大数据等互联网技术的飞速发展,大型企业分布式信息系统的规模越来越庞大。例如,截止2014年,亚马逊已经建成了11个云端区域,28个数据中心组,200万台服务器。截止2014年,Google已经在全球数据中心拥有了100万台服务器。一旦这些承载了大量与经济生产和社会生活息息相关的业务系统出现故障、遭受网络攻击,就会给社会的生产生活带来极大的不便和经济损失,甚至导致严重的社会安全事件。例如,2015年5月27日,拥有近3亿活跃用户的支付宝出现了大面积瘫痪;携程网于2015年5月28日长达12小时无法访问,经济损失约5000万元人民币。因此,在大规模信息系统中,快速有效地进行故障自动检测与诊断在研究和实践中都是非常重要的。目前分析分布式系统根源故障的方法包括基于图的方法、基于专家系统的方法、分析模型、数据驱动方法。基于图论的故障诊断方法主要包括符号有向图(Signeddirectedgraph,SDG)方法和故障树方法。SDG是一种描述系统因果关系的图形化模型,节点表示事件或者变量,有向边表示变量之间的因果关系。发生故障时,根据节点变化间的因果关系,并结合一定的搜索策略判断故障发生的原因。故障树是一种由果到因的逻辑图,它从系统的故障状态出发,逐级进行推理确定故障发生的基本原因、影响程度和发生概率。基于专家系统的故障诊断方法利用领域专家的实践经验建立知识库,并进行推理和决策过程进行故障诊断。专家知识常用确定性的IF-THEN规 ...
【技术保护点】
1.一种分布式系统根源故障定位方法,其特征在于,所述方法包括:获取分布式系统测试数据,并选择所述测试数据中被测服务不可用的测试数据;利用所述测试数据中被测服务不可用的测试数据构建故障诊断图,并获取所述故障诊断图中的完全子图;根据所述完全子图进行故障定位。
【技术特征摘要】
1.一种分布式系统根源故障定位方法,其特征在于,所述方法包括:获取分布式系统测试数据,并选择所述测试数据中被测服务不可用的测试数据;利用所述测试数据中被测服务不可用的测试数据构建故障诊断图,并获取所述故障诊断图中的完全子图;根据所述完全子图进行故障定位。2.如权利要求1所述的方法,其特征在于,所述分布式系统测试数据,包括:测试条件属性及其对应的测试结果属性,所述测试条件属性包括:外部属性及其对应的内部属性,所述外部属性包括:测试地址、运营商和被测服务,所述外部属性对应的内部属性包括:网络设备状态、操作系统状态和应用程序状态,其中,所述外部属性对应的内部属性根据所述外部属性,利用数据流跟踪法获取。3.如权利要求2所述的方法,其特征在于,所述选择所述测试数据中被测服务不可用的测试数据,包括:若所述测试数据的测试条件属性对应的测试结果属性的属性值为不可用,则选择该测试数据。4.如权利要求1所述的方法,其特征在于,所述利用所述测试数据中被测服务不可用的测试数据构建故障诊断图,并获取所述故障诊断图中的完全子图,包括:以所述测试数据中被测服务不可用的测试数据作为节点,若节点间的所述测试数据中被测服务不可用的测试数据中的属性对应的属性值相同,则将节点间该属性对应的属性值连接,获取故障诊断图;提取所述故障诊断图中节点的单个属性对应的单个属性值间的连接图作为完全子图。5.如权利要求1所述的方法,其特征在于,所述根据所述完全子图进行故障定位,包括:验证所述完全子图的可靠性,获取满足可靠性要求的完全子图;根据所述完全子图的节点数进行故障定位。6.如权利要求5所述的方法,其特征在于,所述验证所述完全子图的可靠性,获取满足可靠性要求的完全子图,包括:对第k个完全子图进行F检验,按下式确定第k个完全子图的检验值Fk:Fk=(SSAk/fSSAk)/(SSEk/fSSEk)上式中,SSAk为第k个完全子图的组内平方和,fSSAk为SSAk的自由度,SSEk为第k个完...
【专利技术属性】
技术研发人员:赵丽,王泽,郭三川,柳哲,何慧虹,徐太忠,潘欣雨,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。