一种基于红蓝对抗的故障定位应用的评测方法与系统技术方案

技术编号:38014613 阅读:18 留言:0更新日期:2023-06-30 10:38
本发明专利技术公开了一种基于红蓝对抗的故障定位应用的评测方法与系统,其中所述方法包括:步骤S101、将故障流量注入红方故障诊断子系统;步骤S103、对所述故障流量进行数据清洗和预处理,得到标准化数据;步骤S105、基于所述标准化数据,所述红方故障诊断子系统对应用进行诊断,得到第一诊断结果;步骤S107、将所述第一诊断结果输入蓝方评测子系统,得到所述应用的第一评测结果。本发明专利技术在兼顾故障种类的同时,对故障的评测标准和红方算法的评测标准进行了详细的制定,量化各种算法的优劣程度和各种故障的严重程度,使得对应用的评测更加客观,结论更加精确。结论更加精确。结论更加精确。

【技术实现步骤摘要】
一种基于红蓝对抗的故障定位应用的评测方法与系统


[0001]本专利技术属于计算机系统工程领域,尤其涉及一种基于红蓝对抗的故障定位应用的评测方法与系统。

技术介绍

[0002]红蓝对抗是属于混沌工程领域极为重要的组成部分,其通过反复的模拟故障注入和故障恢复的攻防实验以及对算法和系统因地制宜的调整,最终发展成为红蓝对抗实践。红蓝对抗的实施目标是帮助业务系统进行全面摸底,也可认为是对业务系统的稳定性建设目标的一次集中验证。红蓝对抗的思想吸收自Gremlin介绍的chaos gameday,GameDays是Jesse Robbins在亚马逊创造的一个红蓝对抗的工具。GameDays是通过有目的地定期创建重大故障来提高可靠性以及混沌工程的价值。通常,GameDay将运行2

4小时,并且涉及开发应用程序或支持它的工程师团队,但理想情况下,它涉及应用程序双方的成员。
[0003]Chaos Gameday在故障注入做了较多的工作,但并未关注对抗过程中蓝方对各种故障的评测过程和标准以及对红方算法的评测过程和标准。

技术实现思路

[0004]针对上述现有技术中存在的缺陷,本专利技术提供一种基于红蓝对抗的系统故障定位应用的评测方法,包括以下步骤:步骤S101、将故障流量注入红方故障诊断子系统;步骤S103、对所述故障流量进行数据清洗和预处理,得到标准化数据;步骤S105、基于所述标准化数据,所述红方故障诊断子系统对应用进行诊断,得到第一诊断结果;步骤S107、将所述第一诊断结果输入蓝方评测子系统,得到所述应用的第一评测结果。
[0005]其中,所述故障流量来自真实系统数据或仿真平台模拟数据。
[0006]其中,所述真实系统借助故障生成单元注入故障后生成真实流量,所述仿真平台借助流量模拟以及故障生成单元生成注入故障的仿真流量。
[0007]其中,所述蓝方评测子系统包含故障生成单元,其用于对真实流量或仿真流量注入故障。
[0008]其中,所述步骤S107包括:所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,得到第一评测结果。
[0009]其中,所述所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,具体包括:假设共注入N次故障,第i次故障的发生时间为Ti,收集应用在故障发生开始时间a之前最后一次提交的答案,其中i≤N,a为常量,设答案提交时间为t,则应用故障定位耗时
latency定义为t

Ti;计算应用提交的答案与标准答案间的F_beta_score,记作f;计算应用命中答案的[cmdb_id,kpi_name]数量TP;应用在第i次故障的定位效果E
i
为: ,其中ceil为取上整函数,用于忽略微小差距、beta取0.5、F_0.5_score用于惩罚答案多对的少的情况、TP用于惩罚答案少速度快的情况、Latency用以评估应用时间、k值则为经验参数,根据成绩分布进行调整,在不影响整体得分情况下,使得得分分布更加平滑。
[0010]其中,得到第一评测结果包括:将每个应用得到的结果E
i
按照从小到大排序,则最终应用的总得分计算方式为:
ꢀꢀ

[0011]其中,所述标准化数据包括监控日志数据、监控指标数据和调用链数据。
[0012]其中,不同的数据匹配不同的应用。
[0013]本专利技术还提出了一种基于红蓝对抗的应用的评测系统,其包括:流量注入子系统、红方故障诊断子系统和蓝方评测子系统,其中流量注入子系统,其包括:流量生成模块,其用于获取真实流量或仿真流量;故障流量注入模块,其用于对红方故障诊断子系统注入故障流量;所述红方故障诊断子系统,其包括:数据标准化模块,其用于所述故障流量进行数据清洗和预处理;红方应用数据库,其用于存储待评测的应用;诊断模块,其用于基于所述标准化数据,对所述应用进行诊断;所述蓝方评测子系统,其包括:故障生成单元,其用于生成注入真实流量或仿真流量的故障;评测模块,其用于基于诊断结果,输出第一评测结果。
[0014]与现有技术相比,本专利技术在兼顾故障种类的同时,对故障的评测标准和红方算法的评测标准进行了详细的制定,量化各种算法的优劣程度和各种故障的严重程度,使得对应用的评测更加客观,结论更加精确。
附图说明
[0015]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:图1是示出根据本专利技术实施例的一种基于红蓝对抗的应用的评测方法流程图。
[0016]图2是示出根据本专利技术实施例的调用链的数据排查流程图。
[0017]图3是示出根据本专利技术实施例的一种基于红蓝对抗的应用的评测系统的示意图。
具体实施方式
[0018]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进
一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0019]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
[0020]应当理解,尽管在本专利技术实施例中可能采用术语第一、第二、第三等来描述
……
,但这些
……
不应限于这些术语。这些术语仅用来将
……
区分开。例如,在不脱离本专利技术实施例范围的情况下,第一
……
也可以被称为第二
……
,类似地,第二
……
也可以被称为第一
……

[0021]应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0022]取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0023]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于红蓝对抗的应用的评测方法,包括以下步骤:步骤S101、将故障流量注入红方故障诊断子系统;步骤S103、对所述故障流量进行数据清洗和预处理,得到标准化数据;步骤S105、基于所述标准化数据,所述红方故障诊断子系统对应用进行诊断,得到第一诊断结果;步骤S107、将所述第一诊断结果输入蓝方评测子系统,得到所述应用的第一评测结果。2.如权利要求1所述方法,其中所述故障流量来自真实系统数据或仿真平台模拟数据。3.如权利要求2所述方法,其中所述真实系统借助故障生成单元注入故障后生成真实流量,所述仿真平台借助流量模拟以及故障生成单元生成注入故障的仿真流量。4.如权利要求3所述方法,其中所述蓝方评测子系统包含故障生成单元,其用于对真实流量或仿真流量注入故障。5.如权利要求1所述方法,其中所述步骤S107包括:所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,得到第一评测结果。6.如权利要求5所述方法,其中所述蓝方评测子系统基于所述应用的故障定位的准确率与速度进行评测,具体包括:假设共注入N次故障,第i次故障的发生时间为Ti,收集应用在故障发生开始时间a之前最后一次提交的答案,其中i≤N,a为常量,设答案提交时间为t,则应用故障定位耗时latency定义为t

Ti;计算应用提交的答案与标准答案间的F_beta_score,记作f;计算应用命中答案的[cmdb_id,...

【专利技术属性】
技术研发人员:陈哲康温希道汤汝鸣聂晓辉程世文
申请(专利权)人:北京必示科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1