基于混沌工程的故障演练方法、装置、终端设备及介质制造方法及图纸

技术编号:32483281 阅读:16 留言:0更新日期:2022-03-02 09:47
本发明专利技术实施例公开了一种基于混沌工程的故障演练方法、装置、终端设备及介质。其中,获取与目标系统匹配的混沌工程测试计划;按照故障响应影响因子,将目标故障注入至系统中,并实时监控系统针对目标故障的实际故障响应结果;在确定预期故障与实际故障响应结果之间的差异满足动态调整条件时,对故障响应影响因子进行匹配调整;返回执行按照故障响应影响因子,将目标故障注入系统中的操作,直至实际故障结果与预期故障响应结果相匹配或者满足结束故障演练条件,并记录当前故障响应影响因子与实际故障响应结果之间的映射关系。解决了故障的注入对系统造成超出可控范围的问题,提升了混沌工程本身的自动化程度、测试效率、测试范围以及系统的健壮性。范围以及系统的健壮性。范围以及系统的健壮性。

【技术实现步骤摘要】
基于混沌工程的故障演练方法、装置、终端设备及介质


[0001]本专利技术实施例涉及计算机数据处理技术,尤其涉及一种基于混沌工程的故障演练方法、装置、终端设备及介质。

技术介绍

[0002]混沌工程,是一种提高技术架构弹性能力的复杂技术手段。主要的实施方法是在一定的业务背景流量下,对整个系统随机性的引入各个层面的故障,并通过完善的监测手段来观察系统的表现,从而发现系统存在的隐患,针对性的解决相关问题,同时建立对系统抵御生产环境中失控条件的能力以及信心。
[0003]现有的混沌工程体系,主要聚焦在多维度的故障注入实现,以及对整个系统的监测体系的构建,也即,现有技术主要关注的是将何种类型的故障,以何种作用范围注入至待测系统后,待测系统会做出何种故障响应。但是,一旦所注入的故障超过了待测系统所能承受的范围,整个系统可能会进入失控状态而无法响应实际的业务需求,进而,现有的混沌故障体系无法满足人们对系统弹性能力和系统健壮性的需求。

技术实现思路

[0004]本专利技术实施例提供了一种基于混沌工程的故障演练方法、装置、终端设备及介质,以避免故障的注入对系统造成超出可控范围的问题,提升了混沌工程本身的自动化程度以及系统的健壮性。
[0005]第一方面,本专利技术实施例提供了一种基于混沌工程的故障演练方法,其中,包括:
[0006]获取与目标系统匹配的混沌工程测试计划,混沌工程测试计划中包括:与待注入的目标故障对应的故障响应影响因子和预期故障响应结果;
[0007]按照所述故障响应影响因子,将目标故障注入至目标系统中,并实时监控目标系统针对目标故障的实际故障响应结果;
[0008]在确定预期故障响应结果与实际故障响应结果之间的差异满足动态调整条件时,对所述故障响应影响因子进行匹配的调整;
[0009]返回执行按照所述故障响应影响因子,将目标故障注入至目标系统中的操作,直至实际故障结果与预期故障响应结果相匹配或者满足结束故障演练条件,并记录当前故障响应影响因子与当前实际故障响应结果之间的映射关系。
[0010]第二方面,本专利技术实施例还提供了一种基于混沌工程的故障演练装置,该基于混沌工程的故障演练装置包括:
[0011]混沌工程测试计划获取模块,用于获取与目标系统匹配的混沌工程测试计划,混沌工程测试计划中包括:与待注入的目标故障对应的故障响应影响因子和预期故障响应结果;
[0012]实际故障响应结果监控模块,用于按照所述故障响应影响因子,将目标故障注入至目标系统中,并实时监控目标系统针对目标故障的实际故障响应结果;
是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0027]需要注意,本专利技术中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0028]需要注意,本专利技术中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0029]本专利技术实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0030]本专利技术实施例可以对基于人工智能技术实现的计算机系统进行混沌工程的测试。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0031]人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0032]图1为本专利技术实施例提供的一种基于混沌工程的故障演练方法的流程图。本实施例可适用于混沌工程体系在生产过程或者测试过程中故障注入的情况。本实施例的方法可以由基于混沌工程的故障演练装置执行,该装置可以通过软件和/或硬件的方式实现,该装置可配置于服务器或者终端设备中。如图1所示,该方法具体包括如下步骤:
[0033]S110、获取与目标系统匹配的混沌工程测试计划。
[0034]其中,混沌工程测试计划中包括:与待注入的目标故障对应的故障响应影响因子和预期故障响应结果。
[0035]其中,混沌工程可以是一种提高技术架构弹性能力的复杂技术手段。主要的实施方法是在一定的业务背景流量下,对整个系统随机性的引入各个层面的故障,并通过完善的监测手段来观察系统的表现,从而发现系统存在的隐患,针对性的解决相关问题,同时建立对系统抵御生产环境中失控条件的能力以及信心。混沌工程测试计划可以具体是指对作用于该目标系统的混沌工程的描述信息,该混沌工程测试计划用于描述将何种故障注入至该目标系统中,并且期望该目标系统针对所注入的故障能够达到何种应对响应。
[0036]在本实施例中,该目标系统是指用于应用混沌工程的业务执行系统,该业务执行系统中可以包括:多个用于执行数据测量、数据计算或者数据传输等业务处理功能的系统设备。上述各系统设备可以包括多个终端设备,以及用于对多终端设备进行统一管理的服务器或者管理节点,也可以仅包括多个终端设备,还可以仅包括多个服务器等,本实施例对此并不进行限制。
[0037]可选的,该系统设备可以为实际的物理机,也可以为安装于物理机上的虚拟机等。
[0038]其中,待注入的目标故障可以为:目标系统在运行过程中可能出现的各种异常问题,例如,系统设备断网、设备宕机、负载均衡服务失效、服务超时、数据库连接超时、存储空间不可读或者内存错乱等各种类型。该目标故障一般与目标系统的实际运行场景关联。
[0039]其中,故障响应影响因子可以是目标故障对混沌工程的影响程度,可以具体包括目标故障的故障作用程度和预期业务流量负荷程度。预期故障响应结果可以是指针对注入的故障,期望该目标系统针对所注入的故障能够达到何种应对响应。例如,继续正常执行业务,在设定时长内完整主备服务器的切换,或者是在经过设定故障响应时长后会恢复业务处理等,该预期故障响应结果一般反映了用户对该目标系统应对某一故障的容忍程度。
[0040]S120、按照所述故障响应影响因子,将目标故障注入至目标系统中,并实时监控目标系统针对目标故障的实际故障响应结果。
[0041]其中,实际故障响应结果可以是指针对注入的故障,该目标系统针对所注入的故障能够达到的应对响应。例如,继续正常执行业务,在一定时长内完整主备服务器的切换,或者是在经过设定故障响应时长后可以恢复业务处理等,该实际故障响应结果是指将目标系统针对注入的目标故障实际产生的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混沌工程的故障演练方法,其特征在于,包括:获取与目标系统匹配的混沌工程测试计划,混沌工程测试计划中包括:与待注入的目标故障对应的故障响应影响因子和预期故障响应结果;按照所述故障响应影响因子,将目标故障注入至目标系统中,并实时监控目标系统针对目标故障的实际故障响应结果;在确定预期故障响应结果与实际故障响应结果之间的差异满足动态调整条件时,对所述故障响应影响因子进行匹配的调整;返回执行按照所述故障响应影响因子,将目标故障注入至目标系统中的操作,直至实际故障结果与预期故障响应结果相匹配或者满足结束故障演练条件,并记录当前故障响应影响因子与当前实际故障响应结果之间的映射关系。2.根据权利要求1所述的方法,其特征在于,所述故障响应影响因子包括:目标故障的故障作用程度;按照所述故障响应影响因子,将目标故障注入至目标系统中,包括:根据所述目标故障以及所述目标故障的故障作用程度,形成指向所述目标系统中至少一个目标系统设备的故障参数;将所述故障参数下发至各所述目标系统设备,以在各所述目标系统设备中注入匹配故障作用程度的目标故障。3.根据权利要求2所述的方法,其特征在于,在确定预期故障响应结果与实际故障响应结果之间的差异满足动态调整条件时,对所述故障响应影响因子进行匹配的调整,包括:在确定实际故障响应结果落入所述预期故障响应结果的控制范围内时,按照预设的作用程度提高比例,提高所述目标故障的故障作用程度;在确定实际故障响应结果未落入所述预期故障响应结果的控制范围内时,按照预设的作用程度降低比例,降低所述目标故障的故障作用程度。4.根据权利要求2所述的方法,其特征在于,所述故障响应影响因子还包括:预期业务流量负荷程度;按照所述故障响应影响因子,将目标故障注入至目标系统中,还包括:如果确定所述目标系统当前处于生产环境,则获取所述目标系统中的实际业务流量负荷程度;如果确定所述实际业务流量负荷程度小于所述预期业务流量负荷程度,则计算待补充流量值;生成与所述待补充流量值匹配的模拟业务流量,注入至所述目标系统中。5.根据权利要求4所述的方法,其特征在于,在确定预期故障响应结果与实际故障响应结果之间的差异满足动态调整条件时,对所述故障响应影响因子进行匹配的调整,包括下述一项:在确定预期故障响应结果与实际故障响应结果之间的差异满足动态调整条件时,仅对所述故障作用程度进行匹配的调整;在确定预期故障响应结果与实际故障响应结果之间的差异满足动态...

【专利技术属性】
技术研发人员:刘俊
申请(专利权)人:平安壹账通云科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1