System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 系统组件的修复方法及装置、存储介质及电子装置制造方法及图纸_技高网

系统组件的修复方法及装置、存储介质及电子装置制造方法及图纸

技术编号:40241178 阅读:6 留言:0更新日期:2024-02-02 22:39
本申请公开了一种系统组件的修复方法及装置、存储介质及电子装置,其中,上述方法包括:对主机系统的系统日志进行检测,在检测到报错信息码的情况下,确定所述报错信息码对应的主机故障的故障类别;确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,其中,所述预设修复策略用于修复所述故障类别对应的系统组件;通过调整后的预设修复策略对所述系统组件进行修复;采用上述方案,解决了相关技术的主机系统中,对于软、硬件突发故障的应急处置相对滞后,导致系统恢复过程持续时间较长,故障期间系统连续性受到较大影响的问题。

【技术实现步骤摘要】

本申请涉及智能监控领域,具体而言,涉及一种系统组件的修复方法及装置、存储介质及电子装置


技术介绍

1、ibm z系列主机,亦称ibm大型机(mainframe,以下简称为主机),因其可以满足高并发、高可用、高一致性的业务连续性要求,多在银行、保险等行业中采用;该类型机器是目前商用计算机中处理能力最强、也是价格最高昂的计算机,主要用于部署银行客户信息、核心账务类等核心交易系统,其软硬件的采购、运维的成本较高,在中、小机构中使用较少。

2、主机在实际系统运维过程中,由于物理元器件会因机房内电磁干扰、灰尘覆盖、设备震动、内部线路扰动、腐蚀性物质侵蚀等诸多内外部原因导致故障。

3、因物理电器元器件发生硬件故障不可避免,主机集群中的设备故障场景又无法逐一穷举,加之硬件故障反复自我修复尝试次数多,多次尝试的间隔偏长,最终尝试自我修复失败才会实施自我隔离,单靠产品设计隔离的速度过慢,或者部分场景下完全无法自我隔离,这些故障及故障自我修复的过程都会对联机交易产生影响。

4、虽然通过硬件的冗余部署方式解决了同类型设备硬件设备因元器件发生电气故障后的设备单点问题,但目前主机系统在故障场景时对于故障后的快速隔离措施尚不能满足交易快速恢复的运行要求。

5、因此,虽然通过部署冗余的物理硬件设备可以实现主机集群的高可用,但目前在硬件设备故障时的产品关键参数设置偏保守,加之应急隔离机制不完善导致了故障设备隔离效率低,而隔离不彻底又有可能导致再次故障后的二次影响,导致了交易的正常运行收到了较大的影响;为实现主机集群高可用的物理硬件设备数量较多,物理连接复杂,故障时的定位过程难度较大,加之关键硬件设备故障时大量报错信息涌入系统日志中形成信息风暴,易导致监控软件收到信息风暴影响而失效,进一步加剧了问题定位的难度,应急处置延误风险进一步增加;在系统持续有大量交易涌入的情况下,对中间件、数据库等软件易造成阻塞产生连锁影响,无人工干预时将导致主机平台系统的高可用失效,不利于系统联机交易在故障后的快速恢复。

6、而目前在主机系统运维实践的过程中,运维人员对主机软、硬件产品的可靠性多持完全信任的态度,主动进行产品关键软、硬件参数进行优化以及对自动化处置措施的优化相对较少,已形成对主机高可用架构被动依赖的运维局面。

7、但由于主机高可用架构中的硬件设备及软件数量庞大,物理元器件的故障通过人工主动巡检不能完全提前规避,特别是对于硬件突发故障的应急处置相对滞后,导致现有系统高可用机制的恢复过程持续时间较长,主机系统自身应急恢复能力偏低,造成故障期间系统连续性受到较大影响,影响客户体验。

8、同时,由于现有的软、硬件的高可用关键参数设置与故障场景下的快速隔离需求较难匹配,加之现有故障自动化处置措施偏于保守,导致当前高可用架构中的软件、硬件、网络等关键基础设施在发生故障的场景中无法对已发生故障的软、硬件实现完全彻底隔离,易发生故障后影响范围蔓延,系统平稳运行易因故障造成二次影响。故障处置不彻底甚至可能引发主机系统的高可用机制失效,系统业务连续性水平在硬件及软件发生故障后受到的威胁明显增加。

9、针对相关技术,现有技术的主机系统中,对于软、硬件突发故障的应急处置相对滞后,导致系统恢复过程持续时间较长,故障期间系统连续性受到较大影响的问题,目前尚未提出有效的解决方案。

10、因此,有必要对相关技术予以改良以克服相关技术中的所述缺陷。


技术实现思路

1、本申请实施例提供了一种系统组件的修复方法及装置、存储介质及电子装置,以至少解决现有技术的主机系统中,对于软、硬件突发故障的应急处置相对滞后,导致系统恢复过程持续时间较长,故障期间系统连续性受到较大影响的问题。

2、根据本申请实施例的一方面,提供了一种系统组件的修复方法,包括:对主机系统的系统日志进行检测,在检测到报错信息码的情况下,确定所述报错信息码对应的主机故障的故障类别;确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,其中,所述预设修复策略用于修复所述故障类别对应的系统组件;通过调整后的预设修复策略对所述系统组件进行修复。

3、进一步地,所述主机故障,包括:硬件故障和软件故障,其中,所述硬件故障包括:光纤通道故障,网络广域网链路故障,磁盘故障和存储交换机故障;所述软件故障包括:中间件软件故障,数据库软件故障和主机监控自动化软件故障。

4、进一步地,对主机系统的系统日志进行检测,在检测到报错信息码的情况下,确定所述报错信息码对应的主机故障的故障类别,包括:在检测到所述报错信息码的情况下,根据所述报错信息码确定所述主机系统中存在的硬件故障的第一故障类别;对所述第一故障类别的硬件故障进行分析,确定所述第一故障类别的硬件故障所触发的软件故障的第二故障类别;将所述第一故障类别和所述第二故障类别确定为所述主机故障的故障类别。

5、进一步地,确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,包括:在确定所述故障类别为第一故障子类别的情况下,将报错信息数量阈值由第一数值调整为第二数值,以及将可隔离光纤通道数量由第三数值调整为第四数值,其中,所述第一故障子类别包括:光纤通道故障,存储交换机故障;所述报错信息数量阈值用于确定光纤通道是否出现故障,所述第一数值大于所述第二数值,所述可隔离光纤通道数量用于所述主机系统隔离出现故障的光纤通道,存储交换机与多条光纤通道连接。

6、进一步地,确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,包括:在确定所述故障类别为第二故障子类别的情况下,确定出现故障的光纤通道的类别,其中,所述第二故障子类别为所述网络广域网链路故障,网络广域网链路由多条光纤通道组成;在确定出现故障的光纤通道的类别为第一类别的情况下,将报错信息数量阈值由第一数值调整为第二数值,以及将可隔离光纤通道数量由第三数值调整为第四数值,其中,所述报错信息数量阈值用于确定光纤通道是否出现故障,所述第一数值大于第二数值,所述可隔离光纤通道数量用于所述主机系统隔离出现故障的光纤通道;在确定出现故障的光纤通道的类别为第二类别的情况下,将io访问频率由第一频率调整为第二频率,其中,所述io访问频率用于指示数据复制主盘向数据复制目标盘发起访问请求的频率,所述第一频率小于所述第二频率,第二类别的光纤通道用于连接所述数据复制主盘和所述数据复制目标盘。

7、进一步地,确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,包括:在确定所述故障类别为第三故障子类别的情况下,将查询请求的发送频率由第三频率调整为第四频率,其中,所述第三故障子类别为所述磁盘故障,所述查询请求用于数据复制主盘查询数据复制目标盘是否处于可用状态,所述磁盘故障用于指示所述数据复制目标盘故障,所述第三频率小于所述第四频率。

8、进一步地,确定所述本文档来自技高网...

【技术保护点】

1.一种系统组件的修复方法,其特征在于,包括:

2.根据权利要求1所述的系统组件的修复方法,其特征在于,所述主机故障,包括:

3.根据权利要求2所述的系统组件的修复方法,其特征在于,对主机系统的系统日志进行检测,在检测到报错信息码的情况下,确定所述报错信息码对应的主机故障的故障类别,包括:

4.根据权利要求2所述的系统组件的修复方法,其特征在于,确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,包括:

5.根据权利要求2所述的系统组件的修复方法,其特征在于,确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,包括:

6.根据权利要求2所述的系统组件的修复方法,其特征在于,确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,包括:

7.根据权利要求3所述的系统组件的修复方法,其特征在于,确定所述第一故障类别的硬件故障所触发的软件故障的第二故障类别之后,所述方法还包括:

8.根据权利要求7所述的系统组件的修复方法,其特征在于,依次调用中间件进程杀死脚本和中间件重启脚本之前,所述方法还包括:

9.根据权利要求3所述的系统组件的修复方法,其特征在于,确定所述第一故障类别的硬件故障所触发的软件故障的第二故障类别之后,所述方法还包括:

10.根据权利要求3所述的系统组件的修复方法,其特征在于,确定所述第一故障类别的硬件故障所触发的软件故障的第二故障类别之后,所述方法还包括:

11.一种系统组件的修复装置,其特征在于,包括:

12.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至10任一项中所述的方法。

13.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。

...

【技术特征摘要】

1.一种系统组件的修复方法,其特征在于,包括:

2.根据权利要求1所述的系统组件的修复方法,其特征在于,所述主机故障,包括:

3.根据权利要求2所述的系统组件的修复方法,其特征在于,对主机系统的系统日志进行检测,在检测到报错信息码的情况下,确定所述报错信息码对应的主机故障的故障类别,包括:

4.根据权利要求2所述的系统组件的修复方法,其特征在于,确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,包括:

5.根据权利要求2所述的系统组件的修复方法,其特征在于,确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,包括:

6.根据权利要求2所述的系统组件的修复方法,其特征在于,确定所述故障类别对应的故障配置文件,根据所述故障配置文件对预设修复策略的关键参数进行调整,包括:

7.根据权利要求3所述的系统组件的修复方法,其特征在于,确定所述第一故障类别...

【专利技术属性】
技术研发人员:曹杰瑞
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1