System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 针对运维平台的监控方法及装置制造方法及图纸_技高网

针对运维平台的监控方法及装置制造方法及图纸

技术编号:40654829 阅读:8 留言:0更新日期:2024-03-13 21:31
本说明书实施例披露一种针对运维平台的监控方法及装置,所述运维平台将接收到的运维工单按运维服务器划分为若干运维批次,运维服务器中存储或处理的数据可以是隐私数据。该方法包括:先读取目标批次的执行状态数据,该目标批次为所述若干运维批次之一;接着,在基于所述执行状态数据判定出执行状态异常的情况下,读取所述目标批次对应的执行日志以确定异常原因;进一步,在所述异常原因命中预先确定的非平台原因的情况下,从当前采集周期对应的执行批次集中滤除所述目标批次,否则,将所述目标批次归入所述执行批次集的失败子集;之后,响应于所述当前采集周期的结束,基于所述失败子集和执行批次集计算失败率,用于确定是否触发告警。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机,尤其涉及一种针对运维平台的监控方法及装置


技术介绍

1、随着计算机和互联网技术的发展,越来越多的人使用网络服务来满足生活、工作中的各种需求。为了向用户提供稳定的网络服务,保护用户数据的隐私安全,需要对网络服务系统进行运维,随着网络服务系统的硬件设施和应用架构等愈发复杂,给运维工作带来的极大的挑战。

2、运维平台本身的稳定性也至关重要。因此,需要一种方案,可以及时、准确地获取平台的健康状态、定位线上问题,或挖掘隐藏的线上问题等。


技术实现思路

1、本说明书实施例描述一种针对运维平台的监控方法及装置,可以及时、准确地获取平台的健康状态。

2、根据第一方面,提供一种针对运维平台的监控方法,所述运维平台将接收到的运维工单按运维服务器划分为若干运维批次。该方法包括:读取目标批次的执行状态数据,所述目标批次为所述若干运维批次之一;在基于所述执行状态数据判定出执行状态异常的情况下,读取所述目标批次对应的执行日志以确定异常原因;在所述异常原因命中预先确定的非平台原因的情况下,从当前采集周期对应的执行批次集中滤除所述目标批次,否则,将所述目标批次归入所述执行批次集的失败子集;响应于所述当前采集周期的结束,基于所述失败子集和执行批次集计算失败率,用于确定是否触发告警。

3、在一个实施例中,所述目标批次的执行数据被所述运维平台同步至所述数据库中,所述执行数据包括所述执行状态数据;其中,读取目标批次的执行状态数据,包括:从所述数据库中读取所述执行状态数据。

4、在一个实施例中,所述方法还包括:若解析所述执行状态数据得到所述目标批次涉及的所有服务器均为失败态,或者,得到所述目标批次的执行状态为执行中且执行超时,则判定执行状态异常。

5、在一个实施例中,所述方法还包括:若解析所述执行状态数据得到所述目标批次涉及的部分或全部服务器为成功态,则判定执行状态正常。

6、在一个实施例中,所述方法还包括:若解析所述执行状态数据得到执行状态为执行中且执行未超时,则继续等待执行完成。

7、在一个实施例中,所述预先确定的非平台原因表示为错误码,所述执行日志为优化日志,所述优化日志包括日志记录和对应的错误码。

8、在一个实施例中,所述预先确定的非平台原因由工作人员通过分析历史失败运维工单,对错误原因进行归类而得到。

9、在一个实施例中,基于所述失败子集和执行批次集计算失败率,包括:针对多个执行场景中任意的第一执行场景,基于所述失败子集和执行批次集分别统计该第一执行场景下的失败批次数和执行批次总数,从而计算该第一执行场景下的失败率。

10、在一个实施例中,在基于所述失败子集和执行批次集计算失败率之后,所述方法还包括:在所述失败率大于预设告警阈值的情况下,触发告警。

11、在一个具体的实施例中,在所述失败率大于预设告警阈值的情况下,所述方法还包括:对所述失败子集中各个失败批次对应的异常原因进行展示。

12、进一步,在一个更具体的实施例中,所述方法还包括:针对所述各个失败批次,通过自定义的根因定位接口从各个底层系统中获取该失败批次对应的错误信息;对所述错误信息进行展示。

13、在一个例子中,所述方法还包括:利用所述异常原因和错误信息匹配预先配置的自愈预案,命中则实施自愈预案,否则请求人工干预。

14、在一个实施例中,所述方法还包括:在判断出所述运维平台的当前空闲容量大于预设阈值的情况下,向所述运维平台提交测试用的运维工单;基于对所述测试用的运维工单的执行过程的监控数据,得到测试结果。

15、根据第二方面,提供一种针对运维平台的监控装置,所述运维平台将接收到的运维工单按运维服务器划分为若干运维批次。所述监控装置包括:

16、执行数据读取模块,配置为读取目标批次的执行状态数据,所述目标批次为所述若干运维批次之一;异常原因确定模块,配置为在基于所述执行状态数据判定出执行状态异常的情况下,读取所述目标批次对应的执行日志以确定异常原因;目标批次处理模块,配置为在所述异常原因命中预先确定的非平台原因的情况下,从当前采集周期对应的执行批次集中滤除所述目标批次,否则,将所述目标批次归入所述执行批次集的失败子集;失败率计算模块,配置为响应于所述当前采集周期的结束,基于所述失败子集和执行批次集计算失败率,用于确定是否触发告警。

17、根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面提供的方法。

18、根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,该处理器执行所述可执行代码时,实现第一方面提供的方法。

19、综上,采用本说明书实施例披露的上述方法或装置,可以站在最终客户视角做监控覆盖,实现实时精准监控。具体而言,从底层拆分运维工单,细化至批次粒度进行监控,并且只有当批次跌零(即该批次中所有服务器均运维失败)时才会归档为失败,从而解决了运维工单执行时间长无法实时发现线上问题、失败原因复杂导致的告警噪音较高的问题;通过智能分析db数据,实时计算批次失败率,当满足监控规则时,则会自动生成告警;同时,通过大数据清洗历史工单的失败根因,梳理出已知错误码,并进行全链路日志改造,监控时自动过滤非平台原因导致的失败批次,从而实现监控降噪的目的;开发智能分析系统根因定位接口,实时获取各个底层系统叶子节点的最新错误信息,自动聚合批次失败根因,当触发告警时失败原因会自动展示在告警大盘中,达到秒级定位的效果,解决了人工分析日志以及人工盯盘的问题。告警触发之后将分析到的失败根因自动匹配自愈预案,通过自愈进行自动止血,大大提高了应急效率。另外,为了能够实时主动发现线上问题,针对高保场景进行自动提交运维工单,通过定时任务进行触发,实现秒级发现线上问题,并在第一时间处理解决,保障业务持续性的稳定运行。

本文档来自技高网...

【技术保护点】

1.一种针对运维平台的监控方法,所述运维平台将接收到的运维工单按运维服务器划分为若干运维批次;所述方法包括:

2.根据权利要求1所述的方法,其中,所述目标批次的执行数据被所述运维平台同步至所述数据库中,所述执行数据包括所述执行状态数据;其中,读取目标批次的执行状态数据,包括:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,还包括:

5.根据权利要求1所述的方法,还包括:

6.根据权利要求1所述的方法,其中,所述预先确定的非平台原因表示为错误码,所述执行日志为优化日志,所述优化日志包括日志记录和对应的错误码。

7.根据权利要求1所述的方法,其中,所述预先确定的非平台原因由工作人员通过分析历史失败运维工单,对错误原因进行归类而得到。

8.根据权利要求1所述的方法,其中,基于所述失败子集和执行批次集计算失败率,包括:

9.根据权利要求1所述的方法,其中,在基于所述失败子集和执行批次集计算失败率之后,所述方法还包括:

10.根据权利要求9所述的方法,其中,在所述失败率大于预设告警阈值的情况下,所述方法还包括:

11.根据权利要求10所述的方法,还包括:

12.根据权利要求11所述的方法,还包括:

13.根据权利要求1所述的方法,还包括:

14.一种针对运维平台的监控装置,所述运维平台将接收到的运维工单按运维服务器划分为若干运维批次;所述监控装置包括:

15.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-13中任一项所述的方法。

16.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-13中任一项所述的方法。

...

【技术特征摘要】

1.一种针对运维平台的监控方法,所述运维平台将接收到的运维工单按运维服务器划分为若干运维批次;所述方法包括:

2.根据权利要求1所述的方法,其中,所述目标批次的执行数据被所述运维平台同步至所述数据库中,所述执行数据包括所述执行状态数据;其中,读取目标批次的执行状态数据,包括:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,还包括:

5.根据权利要求1所述的方法,还包括:

6.根据权利要求1所述的方法,其中,所述预先确定的非平台原因表示为错误码,所述执行日志为优化日志,所述优化日志包括日志记录和对应的错误码。

7.根据权利要求1所述的方法,其中,所述预先确定的非平台原因由工作人员通过分析历史失败运维工单,对错误原因进行归类而得到。

8.根据权利要求1所述的方法,其中,基于所述失败子集和执行批次集计算失败率,包括:...

【专利技术属性】
技术研发人员:张好好
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1