【技术实现步骤摘要】
一种混合云管的异常实时上报方法、系统、设备和介质
[0001]本专利技术涉及云计算中的逻辑可用性监测领域,特别涉及一种混合云管的异常实时上报方法、系统、设备和介质。
技术介绍
[0002]在国家云的大背景下,很多政企单位业务遍布全国,且对云计算的需求越来越多样化,由此,私有云+公有云的混合云形态逐渐成为政企云业务的发展趋势,然而伴随混合云多样化能力而来的是更复杂的部署架构和使用场景,所以发现系统中问题与异常的难度也呈指数级增长,尤其是系统交付后的生产环境问题。
[0003]目前,大部分云厂商对云管业务异常处理的主要方案是通过记录运行日志,或在用户使用出现异常时联系运维人员,运维人员介入处理,或先提交缺陷,待开发人员定期排查解决。这类上报方法更关注当前使用的业务功能,对关联功能和非关注功能关注度低,进而覆盖度低;由于人工介入过多,导致实时性差,且成本极高。
技术实现思路
[0004]鉴于上述问题,本专利技术实施例提供了一种混合云管的异常实时上报方法、系统、设备和介质,以便克服上述问题或者至少部分地解决上 ...
【技术保护点】
【技术特征摘要】
1.一种混合云管的异常实时上报方法,其特征在于,应用于集成prometheus服务,所述方法包括:利用集成prometheus服务获取混合云管系统的原始metrics数据;对所述原始metrics数据进行聚类,得到metrics数据;按照逻辑组合对所述metrics数据进行处理,得到场景数据;在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息。2.根据权利要求1所述的方法,其特征在于,所述利用集成prometheus服务获取混合云管系统的原始metrics数据,包括:利用所述集成prometheus服务,按照预设时间间隔定时向所述混合云管系统发送原始metrics数据获取请求;接收所述混合云管系统返回的原始metrics数据;对所述原始metrics数据进行聚类,得到metrics数据,包括:按照云系统、资源池、主功能、子功能对所述原始metrics数据进行聚类,得到metrics数据。3.根据权利要求2所述的方法,其特征在于,按照逻辑组合对所述metrics数据进行处理,得到场景数据,包括:按照云系统、资源池、主功能、子功能分类,分别对各类别在预设时间内的metrics数据进行处理,得到各类别在预设时间内的场景数据。4.根据权利要求1所述的方法,其特征在于,所述在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息,包括:基于grafana可视化平台制定报警规则,在所述场景数据和/或所述metrics数据满足报警条件的情况下,上报所述场景数据和/或所述metrics数据对应的异常信息。5.根据权利要求4所述的方法,其特征在于,在同时上报多个异常信息的情况下,所述方法还包括:利用alertmanager模块判断同时上报的多个异常信息是否相同;在所述多个异常信息相同的情况下,对所述多个异常信息进行一次处理;在所述多个异常信息不相同的情况下,分别对每个异常信息进行处理。6.根据权利要求1所述的方法,其特征在于,所述在所述场景数据和/或所述metrics数据触发报警条件的情况下,上报异常信息,包括:所述场景数据和/或所述metrics数据触发报警条件的情况下,基于webhook模块进行自定义梯度报警:通过对报警消息做webhook,利用自定义服务统计报警持续时长;根据所述报警持续时长,按照自定义的梯度报警规则,将所述异常信息上报至相应的业务处理终端进行处理。7.根据权利要求6所述的方法,其特征在于,所述根据所述报警持续时长,按照自定义的梯度报警规则,将所述异常信息上报至相应的业务处理终端进行处理,包括:当所述报警持续时长未超过第一预设时长时,不通知相应的业务处理终端处理异常信息;当所述报警持续时长超过所述第一预设时长后还在继续报警时,利用第一上报方式,
通知相应的业务处理终端处理异常信息;当所述报警持续时长超过第二预设时长还在继续报警时,利用第二上报方式,通知相应的业务处理终端处理异常信息;当所述报警持续时长超过第三预设时长还在继续报警时,利用第三上报方式,通知相应的业务处理终端处理异常信息;其中,所述第一预设时长小于所述第二预设时长,所述第二预设时长小于所述第三预设时长。8.一种混合云管的异常实时上报方法,其特征在于,应用于混合云管系统,所述方法包括:根据基础数据生成原始metrics数据;接收集成prometheus服务发送原始metrics数据获取请求,向所述集成prometheus服务返回原始metrics数据,以供所述集成prometheus服务对所述原始metr...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。