System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多单元服务器轻量化告警相关性挖掘和收敛方法及系统技术方案_技高网

多单元服务器轻量化告警相关性挖掘和收敛方法及系统技术方案

技术编号:40874174 阅读:4 留言:0更新日期:2024-04-08 16:42
本发明专利技术公开了一种多单元服务器轻量化告警相关性挖掘和收敛方法及系统,本实施例方法首先提出一种基于级别相关性的告警去重方法对告警的进行去重;采用告警收敛支持树结构,作为对传统字典树面向告警收敛的适配改进,该结构通过增加一个告警时间列表和一个关联告警指针链表,实现基于共享内存的高效告警去重与聚合收敛。在此基础上还提出基于时空相关性的告警收敛方法挖掘不同告警组合的支持度并基于时空置信度筛选告警关联关系。本发明专利技术旨在实现基于告警时空相关性的海量告警信息的聚合和收敛,通过告警记录数据结构和告警关联发现,自动化、高效降低多单元刀片服务器系统的冗余告警信息,以实现多单元服务器系统的告警数据高效管理。

【技术实现步骤摘要】

本专利技术涉及多单元服务器轻量级的故障管理或告警收敛/聚合,具体涉及一种多单元服务器轻量化告警相关性挖掘和收敛方法及系统


技术介绍

1、超算中心和数据中心通常部署大量元器件密度高的刀片服务器,每个配备高密度刀片服务器的机框包含几十块计算主板、数块交换主板(业务数据网络)、监控主板、以及若干机框电源模块和机框散热模块(风机)等组件,这些刀片服务器按照主板-机框-系统的三级组织架构形成多单元服务器系统以对外提供算力和服务。对多单元服务器系统进行全方位的状态监控、配置控制和调试维护能力,是确保系统稳定运行重要保障,主板一级(计算主板和交换主板)通常集成板级管理单元(bmu,base management unit),由bmu进行单块主板的监控管理;机框一级(多个刀片)的管理单元为cmu(chassis management unit)监控主板,作为独立插件运行,负责收集、存储与处理各服务器主板bmu的监控管理信息;系统一级通过smu汇总各机框cmu上报的信息与告警,实施全系统的监控管理工作。

2、近年来,刀片服务器的元器件集成度越来越高,密集元器件作为告警源产生的告警信息存在多源多级混杂、内容冗余性,对多单元服务器系统的高效运维和管理提出挑战。一方面,一个元器件产生的同一个故障或问题可能会引发一连串的连锁告警,导致cmu处堆积重复告警;另一方面,一个元器件的故障会以反应链的形式而导致另一个元器件的故障产生,会在短时间内触发多个告警至cmu,掩盖真正的重要故障。因此,若cmu无法对机框内告警进行有效过滤,机框内所有主板的告警数据将直接占用cmu有限的本地存储空间中,而大量机框的告警也将进一步由cmu上报smu,无疑会消耗大量存储、通信资源来记录属于少量故障的冗余、复杂、甚至无效(大多数并没有包含故障的真正原因)告警信息。在面临规模更大、复杂度更高的e级国产超算系统时,由于节点数成倍增多(规模达到十万量级,且每个计算结点又包含数十个甚至更多的软硬件监控指标)、机框量级成倍增大,冗余告警的问题也将被成倍放大,极易造成系统的告警风暴,加剧运维人员对服务器故障定位和处理的难度。

3、传统的故障管理采取人工推理或预设规则的方法。基于人工推理的故障管理由运维人员结合专业知识、自身经验和预设规则进行故障告警的关联性分析,以人工的方式对告警信息进行过滤和筛选,从所有告警中挖掘故障根源,进而开展现场运维;基于预设规则的方法按照一定的策略对告警进行合并,一般采取的是时间窗口策略(例如,5分钟内最多发送多少条告警、每天的告警条数上限)。基于检索的告警去重参考信息检索技术,将新的告警记录与历史告警数据进行匹配比对,匹配到历史记录则认为当前的新告警为重复告警,可以不予记录。这类方法的核心是利用自然语言处理技术进行告警文本的相似度比较,例如使用bm25f进行结构化告警报告比对,技术改进多考虑在文本匹配基础上融合多次告警的上下文进行联合比较或将告警匹配过程建模为一个支持向量机(svm)分类模型。基于聚类的故障告警聚合利用聚类算法选出告警代表。基本过程是将所有告警映射/编码至共同特征空间后,以余弦相似度等指标衡量各个编码告警的距离,采用dbscan、k均值、谱聚类等聚类模型将海量告警划分至有限个告警簇,然后从每个簇中选择质心告警作为该簇内所有告警的代表,簇内其它告警被视作重复或关联告警不再上报系统。基于聚类方法的一个应用实例是告警的概念聚类,使用概念聚类算法aoi(attribute oriented induction,基于属性的归纳)按照层次化属性(机房-服务池-机框)对告警进行划分,告警可以按照不同层级进行抽象(比如按照机房层进行聚合,只保留一个告警)。基于有监督编码的告警聚合借助深度学习模型开展重复或相似告警发掘。这类方法通过词嵌入提取告警特征后,利用简单如多层感知机(mlp)和复杂如孪生卷积神经网络、lstm等模型进行告警重复性、相似性的分类检测,输入多为一个告警对,输出多为该告警对属于同一类的概率,最后,检测为相似的告警可以按时间先后等策略进行去重。以上深度模型需要大量标注的样本数据进行参数训练,通常可以提供突出的冗余告警检测精度。此外,实践中还可以通过自动恢复策略将告警与相应的干预手段(自动扩容、重启)联合起来,smu在发现告警时自动执行告警所绑定的干预手段,从而直接消除告警减少人工干预。但是,现有方法往往局限于告警的消除,但是这种方式对于海量告警的多单元服务器系统告警而言,仍然会存在告警风暴的问题。

4、总而言之,已有告警收敛技术或方法存在以下缺点:1)传统方法过度依赖运维人员自身素质和经验,无法有效扩展到大规模服务器的自动化告警管理,无法快速适应动态场景下告警的新特征。特别是基于人工推理的方法,运维效率很低,运维成本高。所以,传统方法一般可以作为告警去重的最后手段。2)基于检索的告警去重和基于聚类告警聚合主要考察告警的语法或上下文相似性,忽略了告警之间的逻辑关联性,例如,告警a和告警b在文本上可能表述差距很大,但实际可能是同一故障导致的两个器件的告警,所以是逻辑关联的,这两类方法显然无法有效归并逻辑关联告警。3)基于监督学习的告警聚合需要在标注数据上训练深度模型,数据的标注和预处理成本很高,深度模型的参数训练会引入大量计算开销,也对运行的硬件提出较高要求。相比于计算模块,smu的算力通常较小,例如, smu通常采用d2000芯片(4核心、主频2ghz)、配置16g内存,难以支撑模型训练和实时推理任务。此外,深度模型存在可解释性上的缺陷,对于下游告警分析或根因定位任务不友好。综上,已有告警收敛技术受限于多单元服务器系统告警分析的语义关联挖掘和受限硬件资源条件下的分析效率,难以提供高效的告警关联分析和告警收敛处理。


技术实现思路

1、本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种多单元服务器轻量化告警相关性挖掘和收敛方法及系统,本专利技术旨在实现基于告警时空相关性的海量告警信息的聚合和收敛,通过告警记录数据结构和告警关联发现,自动化、高效降低大规模刀片服务器系统的冗余告警信息,以实现多单元服务器系统的告警数据高效管理。

2、为了解决上述技术问题,本专利技术采用的技术方案为:

3、一种多单元服务器轻量化告警相关性挖掘和收敛方法,包括:

4、s101,接收到新的告警anew;

5、s102,在告警时间戳列表中找到时间最新的最近邻告警angb;

6、s103,判断新的告警anew的告警级别是否大于最近邻告警angb的告警级别,若新的告警anew的告警级别大于最近邻告警angb的告警级别,则判断新的告警anew、最近邻告警angb的时间间隔是否在预设的时间窗口长度tthres内,若时间间隔在预设的时间窗口长度tthres内,则删除最近邻告警angb,并记录新的告警anew的时间戳,完成1次告警去重;否则,不做告警去重处理,记录新的告警anew的时间戳,若新的告警anew的告警级别有时间戳则替换已有同告警级别的告警;

7、所述新的告警an本文档来自技高网...

【技术保护点】

1.一种多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,包括:

2.根据权利要求1所述的多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,步骤S103还包括:若新的告警Anew的告警级别小于等于最近邻告警Angb的告警级别,则判断新的告警Anew、最近邻告警Angb的时间间隔是否在预设的时间窗口长度Tthres内,若忽略最近邻告警Angb,完成1次告警去重;否则,不做告警去重处理,记录新的告警Anew的时间戳,若新的告警Anew的告警级别有时间戳则替换已有同告警级别的告警。

3.根据权利要求1所述的多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,所述告警收敛支持树存储在共享内存中以支持不同告警源处理进程对结构的更新和访问。

4.根据权利要求3所述的多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,所述告警收敛支持树不做告警的全记录,通过设定回调函数以在告警时间戳列表更新时或定期将列表中的告警记录到数据库。

5.根据权利要求1所述的多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,步骤S203中计算各潜在告警关联关系的时空置信度的函数表达式为:

6.根据权利要求5所述的多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,步骤S203中预设的根据传感器的邻近关系设定权重满足下述约束关系:同一器件的不同传感器间的邻近权重>相邻器件传感器的邻近权重>间隔器件传感器的邻近权重。

7.一种多单元服务器轻量化告警相关性挖掘和收敛系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~6中任意一项所述多单元服务器轻量化告警相关性挖掘和收敛方法。

8.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序用于被微处理器编程或配置以执行权利要求1~6中任意一项所述多单元服务器轻量化告警相关性挖掘和收敛方法。

9.一种计算机程序产品,包括计算机程序/指令,其特征在于,该算机程序/指令被编程或配置以通过处理器执行权利要求1~6中任意一项所述多单元服务器轻量化告警相关性挖掘和收敛方法。

...

【技术特征摘要】

1.一种多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,包括:

2.根据权利要求1所述的多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,步骤s103还包括:若新的告警anew的告警级别小于等于最近邻告警angb的告警级别,则判断新的告警anew、最近邻告警angb的时间间隔是否在预设的时间窗口长度tthres内,若忽略最近邻告警angb,完成1次告警去重;否则,不做告警去重处理,记录新的告警anew的时间戳,若新的告警anew的告警级别有时间戳则替换已有同告警级别的告警。

3.根据权利要求1所述的多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,所述告警收敛支持树存储在共享内存中以支持不同告警源处理进程对结构的更新和访问。

4.根据权利要求3所述的多单元服务器轻量化告警相关性挖掘和收敛方法,其特征在于,所述告警收敛支持树不做告警的全记录,通过设定回调函数以在告警时间戳列表更新时或定期将列表中的告警记录到数据库。

5.根据权利要求1所述的多单元服务器轻量化告警相关性挖掘和收...

【专利技术属性】
技术研发人员:袁远周桐庆王俊邢建英李志星谢徐超宋振龙魏登萍张根
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1