System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于正态分布模型的Kafka集群异常节点检测方法技术_技高网

基于正态分布模型的Kafka集群异常节点检测方法技术

技术编号:40925884 阅读:5 留言:0更新日期:2024-04-18 14:49
本发明专利技术属于大数据云计算技术领域,公开了基于正态分布模型的Kafka集群异常节点检测方法,包括如下步骤:S1、特征选择;选择Kafka节点进程中的线程指标作为特征,并获取相应的特征变量D;S2、构建正常特征空间分布;根据获取的特征变量构建正常特征空间分布所用的数据集,并构建分布函数,确定特征变量D的正常运行区间;S3、异常检测与告警;通过判断当天的特征变量D是否有落入正常运行区间以判断是否出现异常,若出现异常,则进行告警。本发明专利技术相对现有技术而言,提出了自动检测异常的方法,避免人工根据集群规模和量级确定并反复调试告警指标。

【技术实现步骤摘要】

本专利技术属于大数据云计算领域,具体涉及基于正态分布模型的kafka集群异常节点检测方法。


技术介绍

1、apache kafka是一个开源分布式消息队列平台,被广泛应用于高性能数据处理的中间件,承担与外部系统交互,以及内部组件互通的功能。kafka使用分布式架构,能够灵活扩容,处理能力随服务器数量能够实现线性增长,单集群服务器数量能高达上千台,以达到单日处理百万亿数据,吞吐pb级别数据的效果。得益于分布式架构,基于分区的副本机制,kafka能够容忍单服务器失效,并能够实现故障自动愈合,保障持续的可用性。作为消息队列平台,kafka可以说是大数据处理平台的关键组件,其处理能力直接影响系统的吞吐量。因此,对于该组件一般都需要有专门的运维团队,或者使用云服务商提供的云服务,这两者都需要完善的监控系统支撑,以及时发现并定位kafka集群的故障。

2、kafka是基于磁盘的消息队列,如图1所示,通过磁盘保证在宕机时的消息完整性。与其他组件交互,则通过网络,使用特有的二进制协议,以保证最小的带宽占用。因此,其处理性能的关键往往在于磁盘性能和网络质量。对于单服务器,其可能的故障点为磁盘性能下降、磁盘损坏、网络质量下降,以及服务器宕机等。单磁盘或单服务器故障时,会影响该磁盘或者该上所有leader分区,导致leader重选举,或未触发选举但该分区不可用。这两种情况都会严重影响kafka集群的吞吐性能,影响分区的数据均衡。kafka通过网络与其他组件交互时,在数据中心形成东西流量,有可能与hdfs等批处理突发流量互相竞争,导致一个或多个节点网络质量下降。

3、通常,运维团队或云服务提供商都构建了对应的监控系统,通过阈值告警协助运维人员发现故障;如cn108234199a设计了一种针对kafka的指标收集系统,而202111615414.1则选择了多个维度做指标聚合,使告警更具有针对性;进一步的,202011584704.x设计了对应的监控巡检系统,使用自动化程序替代人工,根据告警的指标实施自动巡检。

4、以上工作都注意到了kafka指标监控的重要性,并尝试逐步将发现故障-定位故障的工作自动化。但是其局限性在于,需要人工深度介入设定对应的告警规则,且都是事后发现并处理故障,对于大规模集群而言,短时间的吞吐量下降,即会造成较为严重的积压;因此,有必要提出一种不能够自动寻找并定位异常节点的方法,并且能够在故障发生前检测到节点运行状态偏离正常,以减少对线上业务的影响。


技术实现思路

1、本专利技术的目的在于提供基于正态分布模型的kafka集群异常节点检测方法,用于解决
技术介绍
中提出的技术问题。

2、为了实现上述目的,本专利技术采用了如下技术方案:基于正态分布模型的kafka集群异常节点检测方法,包括如下步骤:

3、s1、特征选择;选择kafka节点进程中的线程指标作为特征,并获取相应的特征变量d;

4、s2、构建正常特征空间分布;根据获取的特征变量构建正常特征空间分布所用的数据集,并构建分布函数,确定特征变量d的正常运行区间;

5、s3、异常检测与告警;通过判断当天的特征变量d是否有落入正常运行区间以判断是否出现异常,若出现异常,则进行告警。

6、优选的,所述线程指标包括网络处理线程和请求处理线程;

7、所述网络处理线程负责通过网络与其他节点或者客户端交互;

8、所述请求处理线程负责写磁盘后为请求提供响应。

9、优选的,所述特征变量d包括网络处理器利用率和请求处理器利用率;

10、所述网络处理器利用率的具体表现方式如下:在t时刻,节点i网络处理线程繁忙时间占总运行时间的比值,记为dn,i,t,取值为0~1;

11、所述请求处理器利用率的具体表现方式如下:在t时刻,节点i请求处理线程繁忙时间占总运行时间的比值,记为dr,i,t,取值为0~1。

12、优选的,实际使用的特征变量是利用计算相同时间节点出入宽带总和进行体现,具体计算公式如下:

13、

14、

15、其中,dn,i,t表示实际使用的网络处理器利用率;dr,i,t表示实际使用的请求处理器利用率,dbio,i,t表示相同时间节点出入宽带总和,单位为mib/s。

16、优选的,正常特征空间分布是利用节点数据i的前一天节点数据构建的数据集,具体表现如下:与其中t代表当天每一个采样时间点。

17、优选的,当网络和磁盘的特征分布符合正态分布时,所述正常特征空间分布的分布函数为:

18、

19、

20、其中,μn,i和μr,i分别为节点i特征空间dn,i和dr,i中所有特征点的平均值,σn,i和σr,i分别为特征空间dn,i和dr,i的方差。

21、优选的,当正常特征空间分布的分布函数符合正态分布时,使用3σ原则进行异常检测,所述异常检测包括,正常运行区间检测以及异常运行区间检测;所述正常运行区间检测具体检测如下:

22、pr(μ-3σ≤d≤μ+3σ)=0.9973;

23、其中,pr(μ-3σ≤d≤μ+3σ)表示正常的特征变量d落入区间[μ-3σ,μ+3σ]的概率。

24、优选的,所述异常运行区间检测是根据区间[μ-3σ,μ+3σ]构建异常检测函数进行检测,异常检测函数具体如下:

25、

26、其中,f(d,μ,σ)表示当天的特征变量d是否落入区间[μ-3σ,μ+3σ]以判断是否出现异常。

27、优选的,若当天t时刻,节点i的特征值dn,i,t满足f(dn,i,t,μn,i,σn,i)=1,则表示节点i网络存在异常,并生成节点i的网络异常告警。

28、优选的,若当天t时刻,节点i的特征值dr,i,t满足f(dr,i,t,μr,i,σr,i)=1,则表示节点i磁盘相关性能存在异常,生成节点i的磁盘异常告警。

29、综上所述,由于采用了上述技术方案,本专利技术的有益效果是:

30、1、本专利技术相对现有技术而言,在收集监控指标后更进一步,提出了自动检测异常的方法,避免人工根据集群规模和量级确定并反复调试告警指标;本申请生成的告警精确到节点粒度,若节点的磁盘或网络性能发现偏移,能够及时预先告警,供运维人员介入以消除隐患。

31、2、本专利技术使用了简单的正态分布假设,可解释性良好,在实际应用中比较容易被运维人员接受,计算和预测代价均极低,通过现成的prometheus系统即可处理,易于实时实现。

本文档来自技高网...

【技术保护点】

1.基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,所述线程指标包括网络处理线程和请求处理线程;

3.如权利要求2所述的基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,所述特征变量D包括网络处理器利用率和请求处理器利用率;

4.如权利要求3所述的基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,实际使用的特征变量是利用计算相同时间节点出入宽带总和进行体现,具体计算公式如下:

5.如权利要求4所述的基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,正常特征空间分布是利用节点数据i的前一天节点数据构建的数据集,具体表现如下:

6.如权利要求5所述的基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,当网络和磁盘的特征分布符合正态分布时,所述正常特征空间分布的分布函数为:

7.如权利要求6所述的基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,当正常特征空间分布的分布函数符合正态分布时,使用3σ原则进行异常检测,所述异常检测包括正常运行区间检测以及异常运行区间检测;所述正常运行区间检测具体检测如下:

8.如权利要求7所述的基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,所述异常运行区间检测是根据区间[μ-3σ,μ+3σ]构建异常检测函数进行检测,异常检测函数具体如下:

9.如权利要求8所述的基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,若当天t时刻,节点i的特征值DN,i,t满足f(DN,i,t,μN,i,σN,i)=1,则表示节点i网络存在异常,并生成节点i的网络异常告警。

10.如权利要求9所述的基于正态分布模型的Kafka集群异常节点检测方法,其特征在于,若当天t时刻,节点i的特征值DR,i,t满足f(DR,i,t,μR,i,σR,i)=1,则表示节点i磁盘相关性能存在异常,生成节点i的磁盘异常告警。

...

【技术特征摘要】

1.基于正态分布模型的kafka集群异常节点检测方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于正态分布模型的kafka集群异常节点检测方法,其特征在于,所述线程指标包括网络处理线程和请求处理线程;

3.如权利要求2所述的基于正态分布模型的kafka集群异常节点检测方法,其特征在于,所述特征变量d包括网络处理器利用率和请求处理器利用率;

4.如权利要求3所述的基于正态分布模型的kafka集群异常节点检测方法,其特征在于,实际使用的特征变量是利用计算相同时间节点出入宽带总和进行体现,具体计算公式如下:

5.如权利要求4所述的基于正态分布模型的kafka集群异常节点检测方法,其特征在于,正常特征空间分布是利用节点数据i的前一天节点数据构建的数据集,具体表现如下:

6.如权利要求5所述的基于正态分布模型的kafka集群异常节点检测方法,其特征在于,当网络和磁盘的特征分布符合正态分布时,所述正常特征空间分布的分布函数为:

7.如权利...

【专利技术属性】
技术研发人员:肖立超谭立轩彭华杰
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1