一种基于自然语言特征提取有效告警数据的方法技术

技术编号:28421443 阅读:47 留言:0更新日期:2021-05-11 18:29
本发明专利技术公开了一种基于自然语言特征提取有效告警数据的方法,包括局部敏感hash模块和编辑距离算法模块,所述局部敏感hash算法模块包括分词模块,hash模块,加权模块,合并模块,降维模块;所述分词模块给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1‑5等5个级别的权重;所述hash模块通过hash函数计算各个特征向量的hash值;所述加权模块在hash值的基础上,给所有特征向量进行加权;所述合并模块将各特征向量的加权结果累加,变成只有一个序列串;所述降维模块用于得到语句的simhash值;所述编辑距离算法模块将hash值进行相似度聚类。

【技术实现步骤摘要】
一种基于自然语言特征提取有效告警数据的方法
本专利技术涉及特种设备
,具体为一种基于自然语言特征提取有效告警数据的方法。
技术介绍
传统运维体系的接入告警方式纷繁复杂,各类业务监控平台发送的告警类型格式没有标准,当各类运维监控平台将海量的告警发出后告警的有效性就变得尤为重要,一般正常情况下自然人能够处理的告警数量在每分钟3条左右,如果大量的告警出现频率过高就会形成告警风暴导致远远超过自然人处理的极限就会出现关键告警丢失现象,导致关键问题处理滞后,就会出现严重的生产事故等问题。当前现有的实现方案包括:告警门限设置一般采用流量管控的方式,当告警数据在门限下时告警接收平台会接收全部告警做正常处理,门限数据超过最大限制就会丢弃部分告警信息,丢弃周期一般在分钟级别。现有技术1,告警去重处理模式:告警数据流入后对首条告警记录告警规则值,记录规则值后后续所有的告警将进行规则匹配运算,相同告警不在进行通知,不同告警生成新的规则集,以上操作反复执行。通过以上技术实现现有缺陷:匹配规则生成数量较多严重影响性能问题;告警风暴降临后当告警本文档来自技高网...

【技术保护点】
1.一种基于自然语言特征提取有效告警数据的方法,包括局部敏感hash模块和编辑距离算法模块,其特征在于:/n所述局部敏感hash算法模块包括分词模块,hash模块,加权模块,合并模块,降维模块;/n所述分词模块给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1-5等5个级别的权重;/n所述hash模块通过hash函数计算各个特征向量的hash值;/n所述加权模块在hash值的基础上,给所有特征向量进行加权;/n所述合并模块将各特征向量的加权结果累加,变成只有一个序列串;/n所述降维模块用于得到语句的simhash值;/n所述编辑距离算法模块将hash值进行相似度聚类。/n

【技术特征摘要】
1.一种基于自然语言特征提取有效告警数据的方法,包括局部敏感hash模块和编辑距离算法模块,其特征在于:
所述局部敏感hash算法模块包括分词模块,hash模块,加权模块,合并模块,降维模块;
所述分词模块给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1-5等5个级别的权重;
所述hash模块通过hash函数计算各个特征向量的hash值;
所述加权模块在hash值的基础上,给所有特征向量进行加权;
所述合并模块将各特征向量的加权结果累加,变成只有一个序列串;
所述降维模块用于得到语句的simhash值;
所述编辑距离算法模块将hash值进行相似度聚类。


2.根据权利要求1所述的一种基于自然语言特征提取有效告警数据的方法,其特征在于:所述权重的等级越大,代表重要程度越重要。


3.根据权利要求1所述的一种基于自然语言特征提取有效告警数据的方法,其特征在于:所述hash值为二进制数01组成的n-bit签名。


4.根据权利要求1所述的一种基于自然语言特征提取有效告警数据的方法,其特征在于:所述给特征向量进行加权,为W=hash*w...

【专利技术属性】
技术研发人员:何毅鹏葛艳芳
申请(专利权)人:四川睿象科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1