告警数据规则挖掘方法、装置及电子设备制造方法及图纸

技术编号:25598532 阅读:22 留言:0更新日期:2020-09-11 23:56
本申请提供了一种告警数据规则挖掘方法、装置及电子设备,其中,该方法包括:将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据的词向量表示,告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;将每条告警数据的词向量表示进行聚类训练,以得到每条告警数据的词向量表示的聚类标识;根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。

【技术实现步骤摘要】
告警数据规则挖掘方法、装置及电子设备
本申请涉及计算机
,具体而言,涉及一种告警数据规则挖掘方法、装置及电子设备。
技术介绍
在计算机的安全监控中,一般会监控过程中采集日志数据,以使运维人员根据日志数据进行排查错误、修复相关告警等。但实际中,日志数据存在数据量大、稀疏性高、相互独立、没有关联性等问题。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种告警数据规则挖掘方法、装置及电子设备。能够解决上述日志数据之间存在关联性不足的效果。第一方面,本申请实施例提供了一种告警数据规则挖掘方法,包括:将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据的词向量表示,所述告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;将每条告警数据的词向量表示进行聚类训练,以得到每条告警数据的词向量表示的聚类标识;根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对所述告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。在一种可选的实施方式中,所述将所述告警数据集中的每条告警数据进行处理,以得到每条告警数据对应的词向量表示的步骤,包括:将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量;使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。本申请实施例提供的告警数据规则挖掘方法,通过向确定每个词对应的词向量,基于多个词向量得出每条告警数据的词向量表示,确定出的词向量能够更完整地表达每条告警数据。在一种可选的实施方式中,所述将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量的步骤,包括:将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词;将每条告警数据中所包含的多个词进行词向量计算,以得到每条告警数据对应的多个词向量。本申请实施例提供的告警数据规则挖掘方法,还可以先采用分词,再对分词得到的各个词转化为词向量,从而可以使确定出的词向量能够更准确地表达告警数据中的含义。在一种可选的实施方式中,所述将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词的步骤,包括:将所述告警数据集进行去重处理,得到清洗告警数据集;根据所述清洗告警数据集构建告警词典;将所述告警词典中的每条告警数据进行分词处理,得到每条告警数据中所包含的多个词。本申请实施例提供的告警数据规则挖掘方法,还可以先构建告警词典,基于告警词典对告警数据进行分词,从而可以使分的多个词能够更好地表达告警数据所需表达的含义。在一种可选的实施方式中,所述使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示的步骤,包括:使用TF-IDF算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。本申请实施例提供的告警数据规则挖掘方法,还可以基于TF-IDF确定出各个告警数据的各个词向量的权重,从而可以使词向量表示能够突出告警数据的重点,提高词向量表示的准确性。在一种可选的实施方式中,所述根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集的步骤,包括:根据所有的词向量表示的聚类标识形成的告警序列,构建告警事务数据库;使用关联分析算法对所述告警事务数据库进行分析,以得到告警频繁模式集。在一种可选的实施方式中,所述根据所有的词向量表示的聚类标识形成的告警序列,构建告警事务数据库的步骤,包括:第一指针从所有的词向量表示的聚类标识形成的告警序列的第一个样本开始,第二指针从第二个样本开始,在告警序列中逐步移动所述第一指针和所述第二指针;当所述第一指针与所述第二指针的距离未达到指定数量的样本时,若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识相同,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处;若所述第二指针指向的样本的聚类标识与所述第一指针与所述第二指针之间的任意样本的聚类标识不相同,则将第二指针在告警序列中逐步移动;当所述第一指针与所述第二指针的距离达到指定数量的样本时,则将所述第一指针和所述第二指针之间的样本集形成一子事务集,存入所述告警事务数据库中,且将所述第一指针跳转到所述告警序列中未被遍历的所有样本中的首个样本处,直到遍历完所述告警序列。本申请实施例提供的告警数据规则挖掘方法,还可以通过上述的方式能够先构建告警事务数据库,再基于构建的告警事务数据库构建告警频繁模式集,可以使构建的告警频繁模式集之间的关联更准确。第二方面,本申请实施例还提供一种告警数据规则挖掘装置,包括:处理模块,用于将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据对应的词向量表示,所述告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;聚类模块,用于将所有告警数据的词向量表示进行聚类训练,以得到每条所述词向量表示的聚类标识;分析模块,用于根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的任一种可能的实施方式中的告警数据规则挖掘方法的步骤。第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的任一种可能的实施方式中的告警数据规则挖掘方法的步骤。本申请实施例提供的告警数据规则挖掘方法、装置、电子设备及计算机可读存储介质,采用聚类训练确定出各个告警数据之间的关联,再次,根据关联分析确定出告警数据之间的关联性。与现有技术中的日志数据之间较为离散相比,其能够表达出各个告警数据之间的关联,从而使得到的告警频繁模式集可以辅助相关维护人员。为使本申请的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的电子设备的方框示意图。图2为本申请实施例提供的告警数据规则挖掘方法的流程图。<本文档来自技高网...

【技术保护点】
1.一种告警数据规则挖掘方法,其特征在于,包括:/n将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据的词向量表示,所述告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;/n将每条告警数据的词向量表示进行聚类训练,以得到每条告警数据的词向量表示的聚类标识;/n根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对所述告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。/n

【技术特征摘要】
1.一种告警数据规则挖掘方法,其特征在于,包括:
将采集的告警数据集中的每条告警数据进行处理,以得到每条告警数据的词向量表示,所述告警数据集包括多条告警数据,每条告警数据中包括计算机异常信息;
将每条告警数据的词向量表示进行聚类训练,以得到每条告警数据的词向量表示的聚类标识;
根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对所述告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集。


2.根据权利要求1所述的方法,其特征在于,所述将所述告警数据集中的每条告警数据进行处理,以得到每条告警数据对应的词向量表示的步骤,包括:
将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量;
使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。


3.根据权利要求2所述的方法,其特征在于,所述将所述告警数据集中的每条告警数据进行词向量计算,以得到每条告警数据中所包含的多个词向量的步骤,包括:
将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词;
将每条告警数据中所包含的多个词进行词向量计算,以得到每条告警数据对应的多个词向量。


4.根据权利要求3所述的方法,其特征在于,所述将所述告警数据集中的每条告警数据进行分词处理,以得到每条告警数据中所包含的多个词的步骤,包括:
将所述告警数据集进行去重处理,得到清洗告警数据集;
根据所述清洗告警数据集构建告警词典;
将所述告警词典中的每条告警数据进行分词处理,得到每条告警数据中所包含的多个词。


5.根据权利要求2所述的方法,其特征在于,所述使用指定统计算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示的步骤,包括:
使用TF-IDF算法计算每条告警数据中包含的各个词向量的权重,以得到每条告警数据词向量表示。


6.根据权利要求1所述的方法,其特征在于,所述根据所有的词向量表示的聚类标识形成的告警序列,使用关联分析算法对告警数据集中的每条告警数据进行关联分析,以得到告警频繁模式集的步骤,包括:
根据所有的词向...

【专利技术属性】
技术研发人员:王建华田贵成
申请(专利权)人:创新奇智上海科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1