一种基于告警语义的多步攻击检测模型预训练方法技术

技术编号:36708626 阅读:13 留言:0更新日期:2023-03-01 09:33
本发明专利技术涉及多步攻击检测模型预训练领域,尤其涉及一种基于告警语义的多步攻击检测模型预训练方法,包括:利用离线告警序列得到告警描述嵌入向量;利用所述告警描述嵌入向量对多步攻击检测模型进行预训练处理,基于同一攻击阶段产生的告警具有较高语义相似度的思想,所提方法采用语义聚类对属于同一攻击阶段的告警进行聚合,然后将每个攻击阶段的告警向量隶属度转换为每个攻击阶段产生警报的概率,避免了模型陷入局部最优解的问题。免了模型陷入局部最优解的问题。免了模型陷入局部最优解的问题。

【技术实现步骤摘要】
一种基于告警语义的多步攻击检测模型预训练方法


[0001]本专利技术涉及多步攻击检测模型预训练领域,具体涉及一种基于告警语义的多步攻击检测模型预训练方法。

技术介绍

[0002]Ourston等人在2003年将隐马尔可夫模型首次应用于多步攻击检测,利用HMM对告警序列进行标注。Xue等人针对隐马尔可夫模型在多步攻击检测中观测值难以确定的问题,提出了一种多步攻击检测与预测方法。该文献通过Baum

Welch算法对现有的隐马尔可夫模型更新,然后使用Forward算法识别属于攻击场景的告警,最后使用Viterbi算法标注告警并预测下一个可能的告警。Ghafir等人首次提出了一种用于APT攻击检测和预测的新型入侵检测系统。该论文包含了两个部分,第一部分作者通过对杀链(Cyber Kill Chain)中包含的每个攻击阶段的流量特征进行检测,实现了攻击场景的重建。第二部分攻击解码,这个阶段利用隐马尔可夫模型(HMM)来确定最可能的APT阶段序列,并根据APT阶段序列来预测攻击者的下一步攻击。Tu等人针对隐马尔可夫模型无法预测多个攻击意图的问题,提出了一种基于隐马尔可夫模型和概率推理的概率模型在早期阶段检测到攻击意图。该模型使用在线参数更新规则,使其能更好地适应动态网络环境。Shawly等人对基于隐马尔可夫模型检测算法的检测准确性和预测准确性进行分析,覆盖了EM、spectral、Baum

Welch、differential evolution、K均值和分段K均值等算法。
[0003]尽管基于无监督学习的HMMs在MSA检测中的重要性已被该领域广泛认可,但仍存在以下问题,Baum

Welch算法对初始化值非常敏感。当前的Baum

Welch算法使用平均初始化方法来初始化HMM。然而,这种初始化方法容易导致多步攻击检测模型陷入局部最优解,降低模型检测的有效性。同一攻击阶段网络交互产生的告警描述具有较高的语义相似度,可用于区分各个攻击阶段。然而,目前基于HMM的MSA检测方法中,使用类别编码对告警描述属性进行编码,丢失了告警描述丰富的语义信息。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种基于告警语义的多步攻击检测模型预训练方法,通过采用语义聚类对属于同一攻击阶段的告警进行聚合,避免模型陷入局部最优解的问题。
[0005]为实现上述目的,本专利技术提供了一种基于告警语义的多步攻击检测模型预训练方法,包括:
[0006]利用离线告警序列得到告警描述嵌入向量;
[0007]利用所述告警描述嵌入向量对多步攻击检测模型进行预训练处理。
[0008]优选的,所述利用离线告警序列得到告警描述嵌入向量包括:
[0009]获取告警规则对应的告警文本;
[0010]利用所述告警文本基于基础词语进行划分处理得到告警单词文本;
[0011]利用所述告警单词文本基于停用词表进行停用词去除处理得到告警单词基础文本;
[0012]利用所述告警单词基础文本得到告警描述嵌入模型;
[0013]利用所述告警单词基础文本输入告警描述嵌入模型得到告警描述嵌入向量;
[0014]其中,停用词表为停用语气助词词表。
[0015]进一步的,利用所述告警单词基础文本得到告警描述嵌入模型包括:
[0016]利用所述告警单词基础文本作为训练集;
[0017]利用所述训练集为输入,所述训练集中告警单词基础文本对应的告警描述嵌入向量为输出,基于Doc2Vec的PV

DBOW版本进行训练得到告警描述嵌入模型。
[0018]优选的,利用所述告警描述嵌入向量对多步攻击检测模型进行预训练处理包括:
[0019]利用所述告警描述嵌入向量根据当前多步攻击阶段建立当前多步攻击阶段的告警嵌入向量隶属度矩阵;
[0020]利用所述当前多步攻击阶段的告警嵌入向量隶属度矩阵计算当前多步攻击阶段的簇中心;
[0021]利用所述当前多步攻击阶段的簇中心迭代更新计算告警嵌入向量隶属度矩阵;
[0022]利用所述告警嵌入向量隶属度矩阵获取对应多步攻击阶段位置;
[0023]利用告警嵌入向量隶属度矩阵计算HMM发射概率矩阵;
[0024]利用所述HMM发射概率矩阵得到预训练结果。
[0025]进一步的,利用所述当前多步攻击阶段的嵌入向量隶属度矩阵计算当前多步攻击阶段的簇中心的计算式如下:
[0026][0027]其中,C
j
为第j个多步攻击阶段的簇中心,N为多步攻击阶段数量,u
ij
为嵌入向量隶属度矩阵中第i个告警向量属于第j个攻击阶段的隶属度值,x
i
为第i个告警向量,m为聚类的簇数。
[0028]进一步的,利用所述当前多步攻击阶段的簇中心迭代更新计算告警嵌入向量隶属度矩阵的计算式如下:
[0029][0030]其中,U
k+1
为迭代更新后的告警嵌入向量隶属度矩阵,u
ij

为嵌入向量隶属度矩阵中第i个告警向量属于第j个攻击阶段的隶属度值,C
j
为第j个多步攻击阶段的簇中心,C
k
为第k个多步攻击阶段的簇中心,N为多步攻击阶段数量,x
i
为第i个告警向量,m为聚类的簇数。
[0031]进一步的,利用所述告警嵌入向量隶属度矩阵获取对应多步攻击阶段位置:
[0032]判断U
k+1
与U
k
的差值是否小于ε,若是,则输出U
k+1
,否则,重新利用所述告警描述嵌入向量和多步攻击阶段的簇中心迭代更新告警嵌入向量隶属度矩阵;
[0033]利用迭代更新后的告警嵌入向量隶属度矩阵根据各攻击簇中的最早告警得到攻击簇的多步攻击阶段;
[0034]利用所述攻击簇的多步攻击阶段作为对应多步攻击阶段位置;
[0035]其中,ε为经验常数。
[0036]进一步的,所述利用告警嵌入向量隶属度矩阵计算HMM发射概率矩阵的计算式如下:
[0037][0038]其中,B为HMM发射概率矩阵,u
11
至u
MN
为各多步攻击阶段位置对应的告警描述嵌入向量。
[0039]进一步的,利用所述HMM发射概率矩阵得到预训练结果包括:
[0040]利用所述HMM发射概率矩阵得到多步攻击阶段对应的告警描述嵌入向量的概率;
[0041]利用所述告警描述嵌入向量的概率作为预训练结果。
[0042]与最接近的现有技术相比,本专利技术具有的有益效果:
[0043]本专利解决了当前Baum

Welch初始化方法容易导致模型陷入局部最优解的问题。基于同一攻击阶段产生的告警具有较高语义相似度的思想,所提方法采用语义聚类对属于同一攻击阶段的告本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于告警语义的多步攻击检测模型预训练方法,其特征在于,包括:利用离线告警序列得到告警描述嵌入向量;利用所述告警描述嵌入向量对多步攻击检测模型进行预训练处理。2.权利要求1所述的一种基于告警语义的多步攻击检测模型预训练方法,其特征在于,所述利用离线告警序列得到告警描述嵌入向量包括:获取告警规则对应的告警文本;利用所述告警文本基于基础词语进行划分处理得到告警单词文本;利用所述告警单词文本基于停用词表进行停用词去除处理得到告警单词基础文本;利用所述告警单词基础文本得到告警描述嵌入模型;将所述告警单词基础文本输入告警描述嵌入模型得到告警描述嵌入向量;其中,停用词表为停用语气助词词表。3.如权利要求2所述的一种基于告警语义的多步攻击检测模型预训练方法,其特征在于,利用所述告警单词基础文本得到告警描述嵌入模型包括:利用所述告警单词基础文本作为训练集;利用所述训练集为输入,所述训练集中告警单词基础文本对应的告警描述嵌入向量为输出,基于Doc2Vec的PV

DBOW版本进行训练得到告警描述嵌入模型。4.如权利要求1所述的一种基于告警语义的多步攻击检测模型预训练方法,其特征在于,利用所述告警描述嵌入向量对多步攻击检测模型进行预训练处理包括:利用所述告警描述嵌入向量根据当前多步攻击阶段建立当前多步攻击阶段的告警嵌入向量隶属度矩阵;利用所述当前多步攻击阶段的告警嵌入向量隶属度矩阵计算当前多步攻击阶段的簇中心;利用所述当前多步攻击阶段的簇中心迭代更新计算告警嵌入向量隶属度矩阵;利用所述告警嵌入向量隶属度矩阵获取对应多步攻击阶段位置;利用告警嵌入向量隶属度矩阵计算HMM发射概率矩阵;利用所述HMM发射概率矩阵得到预训练结果。5.如权利要求4所述的一种基于告警语义的多步攻击检测模型预训练方法,其特征在于,利用所述当前多步攻击阶段的告警嵌入向量隶属度矩阵计算当前多步攻击阶段的簇中心的计算式如下:其中,C
j
为第j个多步攻击阶段的簇中心,N为多步攻击阶段数量,u
ij
为嵌入向量隶属度矩...

【专利技术属性】
技术研发人员:张旭于洋王浩铭吴铤齐永兴
申请(专利权)人:北京航空航天大学杭州创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1