基于系统日志和深度学习的APT在线检测方法技术方案

技术编号:38845149 阅读:11 留言:0更新日期:2023-09-17 09:56
本发明专利技术提出了一种基于系统日志和深度学习的APT在线检测方法,主要解决现有技术中存在的APT攻击检测延迟、异常点定位准确性低以及难以适应新攻击模式的技术问题。方案包括:1)对系统日志进行预处理并迭代训练词向量模型;2)通过训练好的词向量模型将每组日志序列转换为向量数据集;3)构建Transformer模型并对其利用向量数据集对其进行迭代训练;3)获取日志索引序列并进行滞后扩充;4)搭建BiLSTM模型并利用扩充后的数据集对其进行迭代训练;4)利用训练好的两种模型在线检测及预测APT攻击。本发明专利技术提高了攻击检测模型的通用性与预测未知攻击的准确性,有效提升了检测效果,可用于网络攻击检测等场景。于网络攻击检测等场景。于网络攻击检测等场景。

【技术实现步骤摘要】
基于系统日志和深度学习的APT在线检测方法


[0001]本专利技术属于计算机网络
,进一步涉及攻击检测技术,具体为一种基于系统日志和深度学习的高级持续性威胁APT(Advanced Persistent Threat)在线检测方法,可用于对APT攻击进行在线检测与预测。

技术介绍

[0002]高级持续性威胁APT通常指针对政府和公司进行的高级持续的黑客攻击,其目标通常是在互联网中进行间谍活动,利用各种情报搜集技术来获取敏感信息。但APT同样适用于对诸如传统间谍活动或攻击等其他威胁的描述。APT通常由一个既有能力也有意向持续而有效地进行攻击的团体或组织实现,他们将恶意代码放在一台或多台计算机上执行特定的任务,并保持长时间内不被发现。获得攻击目标信息以后,他们并不是以信息窃取为终结,而是仍对既定的网络结构进行继续侵害,将病毒扩散到更多的信息传输架构内,以获取网络组织中核心价值信息,进而造成整体网络的严重的信息传输瘫痪问题。中国信息安全测评中心牵头编写的《全球高级持续性威胁(APT)研究报告》显示,2022年全球APT活动进入新一轮活跃期,攻击总量增多、攻击烈度增强、攻击形式多样。
[0003]伴随着5G和物联网技术的迅速发展,攻击活动泛化、常态化、技术手段复杂化的APT攻击,已成为各领域数字化建设的严峻挑战。APT攻击对网络信息结构造成的危害性不容忽视,因此,要想最大限度地规避网络攻击所带来的危害,应对APT攻击特性进行深度分析,并建立多方位特征检测手段,深度挖掘出信息存在的安全隐患,为网络安全运营奠定坚实基础。
[0004]与传统攻击不同,APT执行多步入侵以实现其特定目标,一般具有攻击方式灵活、攻击技术新颖和隐蔽能力强的特点。因此,预测攻击者的手段对于防范威胁至关重要。然而,由持续的攻击产生的大量数据使得属性分析更加困难,日益复杂的系统也带来了更多可供攻击者利用的系统错误和漏洞。如在构造网络钓鱼页面时,攻击者可以重用原始站点的URL中的特定参数作为恶意软件的加载器,或向现有源代码中注入恶意代码执行间谍活动,因此攻击检测和系统维护难以有效进行。攻击形式的多样性也给攻击检测带来了挑战。攻击活动中一般涉及多种恶意程序,如除了负责与其主机进行通用通信的基本库之外,还存在执行文档盗窃,远程控制下载和执行等功能的其他模块。
[0005]此外,越来越多的APT攻击针对于特定的地区和用户群体,使不同的恶意程序仅对特定网段内的执行特定内容的目标作用,即攻击变得本地化。在这种情况下,用户难以分辨真假,并且本地软件产品一般并不会及时提供漏洞补丁,使得攻击检测更加困难。而且,攻击者擅长隐蔽的特点使得其活动与系统中正常运行的程序几乎没有差别,因此APT一般不会在系统上留下任何可见的痕迹,例如下载的文件。以上问题给攻击检测工作带来了巨大挑战。

技术实现思路

[0006]本专利技术的目的在于克服上述现有技术存在的缺陷,提出了一种基于系统日志和深度学习的APT在线检测方法,用于解决现有技术中存在的APT攻击检测延迟、异常点定位的准确性低、难以适应新型攻击模式、难以直观展示攻击策略的技术问题。
[0007]为实现上述目的,本专利技术采取的技术方案为:
[0008](1)对系统日志进行预处理并获取词向量模型:
[0009](1a)收集系统日志,选取小部分系统日志进行日志解析,通过提取日志模板来表示日志,得到日志索引序列;
[0010](1b)对提取日志模板后的日志进行分词,通过分词后的日志构建词汇表,将系统日志序列转换为词汇索引序列后输入到FastText神经网络中进行训练,得到词向量模型;
[0011](2)构建Transformer模型并对其进行训练:
[0012](2a)搭建编码器包括多头注意力层、前馈神经网络层、平均池化层、二分类器的Transformer模型,其中前馈神经网络层是使用ReLU激活函数的两个线性层组合而成;设置最大迭代次数为T,令当前迭代次数t=0,进行初始化;;
[0013](2b)通过训练好的词向量模型将每组日志序列转换为向量数据集X;
[0014](2c)在向量数据集X中随机选取一部分X
i
输入到Transformer编码器的多头注意力层,其中i=t,X∈R
n*d
,n表示序列长度,d表示每个日志向量的维度;
[0015](2d)将多头注意力层的输出通过前馈神经网络层进行传递;
[0016](2e)将前馈神经网络层的输出输入到平均池化层,得到日志序列的向量表示,并将其输入二分类器进行分类;
[0017](2f)判断t是否等于T,若是得到训练后的Transformer模型,执行步骤(3),否则,令t=t+1然后返回步骤(2c);
[0018](3)搭建BiLSTM模型并对其进行迭代训练:
[0019](3a)获取日志索引序列并进行滞后扩充,得到扩充后的数据集;
[0020](3b)构建BiLSTM模型,其包括词嵌入层、两层双向LSTM层、全连接层;设置最大迭代次数为T',令当前迭代次数t'=0,初始化损失函数与优化器;
[0021](3c)在扩充后的数据集中随机选取一部分输入到词嵌入层,得到词向量;
[0022](3d)将词向量输入到两层双向LSTM层中,并将其输出输入到全连接层;
[0023](3e)判断t'是否等于T',若是则得到训练后的BiLSTM模型,执行步骤(4),否则,令t'=t'+1,并返回执行步骤(3c);
[0024](4)利用训练后的Transformer和BiLSTM模型在线检测及预测APT攻击:
[0025]通过FastText模型将新产生的日志转换为日志向量矩阵,对未见过的单词使用FastText模型进行增量更新,之后使用训练好的Transformer模型进行在线检测,在检测到新产生的日志包含APT攻击时,通过训练后的BiLSTM模型对其进行异常点定位并预测下一个异常点。
附图说明
[0026]图1为本专利技术方法的整体实现流程图;
[0027]图2为本专利技术中Transformer编码器迭代训练的实现过程示意图;
[0028]图3为本专利技术中BiLSTM模型的构建过程示意图。
具体实施方式
[0029]下面结合附图和具体实施例,对本专利技术作进一步详细描述。
[0030]参照附图1,本专利技术提出的基于系统日志和深度学习的APT在线检测方法,通过提取日志模板来表示日志,然后将其分别转换为索引和向量,在训练阶段,先用日志向量序列来表示系统日志,并将这些序列输入到图卷积神经网络中,对其进行训练以进行APT序列检测;然后,通过向双向模型输入固定窗口长度的日志索引序列,并将该序列之后的下一个事件视为输出对该模型训练以进行APT序列预测,定位攻击点。具体包括如下步骤:
[0031]步骤1.对系统日志进行预处理并获取词向量模型:
[0032](1a)收集系统日志,选取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于系统日志和深度学习的APT在线检测方法,其特征在于,包括如下步骤:(1)对系统日志进行预处理并获取词向量模型:(1a)收集系统日志,选取小部分系统日志进行日志解析,通过提取日志模板来表示日志,得到日志索引序列;(1b)对提取日志模板后的日志进行分词,通过分词后的日志构建词汇表,将系统日志序列转换为词汇索引序列后输入到FastText神经网络中进行训练,得到词向量模型;(2)构建Transformer模型并对其进行训练:(2a)搭建编码器包括多头注意力层、前馈神经网络层、平均池化层、二分类器的Transformer模型,其中前馈神经网络层是使用ReLU激活函数的两个线性层组合而成;设置最大迭代次数为T,令当前迭代次数t=0,进行初始化;;(2b)通过训练好的词向量模型将每组日志序列转换为向量数据集X;(2c)在向量数据集X中随机选取一部分X
i
输入到Transformer编码器的多头注意力层,其中i=t,X∈R
n*d
,n表示序列长度,d表示每个日志向量的维度;(2d)将多头注意力层的输出通过前馈神经网络层进行传递;(2e)将前馈神经网络层的输出输入到平均池化层,得到日志序列的向量表示,并将其输入二分类器进行分类;(2f)判断t是否等于T,若是得到训练后的Transformer模型,执行步骤(3),否则,令t=t+1然后返回步骤(2c);(3)搭建BiLSTM模型并对其进行迭代训练:(3a)获取日志索引序列并进行滞后扩充,得到扩充后的数据集;(3b)构建BiLSTM模型,其包括词嵌入层、两层双向LSTM层、全连接层;设置最大迭代次数为T',令当前迭代次数t'=0,初始化损失函数与优化器;(3c)在扩充后的数据集中随机选取一部分输入到词嵌入层,得到词向量;(3d)将词向量输入到两层双向LSTM层中,并将其输出输入到全连接层;(3e)判断t'是否等于T',若是则得到训练后的BiLSTM模型,执行步骤(4),否则,令t'=t'+1,并返回执行步骤(3c);(4)利用训练后的Transformer和BiLSTM模型在线检测及预测APT攻击:通过FastText模型将新产生的日志转换为日志向量矩阵,对未见过的单词使用FastText模型进行增量更新,之后使用训练好的Transformer模型进行在线检测,在检测到新产生的日志包含APT攻击时,通过训练后的BiLSTM模型对其进行异常点定位并预测下一个异常点。2.根据权利要求1所述的方法,其特征在于:步骤(1a)中所述的日志解析,采用的解析方法包括Spell、Drain和SLCT。3.根据权利要求1所述的方法,其特征在于:步骤(1b)中所述通过分词后的日志构建词汇表,具体是将每个词用一个作为索引的整数来代替,并预留“未知词”索引为0,训练时令每个单词的词向量维度为32维。4.根据权利要求1所述的方法,其特征在于:步骤(2c)中所述的多头注意力层,采用十二个注意力头,按照如下方式获取该多头注意层的输出:(2c1)创建三个向量,即查询向量Q=X
i
*W
Q
、键向量K=X
i
*W
K
、值向量V=X
...

【专利技术属性】
技术研发人员:李腾崔金玉李思琦林炜国方保坤马卓李德彪
申请(专利权)人:西安联飞智能装备研究院有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1