基于深度信念网络-支持向量数据描述的APT攻击检测方法技术

技术编号:19515443 阅读:25 留言:0更新日期:2018-11-21 10:18
本发明专利技术公开了基于深度信念网络‑支持向量数据描述的APT攻击检测方法,其中深度信念网络(DBN)用于特征降维和提取优秀的特征向量,支持向量数据描述(SVDD)用于数据的分类与检测。在DBN训练阶段,得到标准数据集以后,使用DBN模型对其降维。低层受限玻尔兹曼机(RBM)进行初步降维以后使用高层RBM接收从低层RBM传来的简单表征里学习更抽象复杂的表征,并运用BP(Back Propagation)神经网络的反向传播反复调整权值,直至提取出特征优秀的数据。再将DBN处理过的数据分为训练集和测试集,提供数据集给SVDD进行训练和识别检测,最终得到检测结果。该攻击检测方法适用于无人监督的数据量大且具有高维特征的攻击数据检测,适合APT攻击检测,能得到优异的检测结果。

【技术实现步骤摘要】
基于深度信念网络-支持向量数据描述的APT攻击检测方法
本专利技术涉及云计算安全
,具体涉及基于深度信念网络-支持向量数据描述的APT攻击检测方法。
技术介绍
在全球网络信息化程度高速发展的大背景下,具备隐蔽性、渗透性和针对性的高级持续性威胁(APT,advancedpersistentthreat)对各类高等级信息安全系统造成的威胁日益严重,针对特定目标的有组织的APT攻击日益增多,国家、企业的网络信息系统和数据安全面临严峻挑战。例如,2008年中国长城网遭遇到美国国防部网络黑客的攻击渗透,被植入后门并窃取情报;2010年的“震网”经过多年的准备和潜伏,成功攻击了位于物理隔离内网中的工业控制系统,迟滞了伊朗的核计划;2011年的“夜龙行动”窃取了多个跨国能源巨头公司的高度敏感内部文件;2012年的超级病毒“火焰”成功获取了中东各国大量的机密信息。可以看出,APT攻击已经对各类关键信息基础设施安全造成巨大威胁,开展APT攻击防御工作刻不容缓。在APT攻击防御工作中,攻击检测是安全防护和加固的前提和依据,也是APT攻击防御中最困难的部分,因此检测技术已成为当前APT攻击防御领域的研究热点。然而,从典型案例来看,APT攻击是长期的、持续性的网络攻击,攻击行为藏匿在正常行为中难以被发觉。此外,传统的攻击检测技术往往只能识别检测出较为明显的异常或攻击行为,用来检测隐匿在正常行为中的APT攻击并不能得到理想的检测结果且无法有效处理数据量极大的数据集。所以,传统的攻击检测技术大多无法有效检测APT攻击。现有的APT攻击检测方案分沙箱方法、异常检测方法和全流量审计方法三种。沙箱方法主要解决特征匹配对新型攻击的滞后性问题。该方法将实时流量引入沙箱中,通过对沙箱中的文件系统、网络行为、进程、注册表实施监控,检测是否存在恶意代码。异常检测方法可以解决特征匹配和实时监测的不足,通过对网络中的正常行为模式建模从而识别异常行为。全流量审计方案也是为了解决传统特征匹配不足而提出的,该方法对链路中的流量进行深层次的协议解析和应用还原,识别其中是否包含攻击行为。在这三种方法中,异常检测与全流量审计都需要处理海量数据,因此APT攻击检测的模型应适用于数据量极大的情况。深度学习模型是一种多处理层的计算模型,通过组合多层非线性的简单模块来实现多层表征学习,每层都会从上一层的简单表征里学习更抽象复杂的表征,从海量高维的原始数据中识别出复杂的模型。所以,研究人员已经开始探索深度学习在网络异常检测中的应用。利用深度学习模型对网络中的APT攻击检测技术研究主要包括以下三个方面:无监督学习、监督学习和半监督学习。无监督学习直接学习数据的内在结构,无需样本的标签数据,不需要对样本进行大量标记,但检测率较低。有监督学习需要提前对训练样本进行标记,该方法首先使用有标签的训练集学习分类器,然后使用学习后的分类器对网络行为做识别检测。有监督学习的方法往往表现出优异的检测效果,然而需要对样本进行标记后再训练,对于数据量大的数据集不具有较高的实用性。半监督学习是监督学习与无监督学习相结合的一种方法,该方法主要考虑利用少量的标注数据和大量的未标注数据进行分类。
技术实现思路
本专利技术的目的在于提供基于深度信念网络-支持向量数据描述方法的APT攻击检测方法,该模型利用限制玻尔兹曼机(RBM)进行结构降维,再用BP(BackPropagation)神经网络反向微调结构参数,从而获得原始数据的相应最优表示,再利用支持向量数据描述方法对数据进行APT的入侵检测。为了达到上述目的,本专利技术通过以下技术方案实现:1.基于深度信念网络-支持向量数据描述的APT攻击检测方法,包含以下步骤:S1、收集数据,使用网络流量抓包软件来获取网络数据流量信息,作为检测APT的数据;S2、数据的特征提取,数据通过空间向量模型转换,转化为向量之间的相似性问题,通过计算信息熵及每个词的信息增益即可进行特征提取,为使特征量纲相同和取值范围相同,需进一步标准化;S3、DBN训练神经网络,设计的DBN包含低层的RBM,高层的RBM和BP神经网络,在RBM中包含可见单元,隐藏单元,可见单元v是表示特征,隐藏单元h是学习表示特征,建立RBM层之间的连接,相同级别的单元之间没有连接,即可见-可见或隐藏-隐藏连接,对RBM输入数据对其进行训练,使用对数似然的方法来训练RBM,来找到参数θ的值,使得能量最小化;S4、使用DBN模型对数据降维,低层RBM进行初步降维后再使用高层RBM接收从低层RBM传来的简单表征里学习更抽象复杂的表征,并运用BP神经网络反复微调结构参数,提取出特征优秀的数据,直至产生准确度较高的训练模型;S5、SVDD模型识别检测阶段,在高维特征空间中找寻一个尽可能将所有训练样本都包围起来的最小超球,将DBN处理后的数据用SVDD进行训练学习,并以该最小超球体的决策边界对数据进行分类和描述;S6、结果验证,通过SVDD中决策函数f(x)进行判断,当f(x)≥0时,该样本为正常数据样本,否则为异常数据样本,且产生相应的警告,故通过基于DBN-SVDD深度学习检测方法即可实现APT的攻击检测。其中,所述的步骤S2具体包含:S21、统计样本集中文档总数N,统计每个词的正文档出现频率A、负文档出现频率B、正文档不出现频率C、负文档不出现频率D,计算每个词的卡方值,公式为将每个词按卡方值从大到小排序,选取K个词作为特征,K即特征维数;S22、统计正负分类的文档数:N1、N2,计算信息熵,公式为计算每个词的信息增益,公式为将每个词按信息增益值从大到小排序,选取K个词作为特征,K即特征维数;S23、因为特征向量中每一个特征量纲不同,取值范围不一,所以需要对每个特征向量进行标准化(StandardizationorMeanRemovalandVarianceScalling),变换后各维特征有0均值,单位方差,也叫z-score规范化(零均值规范化);S24、z-score规范化的具体操作步骤如下所示:用公式进行线性函数转换,然后用公式y=log10(x)进行对数函数转换,用公式进行反余切函数转换,最后对每个特征向量进行标准化,公式为其中,means表示均值,variance表示方差;其中,所述的步骤S3具体包含:S31、在RBM中可见单元v为表示特征,隐藏单元h为学习表示特征,即它将来自维度为n的输入空间的输入向量v映射到维度为d=|h|的特征空间里,其中p(v,h)是隐藏和可见向量的联合分布;S32、给定数据集Dm×n作为输入,RBM将其映射到Xm×d中,在RBM中,相同级别的单元之间没有连接,即可见-可见或隐藏-隐藏连接,并且图的两层用隐藏和可见单元对之间的对称权重W连接;S33、在原始的RBM架构中,隐藏和可见向量的联合分布p(v,h)是根据能量函数E(v,h)定义的,假设输入向量是具有方差σ的高斯随机变量,则该高斯伯努利RBM的能量函数E(v,h)可以表示为:其中vi和hj分别是具有wi,j的对称权重的可见v层和隐藏h层的第i和第j个单元,以及相应的偏差ci和bj,因此p(v,h)的公式如下所示:其中,Z是称为分区函数的归一化因子,并且计算公式为:Z=∑v,he-E(v,h)S34、隐含层h是二本文档来自技高网
...

【技术保护点】
1.一种基于深度信念网络‑支持向量数据描述的APT攻击检测方法,其特征在于,包含以下步骤:S1、收集数据,使用网络流量抓包软件来获取网络数据流量信息,作为检测APT的数据;S2、数据的特征提取,数据通过空间向量模型转换,转化为向量之间的相似性问题,通过计算信息熵及每个词的信息增益即可进行特征提取,为使特征量纲相同和取值范围相同,需进一步标准化;S3、DBN训练神经网络,设计的DBN包含低层的RBM,高层的RBM和BP神经网络,在RBM中包含可见单元,隐藏单元,可见单元v是表示特征,隐藏单元h是学习表示特征,建立RBM层之间的连接,相同级别的单元之间没有连接,即可见‑可见或隐藏‑隐藏连接,对RBM输入数据对其进行训练,使用对数似然的方法来训练RBM,来找到参数θ的值,使得能量最小化;S4、使用DBN模型对数据降维,低层RBM进行初步降维后再使用高层RBM接收从低层RBM传来的简单表征里学习更抽象复杂的表征,并运用BP神经网络反复微调结构参数,提取出特征优秀的数据,直至产生准确度较高的训练模型;S5、SVDD模型识别检测阶段,在高维特征空间中找寻一个尽可能将所有训练样本都包围起来的最小超球,将DBN处理后的数据用SVDD进行训练学习,并以该最小超球体的决策边界对数据进行分类和描述;S6、结果验证,通过SVDD中决策函数f(x)进行判断,当f(x)≥0时,该样本为正常数据样本,否则为异常数据样本,且产生相应的警告,故通过基于DBN‑SVDD深度学习检测方法即可实现APT的攻击检测。...

【技术特征摘要】
1.一种基于深度信念网络-支持向量数据描述的APT攻击检测方法,其特征在于,包含以下步骤:S1、收集数据,使用网络流量抓包软件来获取网络数据流量信息,作为检测APT的数据;S2、数据的特征提取,数据通过空间向量模型转换,转化为向量之间的相似性问题,通过计算信息熵及每个词的信息增益即可进行特征提取,为使特征量纲相同和取值范围相同,需进一步标准化;S3、DBN训练神经网络,设计的DBN包含低层的RBM,高层的RBM和BP神经网络,在RBM中包含可见单元,隐藏单元,可见单元v是表示特征,隐藏单元h是学习表示特征,建立RBM层之间的连接,相同级别的单元之间没有连接,即可见-可见或隐藏-隐藏连接,对RBM输入数据对其进行训练,使用对数似然的方法来训练RBM,来找到参数θ的值,使得能量最小化;S4、使用DBN模型对数据降维,低层RBM进行初步降维后再使用高层RBM接收从低层RBM传来的简单表征里学习更抽象复杂的表征,并运用BP神经网络反复微调结构参数,提取出特征优秀的数据,直至产生准确度较高的训练模型;S5、SVDD模型识别检测阶段,在高维特征空间中找寻一个尽可能将所有训练样本都包围起来的最小超球,将DBN处理后的数据用SVDD进行训练学习,并以该最小超球体的决策边界对数据进行分类和描述;S6、结果验证,通过SVDD中决策函数f(x)进行判断,当f(x)≥0时,该样本为正常数据样本,否则为异常数据样本,且产生相应的警告,故通过基于DBN-SVDD深度学习检测方法即可实现APT的攻击检测。2.如权利要求1所述的基于深度信念网络-支持向量数据描述的APT攻击检测方法,其特征在于,所述的步骤S2具体包含:S21、统计样本数据中文档总数N,统计每个词的正文档出现频率A、负文档出现频率B、正文档不出现频率C、负文档不出现频率D,计算每个词的卡方值,公式为最后将每个词按卡方值从大到小排序,选取K个词作为特征,K即特征维数;S22、统计正负分类的文档数:N1、N2,然后计算信息熵,公式为计算每个词的信息增益,公式为将每个词按信息增益值从大到小排序,选取K个词作为特征,K即特征维数;S23、z-score规范化的具体操作步骤如下所示:用公式进行线性函数转换,然后用公式y=log10(x)进行对数函数转换,用公式进行反余切函数转换,最后对每个特征向量进行标准化,公式为其中,means表示均值,variance表示方差。3.如权利要求1所述的基于深度信念网络-支持向量数据描述的APT攻击检测方法,其特征在于,所述的步骤S3具体包含:S31、在RBM中可见单元v为表示特征,隐藏单元h为学习表示特征,即它将来自维度为n的输入空间的输入向量v映射到维度为d=|h|的特征空间里,其中p(v,h)是隐藏和可见向量的联合分布;S32、给定数据集Dm×n作为输入,RBM将其映射到Xm×d中,在RBM中,相同级别的单元之间没有连接,即可见-可见或隐藏-隐藏连接,并且图的两层用隐藏和可见单元对之间的对称权重W连接;S33、在原始的RBM架构中,隐藏和可见向量的联合分布p(v,h)是根据能量函数E(v,h)定义的,假设输入向量是具有方差σ的高斯随机变量,则该高斯伯努利RBM的能量函数E(v,h)可以表示为:其中vi和hj分别是具有wi,j的对称权重的可见v层和隐藏h层的第i和第j个单元,以及相应的偏差ci和bj,因此p(v,h)的公式如下所示:其中,Z是称为分区函数的归一化因子,并且计算公式为:Z=∑v,he-E(v,h)S34、隐含层h是二进制的,并且隐藏单元是伯努利随机变量,而输入单元可以是二进制或实值;联结配置的值由相对于网络参数的值来确定其计算公式为:θ=(W,b,c)其中,b和c分别是对隐藏层和可见层的偏差,给定二元隐藏单元hj,由于隐藏单元之间没有连接,所以可以直接计算条件分布P(h|v):并且类似地,由于在可见单元之间没有连接,因此:其中,是逻辑S型函数和N(μ,σ)表示具有均值μ和方差σ的高斯分布,训练RBM意味着找到参数θ的值,使得...

【专利技术属性】
技术研发人员:张文杰韩德志王军毕坤
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1