一种基于自编码器集成的网络威胁检测系统技术方案

技术编号:27540011 阅读:17 留言:0更新日期:2021-03-03 11:33
本发明专利技术公开了一种基于自编码器集成的网络威胁检测系统,该系统包括:网络数据获取模块,用于从互联网或者本地文件中获取网络流量数据特征提取模块,用来提取流量特征生成特征向量;特征聚类模块,根据相关性对特征分组;威胁检测模块,使用基于自编码器的集成模型检测流量异常;威胁判别模块,用于对网络威胁做出判断。本发明专利技术使用无监督的深度学习算法,通过改进现有的自编码器算法进行网络威胁检测,实现了对未知威胁的检测,在提高了模型的检测准确率、模型的实时性的同时减少了自编码器等神经网络算法的时间复杂度,其实现方法简单,手段灵活,能有效检测网络威胁,且与具体的硬件无关。无关。无关。

【技术实现步骤摘要】
一种基于自编码器集成的网络威胁检测系统


[0001]本专利技术涉及计算机网络安全
,尤其涉及一种基于自编码器集成的网络威胁检测方法。

技术介绍

[0002]互联网的飞速发展为人们的生活带来了便利,为企业发展带来了机遇,但同时网络也为现代社会带来了新的威胁。各种层面的网络威胁层出不穷,病毒、木马、DDoS等攻击严重威胁着个人和企业的安全与利益。能够及时发现并成功阻止网络威胁所带来的损失是网络安全领域内重要的研究课题。
[0003]传统的网络威胁检测手段大都是基于签名的,这一类算法对已知威胁有着很好的检测效果,但是对于未知威胁的检测效果却往往不尽人意。而网络威胁的更新换代速度极快,如何快速发现新的网络威胁是网络威胁检测系统现在所面临的问题。

技术实现思路

[0004]本专利技术的目的在于针对现有技术的不足,采用集成学习和掩码机制,综合多种自编码器网络的特点实现对已知和未知网络威胁的检测,提出了一种基于自编码器集成的网络威胁检测系统,有效提高威胁检测的泛化性和准确性,并减少了自编码器等神经网络算法的时间复杂度。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种基于自编码器集成的网络威胁检测系统,包括:网络数据获取模块,用于从互联网或者本地文件中获取网络流量数据;特征提取模块,用于提取上述网络流量数据中每个会话的特征信息并对特征进行数据清洗和归一化处理;特征聚类模块,用于将提取的特征进行聚类组合,根据特征间的相关性或者特征与特定攻击的关系形成不同的特征子集(供威胁检测模块建立模型);威胁检测模块,用于调用异常检测模型,所述异常检测模型采用异常分衡量网络流量的异常程度,其中,所述异常检测模型包括T+1个自编码器,T为特征子集数,T个自编码器用于根据对应特征子集为每一个会话得到T个异常分,1个自编码器用于综合T个自编码器的输出得到最后的异常分;威胁判别模块,用于最终判断网络流量是正常流量还是网络威胁;使用正常流量异常分的分布规律获得阈值,对未知流量是否为异常做出最终判断,其中,阈值可以根据经验或者仿真结果进行确定。
[0006]利用这种基于深度学习的集成模型可以对正常的网络行为进行刻画,进而对捕捉到的网络流量进行异常检测,获取网络中可能威胁网络安全的威胁事件,包括已知的网络威胁和潜在的未知威胁。
[0007]进一步地,所述网络流量数据中每个会话的特征信息包括网络流量中每个会话的
五元组和统计信息;所述五元组包括源IP地址,目的IP地址,源端口,目的端口,传输层协议;所述统计信息包括前向包和总流量的数据包数,字节数,包长度,会话持续时间,包的间隔时间,标志位计数(对于UDP协议的数据包该特征都为0),窗口大小,活跃时间。
[0008]进一步地,所述统计信息具体包括该会话的目的端口、传输层协议、流的持续时间、前向包数量、前向包长度之和、前向包长度的最大值、前向包长度的最小值、前向包长度的均值、每秒的比特数、每秒的包数、两个包之间间隔时间的平均值、两个包之间间隔时间的标准差、两个包之间间隔时间的最大值、两个包之间间隔时间的最小值、前向包间隔时间之和、前向包间隔时间的均值、前向包间隔时间的标准差、前向包间隔时间的最大值、前向包间隔时间的最小值、前向PSH位计数、前向URG位计数、前向包包头长度、每秒的前向包数、包长度的最小值、包长度的最大值、包长度的平均值、包长度的标准差、包长度的方差、FIN包的数目、SYN包的数目、RST包的数目、PSH包的数目、ACK包的数目、URG包的数目、CWE包的数目、ECE包的数目、包大小的平均值、前向分段的平均比特数、前向包的平均比特数与批量速率之比、前向包的平均包数与批量速率之比、前向平均批量速率、前向子流的包数、前向子流的比特数、前向窗口的初始比特数、后向窗口的初始比特数、前向活跃数据包数、前向分段的最小比特数、平均空闲时间、最大空闲时间、最小空闲时间。
[0009]其中,两个包之间间隔时间具体是指两个包抵达时间的时间间隔。
[0010]进一步地,所述特征聚类模块采用层次聚类,根据特征的相关度和与攻击的关系对特征自动进行聚类分组;特征的相关度或特征与攻击的关系使用皮尔森相关系数进行衡量。
[0011]进一步地,所述异常检测模型采用掩码机制,对输入数据的任一维度信息以随机概率进行掩码处理,可以增强自编码器的泛化性能,使得自编码器可以适应未知的输入数据,提高性能。
[0012]进一步地,所述自编码器的结构为:编码器-记忆映射网络-记忆单元-解码器,其中记忆单元用于记录具有不同分布的正常样本的编码器输出隐变量的分布,记忆映射网络用于将编码器的输出映射成记忆单元的地址,解码器根据映射的记忆单元的地址还原记忆单元的内容作为自编码器的输出。
[0013]进一步地,异常分的分布大体上符合正态分布,因此可以依据3σ准则认为异常分大于正常训练数据异常分的均值3σ的流量为未异常流量。
[0014]进一步地,所述威胁检测模块是本专利技术的核心之一,所述威胁检测模块具体包括两个子模块:1)T个自编码器构成的集成单元,用于对不同特征子集进行异常检测。每个自编码器的作用是发现与对应的特征子集内特征相关的网络威胁,针对每一个五元组确定的会话获得T个异常分,T为特征子集的数目。
[0015]2)1个自编码器构成的输出单元,用于综合集成单元的所有输出做出最终的判断。即根据集成单元所计算的T个异常分得到最后的异常分。
[0016]集成单元和输出单元都以自编码器的重构误差作为异常分,计算公式为:
式中L(x, z)为重构误差,x为自编码器的输入向量,在集成单元中对应于每个特征子集构成的向量,在输出单元中对应于集成单元的输出向量,z为自编码器的输出向量,m为输入向量和输出向量的特征数。
[0017]其中,采用自编码器结构构成异常检测模型,可以保证整个异常检测模型在训练时无监督,无监督不但有更好的泛化能力,而且不需要人工制作标签,便于推广应用。
[0018]特征聚类模块与威胁检测模块的结合是本专利技术的另一核心,与传统简单的串联或者并联的网络结构模式不同,本专利技术利用特征聚类模块对特征进行聚类,并采用与聚类数目对应的自编码器数目对每类特征进行威胁检测,一方面能更好地划分特征,使得检测更加准确,另一方面可以有效减少自编码器神经网络算法的时间复杂度,具体说明如下:设原始特征的维度为M,经过聚类后分为n(n>1)组,每一组的特征维度为{m1,m2,

m
n
},其中M= m1+ m2+,

+m
n
。自编码器是一种全连接神经网络,全连接神经网络中的第l层的复杂度为O(k
l
·
k
l+1
),其中k
l
代表第l层神经网络的神经元数。因此,执行单个自编码器的复杂度为O(m
·
βm+βm
·
m)= O(m2),其中m代表自编码器的输入维度,β代表自编码器隐藏层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自编码器集成的网络威胁检测系统,其特征是,包括:网络数据获取模块,用于从互联网或者本地文件中获取网络流量数据;特征提取模块,用于提取网络流量数据中每个会话的特征信息并进行数据清洗和归一化处理;特征聚类模块,用于将提取的特征进行聚类组合,根据特征间的相关性或者特征与特定攻击的关系形成不同的特征子集;威胁检测模块,用于调用异常检测模型,所述异常检测模型采用异常分衡量网络流量的异常程度,从而检测网络中可能威胁网络安全的威胁事件,包括已知的网络威胁和潜在的未知威胁;其中,所述异常检测模型包括T+1个自编码器,T为特征子集数,T个自编码器用于根据对应特征子集为每一个会话得到T个异常分,1个自编码器用于综合T个自编码器的输出得到最后的异常分;威胁判别模块,用于根据正常流量异常分的分布规律,对威胁检测模块检测的未知流量是否为异常做出最终判断。2.根据权利要求1所述的基于自编码器集成的网络威胁检测系统,其特征在于,所述网络流量数据中每个会话的特征信息包括网络流量中每个会话的五元组和统计信息;所述统计信息包括前向包和总流量的数据包数,字节数,包长度,会话持续时间,包的间隔时间,标志位计数,窗口大小,活跃时间。3.根据权利要求2所述的基于自编码器集成的网络威胁检测系统,其特征在于,所述统计信息具体包括该会话的目的端口、传输层协议、流的持续时间、前向包数量、前向包长度之和、前向包长度的最大值、前向包长度的最小值、前向包长度的均值、每秒的比特数、每秒的包数、两个包之间间隔时间的平均值、两个包之间间隔时间的标准差、两个包之间间隔时间的最大值、两个包之间间隔时间的最小值、前向包间隔时间之和、前向包间隔时间的均值、前向包间隔时间的标准差、前向包间隔时间的最大值、前向包间隔时间的最小值、前向PSH位...

【专利技术属性】
技术研发人员:林峰张斌赵子鸣张帆任奎赵俊单夏烨任新新段吉瑞
申请(专利权)人:光通天下网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1