当前位置: 首页 > 专利查询>河海大学专利>正文

一种迭代聚类的网络流量异常检测方法技术

技术编号:29618202 阅读:26 留言:0更新日期:2021-08-10 18:38
本发明专利技术公开了一种迭代聚类的网络流量异常检测方法,包括网络流量历史数据预处理;网络流量样本数据降维;采用迭代聚类方法聚类,得到带伪标签的流量样本和检测异常网络流量四个步骤;具有能够处理大量数据、实时性强、灵活、扩展性强、鲁棒的实现实时且稳定的网络流量异常检测的特点。

【技术实现步骤摘要】
一种迭代聚类的网络流量异常检测方法
本专利技术属于深度学习和网络安全的交叉领域,涉及一种迭代聚类的网络流量异常检测方法。
技术介绍
互联网技术在各行业的普及为人们工作生活带来极大的便利,越来越多的业务和设备需要网络的支持,但同时,网络攻击的手段及规模也在发展,造成的损失和影响也越来越大,网络安全面临巨大威胁,入侵检测是当前各公司及政府部门主要防范网络安全威胁的主要手段之一。入侵检测是一类通过主动监控流量数据以识别攻击并发出警报的网络攻击检测方法。早期的入侵检测系统主要是通过人工识别特征码,再通过特征码检测技术实现,该方法易漏报新型攻击手段,随后出现了基于行为建模的检测方法,利用数据挖掘和机器学习等手段,但当网络流量较大时,模型需要的计算量较大,无法满足当前的需求,且该类方法需要预先标记大量数据,成本较大。近年来,深度神经网络优秀的学习能力和非线性优化能力,使得其在图像识别、语音识别、机器翻译和异常检测领域成果显著,在网络流量异常检测中引入人工智能技术,采用数据驱动的方式研究网络流量异常检测方法成为重点。目前,通过学习数据本身的特征进行网络流量异常判别逐步替代了基于手工特征的异常流量检测技术,而基于深度神经网络的方法被认为是最合适的学习数据特征表达的方法。深度学习技术能够取得巨大成功,得益于数有效数据的积累和计算能力的提升。深度学习方法按照对数据的依赖程度不同可分为三类:监督学习、半监督学习和无监督学习,顾名思义,监督学习的训练数据依赖于带标签的数据训练模型,而无监督学习的所用的数据没有标签,半监督学习则只需要少量带标签数据即可,随着标签可用率的降低,模型性能也随之下降。Al-Qatf等提出结合稀疏自编码和支持向量机的入侵检测方法,但是针对大量数据的检测,支持向量机无法满足需求。Mirsky等人和Al-Hawawreh等人都采用自编码网络进行数据的无监督学习,但模型的训练过程漫长,且对新型攻击手段的发现能力不足。Mirza等人则是考虑引入时间维度进行特征提取,并融合自编码提取的特征,实现入侵检测,时间维度的引入会影响检测的实时性。当基于深度神经网络的网络流量异常检测方法在真实网络环境中实施时,带标签数据稀少导致性能较好的监督学习模型不能采用,无监督学习模型因其可靠性不足得不到用户的认可,而网络流量数据量巨大,计算复杂的深度网络模型无法提供实时检测的需求。且考虑到流量数据特征较多,直接参与计算,会使得计算量急剧增加,且维度高会引起聚合度降低,进一步加大了特征学习的难度。Xiao等人提出采用CNN选择流量特征,并根据异常数据量设置每个类别的损失函数权重系数,解决类别不均衡问题,但是其过度依赖数据集,应用场景受限。综上,在当前网络流量数据急剧增加的环境下,实现实时且稳定的网络流量异常检测方法,需要满足处理大量数据、实时性、灵活、扩展性强、鲁棒等需求。
技术实现思路
本专利技术针对大量无标签的网络流量样本数据,以及少量带标签的网络流量样本数据,通过训练得到入侵检测模型,用来对网络流量实时数据进行分类,检测出异常数据。本专利技术采用的技术方案是:一种迭代聚类的网络流量异常检测方法,包括以下步骤:对网络流量历史数据进行抽样,再进行预处理,得到网络流量样本数据;构建自编码降维模型,对网络流量样本数据进行降维,得到降维后的流量样本数据;采用迭代聚类方法对降维后的流量样本数据进行聚类,得到聚类后的流量样本数据,再结合现有异常流量数据,对聚类后的流量样本数据打上伪标签,得到带伪标签的流量样本;采用带伪标签的流量样本数据训练分类器,采用训练好的分类器对预处理后的网络流量实时数据进行分类,检测出异常的网络流量。进一步的,所述对网络流量历史数据进行抽样,再进行预处理,得到网络流量样本数据,具体为:采用分层抽样的方式,对网络流量历史数据进行抽样按天或者小时进行抽样,得到网络流量抽样数据;对网络流量抽样数据进行清洗,去除请求日期属性、时间戳属性和报文内容属性,将标识属性、流量类型属性、访问协议属性、请求类型属性以及攻击类型进行one-hot编码,得到网络流量样本数据。进一步的,所述构建自编码降维模型,对网络流量样本数据进行降维,得到降维后的流量样本数据,具体为:采用预处理后的流量数据训练自编码网络,得到自编码降维模型,用于对网络流量数据进行降维;使用自编码降维模型对训练数据进行降维操作,得到网络流量低维样本数据。进一步的,所述采用迭代聚类方法对降维后的流量样本数据进行聚类,得到聚类后的流量样本数据,再结合现有异常流量数据,对聚类后的流量样本数据打上伪标签,得到带伪标签的流量样本,具体为:将所述降维后的流量样本数据,记为簇A,聚类后得到两个簇,记为B、C;采用评价函数S对簇A进行评价,得到评价结果SA;采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C;采用评价函数S对簇B、C等进行评价,得到评价结果SB、SC;若SA小于SB、SC,则将得到的所有簇记为A1、A2、…、An,历史数据中带标签的网络流量样本数据中标签为异常的数据点记为N1、N2、…、Nn,dis(Ax,Ny)为簇Ax中所有点到点Ny的平均距离。取dis(A1,N1)、dis(A1,N2)、...、dis(A1,Ni)中值最小的10组数据求平均值,小于一定阈值则给簇A1赋予伪标签异常,否则赋予伪标签正,A2、…、An赋予伪标签方式同A1;若SA大于SB,将簇B记为簇A,则再次采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C;若SA大于SC,将簇C记为簇A,则再次采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C。进一步的,所述步骤自编码网络由编码器和解码器2个部分组成,所述编码器由3层带激活函数的全连接网络组成,所述激活函数为Tanh,编码器用于将高维的网络流量样本数据以低维的形式表示;所述解码器由3层全连接网络组成,解码器用于将低维形式的数据重新还原成与输入相同的维度,编码器的输出数据是解码器的输入数据,自编码网络训练阶段采用的损失函数公式如下:loss=(decoded-original-data)2+λTw其中,decoded表示解码器输出,original_data表示原始流量样本数据,λ是正则项的系数,是权重正则项,防止模型过拟合,L表示层数,I和J表示权重W的索引。进一步的,所述评价函数S为:其中,Count(·)表示计数函数,r和R代表聚类半径,且当计算簇A的SA时,R的值等于簇A的半径,进一步的,所述采用带伪标签的流量样本数据训练分类器,采用训练好的分类器对预处理后的网络流量实时数据进行分类,检测出异常的网络流量,具体为:将网络流量实时数据样本输入编码器,由编码器输出的数据特征作为网络流量实时数据样本的扩展属性,连同带伪标签的网络流量数据构成新的样本SN;采用监督学习的方法,在样本SN数据集上训练一个分类器,分类器选择多层感知机模型,网本文档来自技高网
...

【技术保护点】
1.一种迭代聚类的网络流量异常检测方法,其特征在于,包括以下步骤:/n对网络流量历史数据进行抽样,再进行预处理,得到网络流量样本数据;/n构建自编码降维模型,对网络流量样本数据进行降维,得到降维后的流量样本数据;/n采用迭代聚类方法对降维后的流量样本数据进行聚类,得到聚类后的流量样本数据,再结合现有异常流量数据,对聚类后的流量样本数据打上伪标签,得到带伪标签的流量样本;/n采用带伪标签的流量样本数据训练分类器,采用训练好的分类器对预处理后的网络流量实时数据进行分类,检测出异常的网络流量。/n

【技术特征摘要】
1.一种迭代聚类的网络流量异常检测方法,其特征在于,包括以下步骤:
对网络流量历史数据进行抽样,再进行预处理,得到网络流量样本数据;
构建自编码降维模型,对网络流量样本数据进行降维,得到降维后的流量样本数据;
采用迭代聚类方法对降维后的流量样本数据进行聚类,得到聚类后的流量样本数据,再结合现有异常流量数据,对聚类后的流量样本数据打上伪标签,得到带伪标签的流量样本;
采用带伪标签的流量样本数据训练分类器,采用训练好的分类器对预处理后的网络流量实时数据进行分类,检测出异常的网络流量。


2.根据权利要求1所述的一种迭代聚类的网络流量异常检测方法,其特征在于,所述对网络流量历史数据进行抽样,再进行预处理,得到网络流量样本数据,具体为:
采用分层抽样的方式,对网络流量历史数据进行抽样按天或者小时进行抽样,得到网络流量抽样数据;
对网络流量抽样数据进行清洗,去除请求日期属性、时间戳属性和报文内容属性,将标识属性、流量类型属性、访问协议属性、请求类型属性以及攻击类型进行one-hot编码,得到网络流量样本数据。


3.根据权利要求2所述的一种迭代聚类的网络流量异常检测方法,其特征在于,所述构建自编码降维模型,对网络流量样本数据进行降维,得到降维后的流量样本数据,具体为:
采用预处理后的流量数据训练自编码网络,得到自编码降维模型,用于对网络流量数据进行降维;
使用自编码降维模型对训练数据进行降维操作,得到网络流量低维样本数据。


4.根据权利要求3所述的一种迭代聚类的网络流量异常检测方法,其特征在于,所述采用迭代聚类方法对降维后的流量样本数据进行聚类,得到聚类后的流量样本数据,再结合现有异常流量数据,对聚类后的流量样本数据打上伪标签,得到带伪标签的流量样本,具体为:
将所述降维后的流量样本数据,记为簇A,聚类后得到两个簇,记为B、C;
采用评价函数S对簇A进行评价,得到评价结果SA;
采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C;
采用评价函数S对簇B、C等进行评价,得到评价结果SB、SC;
若SA小于SB、SC,则将得到的所有簇记为A1、A2、…、An,历史数据中带标签的网络流量样本数据中标签为异常的数据点记为N1、N2、…、Nn,dis(Ax,Ny)为簇Ax中所有点到点Ny的平均距离,取dis(A1,N1)、dis(A1,N...

【专利技术属性】
技术研发人员:曾涛许峰吕鑫王鑫元
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1