一种迭代聚类的网络流量异常检测方法技术

技术编号：29618202 阅读：26 留言：0更新日期：2021-08-10 18:38

本发明专利技术公开了一种迭代聚类的网络流量异常检测方法，包括网络流量历史数据预处理；网络流量样本数据降维；采用迭代聚类方法聚类，得到带伪标签的流量样本和检测异常网络流量四个步骤；具有能够处理大量数据、实时性强、灵活、扩展性强、鲁棒的实现实时且稳定的网络流量异常检测的特点。

全部详细技术资料下载

【技术实现步骤摘要】
一种迭代聚类的网络流量异常检测方法
本专利技术属于深度学习和网络安全的交叉领域，涉及一种迭代聚类的网络流量异常检测方法。
技术介绍
互联网技术在各行业的普及为人们工作生活带来极大的便利，越来越多的业务和设备需要网络的支持，但同时，网络攻击的手段及规模也在发展，造成的损失和影响也越来越大，网络安全面临巨大威胁，入侵检测是当前各公司及政府部门主要防范网络安全威胁的主要手段之一。入侵检测是一类通过主动监控流量数据以识别攻击并发出警报的网络攻击检测方法。早期的入侵检测系统主要是通过人工识别特征码，再通过特征码检测技术实现，该方法易漏报新型攻击手段，随后出现了基于行为建模的检测方法，利用数据挖掘和机器学习等手段，但当网络流量较大时，模型需要的计算量较大，无法满足当前的需求，且该类方法需要预先标记大量数据，成本较大。近年来，深度神经网络优秀的学习能力和非线性优化能力，使得其在图像识别、语音识别、机器翻译和异常检测领域成果显著，在网络流量异常检测中引入人工智能技术，采用数据驱动的方式研究网络流量异常检测方法成为重点。目前，通过学习数据本身的特征进行网络流量异常判别逐步替代了基于手工特征的异常流量检测技术，而基于深度神经网络的方法被认为是最合适的学习数据特征表达的方法。深度学习技术能够取得巨大成功，得益于数有效数据的积累和计算能力的提升。深度学习方法按照对数据的依赖程度不同可分为三类：监督学习、半监督学习和无监督学习，顾名思义，监督学习的训练数据依赖于带标签的数据训练模型，而无监督学习的所用的数据没有标签，半监督学习则只需要...

【技术保护点】
1.一种迭代聚类的网络流量异常检测方法，其特征在于，包括以下步骤：/n对网络流量历史数据进行抽样，再进行预处理，得到网络流量样本数据；/n构建自编码降维模型，对网络流量样本数据进行降维，得到降维后的流量样本数据；/n采用迭代聚类方法对降维后的流量样本数据进行聚类，得到聚类后的流量样本数据，再结合现有异常流量数据，对聚类后的流量样本数据打上伪标签，得到带伪标签的流量样本；/n采用带伪标签的流量样本数据训练分类器，采用训练好的分类器对预处理后的网络流量实时数据进行分类，检测出异常的网络流量。/n

【技术特征摘要】
1.一种迭代聚类的网络流量异常检测方法，其特征在于，包括以下步骤：
对网络流量历史数据进行抽样，再进行预处理，得到网络流量样本数据；
构建自编码降维模型，对网络流量样本数据进行降维，得到降维后的流量样本数据；
采用迭代聚类方法对降维后的流量样本数据进行聚类，得到聚类后的流量样本数据，再结合现有异常流量数据，对聚类后的流量样本数据打上伪标签，得到带伪标签的流量样本；
采用带伪标签的流量样本数据训练分类器，采用训练好的分类器对预处理后的网络流量实时数据进行分类，检测出异常的网络流量。

2.根据权利要求1所述的一种迭代聚类的网络流量异常检测方法，其特征在于，所述对网络流量历史数据进行抽样，再进行预处理，得到网络流量样本数据，具体为：
采用分层抽样的方式，对网络流量历史数据进行抽样按天或者小时进行抽样，得到网络流量抽样数据；
对网络流量抽样数据进行清洗，去除请求日期属性、时间戳属性和报文内容属性，将标识属性、流量类型属性、访问协议属性、请求类型属性以及攻击类型进行one-hot编码，得到网络流量样本数据。

3.根据权利要求2所述的一种迭代聚类的网络流量异常检测方法，其特征在于，所述构建自编码降维模型，对网络流量样本数据进行降维，得到降维后的流量样本数据，具体为：
采用预处理后的流量数据训练自编码网络，得到自编码降维模型，用于对网络流量数据进行降维；
使用自编码降维模型对训练数据进行降维操作，得到网络流量低维样本数据。

4.根据权利要求3所述的一种迭代聚类的网络流量异常检测方法，其特征在于，所述采用迭代聚类方法对降维后的流量样本数据进行聚类，得到聚类后的流量样本数据，再结合现有异常流量数据，对聚类后的流量样本数据打上伪标签，得到带伪标签的流量样本，具体为：
将所述降维后的流量样本数据，记为簇A，聚类后得到两个簇，记为B、C；
采用评价函数S对簇A进行评价，得到评价结果SA；
采用DBSCAN聚类方法对簇A进行聚类，得到簇B、C；
采用评价函数S对簇B、C等进行评价，得到评价结果SB、SC；
若SA小于SB、SC，则将得到的所有簇记为A1、A2、…、An，历史数据中带标签的网络流量样本数据中标签为异常的数据点记为N1、N2、…、Nn，dis(Ax，Ny)为簇Ax中所有点到点Ny的平均距离，取dis(A1，N1)、dis(A1，N...

【专利技术属性】
技术研发人员：曾涛，许峰，吕鑫，王鑫元，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人