基于混合特征的加密流量分类方法技术

技术编号:28737203 阅读:119 留言:0更新日期:2021-06-06 11:57
本发明专利技术公开了一种基于混合特征的加密流量分类方法,包括以下步骤:数据集采集、数据预处理、搭建CNN模型、CNN自动提取特征、提取流级特征、组合特征、SVM输出分类结果。本发明专利技术分别从一维空间中提取出流的具体特征和从二维空间中提取出流的抽象特征,组成了混合特征,提升了特征结构的复杂性,有效的提高了加密流量分类的准确率。分类的准确率。分类的准确率。

【技术实现步骤摘要】
基于混合特征的加密流量分类方法


[0001]本专利技术涉及一种网络流量分类方法,尤其涉及一种基于混合特征的加密流量分类方法。

技术介绍

[0002]网络流量的精准识别与分类是网络安全与网络管理的重要前提,有助于提升网络管理与安全监测水平,改善服务质量。近年来,随着网络技术的飞速发展,流量加密技术得到了广泛应用。越来越多的网络应用采用加密协议保证信息在网络中传输的安全性,也一定程度上保证了私人信息的机密性与完整性。2015年,有21%的网站流量被加密,截至2019年,有超过80%的网站流量被加密,同比增长了90%以上。但网络攻击也以加密流量的隐蔽性为载体,威胁网络安全。2018年思科公司对超过40万的恶意软件进行了分析,发现其中有超过70%的恶意软件在通信时使用了加密。现有以僵尸网络、高级持续性威胁(APT)、木马等为主要形式的网络攻击往往采用了相关隐匿技术绕过安全设备入侵系统。因此对加密流量的识别已经成为防御网络攻击的重点。
[0003]流量分类模型已被广泛应用于从大规模网络流量中自动识别异常流量。这些模型可以分为四类:基于端口的分类方法,深度包检查(DPI),统计分类方法和行为分类方法。基于端口的方法对于具有特定端口号的应用程序(例如,具有端口21的FTP流量)的分类性能很好,但是由于随机端口和端口伪装技术的普遍使用,基于端口的方法对加密流量分类的精确率低,已不再适用于加密流量的分类。DPI分析整个数据包数据,然后识别其网络协议和应用程序。因为流量负载数据通常用协议加密或封装,包含较少的恒定特征,使得DPI在加密流量分类任务中不再可行。基于统计的方法和基于行为的方法是当前加密流量分类任务中使用的主要方法。这两种方法都是浅层学习机器学习的方法,其一般工作流程如下:首先手工设计特征(如流级特征或分组特征),然后从原始流量中提取和选择合适特征,最后用人工设计的分类器(如决策树、朴素贝叶斯,随机森林和支持向量机等)对流量进行分类。然而,这些方法极大地依赖于特征选择和人工提取特征的准确性,并且分类准确率不高,这也是目前在加密流量分类中浅层机器学习方法所遇到的瓶颈之一。

技术实现思路

[0004]专利技术目的:本专利技术的目的在于提供一种有效提高加密流量分类准确率的基于混合特征的加密流量分类方法。
[0005]技术方案:本专利技术的基于混合特征的加密流量分类方法,包括以下步骤:
[0006](1)从网络数据流中进行数据采集;
[0007](2)对采集的数据进行预处理;
[0008](3)搭建卷积神经网络模型;
[0009](4)将预处理后的数据输入卷积神经网络模型,提取出一维高层抽象特征向量V1;
[0010](5)将预处理后的数据提取出一维流级特征向量V2;
[0011](6)将一维高层抽象特征向量V1和一维流级特征向量V2进行组合,生成混合特征向量;
[0012](7)将混合特征向量导入SVM中进行训练,并输出分类结果。
[0013]进一步地,步骤(1)中,所述数据采集是使用Wireshark进行流量的捕获并生成原始PCAP文件,再按照五元组对捕获的流量包进行分流,形成原始实验数据集。
[0014]进一步地,步骤(2)中,所述预处理是保留含有有效负载的数据流,并对少于m个字节的数据流进行补零,对超过的m个字节的数据流进行截断,将处理好的数据流进行归一化并生成k*k的包字节矩阵,最终制作成灰度图像集。
[0015]进一步地,步骤(3)中,所述搭建卷积神经网络模型是基于三个卷积层,两个最大池化层与全连接层搭建模型,其中结构为卷积C1

>池化S2

>卷积C3

>池化S4

>卷积C5

>全连接F6。
[0016]进一步地,步骤(4)中,所述提取出一维高层抽象特征向量V1是将灰度图像集样本输入至模型训练,最后从全连接层中提取出1*n的一维特征向量。
[0017]进一步地,步骤(5)中,所述提取出一维流级特征向量V2是通过scapy模块解析每条流并提取相应特征,所述特征包括流包到达时间间隔,流的持续时间,拥塞窗口大小的总和,包的数目、速率,包的长度,包头部长度;这六类达60种特征,最后生成1*60的流级特征向量。
[0018]进一步地,步骤(6)中,所述组合是根据五元组,对每条流进行特征向量组合,最后生成1*(n+60)的混合特征向量。
[0019]进一步地,步骤(7)中,所述SVM采用高斯核函数为核函数,容忍度C设置为0.7

0.9。
[0020]有益效果:与现有技术相比,本专利技术具有如下显著优点:
[0021](1)本专利技术分别从一维空间中提取出流的具体特征和从二维空间中提取出流的抽象特征,组成了混合特征,提升了特征结构的复杂性,有效的提高了加密流量分类的准确率。
[0022](2)与传统机器学习分类算法不同,本方法通过cnn自动提取特征,减弱了分类器对特征设计与选择的依赖,在不同的数据集上与不同分类任务中有较好的适用性。
附图说明
[0023]图1为本专利技术的加密流量分类模型整体流程图;
[0024]图2为本专利技术数据预处理流程图;
[0025]图3为本专利技术中采用的CNN模型结构;
[0026]图4为本专利技术中SVM算法最优平面。
具体实施方式
[0027]下面结合附图对本专利技术的技术方案作进一步说明。
[0028]如图1所示,
[0029]通过捕获互联网真实网络流量数据,对其按五元组进行分流从而生成实验数据集。接着预处理数据集,将网络流数据进行截断补零后最终制成灰度图像集,以便提取流的
二维特征。然后搭建CNN模型,利用CNN提取高维抽象特征生成一维高层抽象特征向量V1与提取出的一维流级特征向量V2组合,从而生成混合特征向量V,最终利用SVM基于混合特征向量实现加密流量的分类。其具体操作步骤如下:
[0030]步骤1:数据集采集
[0031]采集数据集是用Wireshark抓取网络流量,生成PCAP格式文件,通过五元组对流量过滤分流获取原始实验数据集。其中对于TCP流,本专利技术实验判定条件是以握手协议中的SYN标志位开始,并且以FIN标志位或者RST标志位结尾的TCP双向流。对于UDP流,由于UDP协议设计特点不同于TCP协议有着显式的FIN结束标志,本专利技术则以第一个数据包到达为开始,如果两个数据包到达的时间间隔超过一分钟,则可认为数据流结束,意味着新数据流的开始。
[0032]步骤2:数据集预处理
[0033]如图2,对采集的数据集进行进一步处理,过滤不包含负载的数据流,对少于m个字节的流进行补零,对超过的m个字节的流进行截断。将处理好的数据流归一化并生成k*k的包字节矩阵,最终制作成灰度图像集。本专利技术中将数据流截断的长度定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合特征的加密流量分类方法,其特征在于,包括以下步骤:(1)从网络数据流中进行数据采集;(2)对采集的数据进行预处理;(3)搭建卷积神经网络模型;(4)将预处理后的数据输入卷积神经网络模型,提取出一维高层抽象特征向量V1;(5)将预处理后的数据提取出一维流级特征向量V2;(6)将一维高层抽象特征向量V1和一维流级特征向量V2进行组合,生成混合特征向量;(7)将混合特征向量导入SVM中进行训练,并输出分类结果。2.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(1)中,所述数据采集是使用Wireshark进行流量的捕获并生成原始PCAP文件,再按照五元组对捕获的流量包进行分流,形成原始实验数据集。3.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(2)中,所述预处理是保留含有有效负载的数据流,并对少于m个字节的数据流进行补零,对超过的m个字节的数据流进行截断,将处理好的数据流进行归一化并生成k*k的包字节矩阵,最终制作成灰度图像集。4.根据权利要求1所述的基于混合特征的加密流量分类方法,其特征在于,步骤(3)中,所述搭建卷积神经网络模型是基于三个卷积层,两个最大池化层与全连接层搭建模型,其中结构为卷积C1

【专利技术属性】
技术研发人员:翟江涛许历隆崔永富林鹏陈伟王勤凡
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1