一种基于半监督学习的流量识别方法及系统技术方案

技术编号：40429097 阅读：8 留言：0更新日期：2024-02-20 22:50

本发明专利技术公开了一种基于半监督学习的流量识别方法及系统，该方法包括：分别采集正常数据流量和恶意数据流量，并进行数据预处理；将预处理后的数据进行图像转换，生成灰度图像；采用欠采样方法平衡图像数据集；构建基于残差网络的流量识别模型，使用粒子群优化算法寻找全局最优解；使用剩余带有标记的数据对所述流量识别模型进行再训练；将捕获到的真实数据流量输送到训练好的流量识别模型中进行流量识别，最终实现流量的分类。本发明专利技术通过引入自注意力机制来提高模型在处理复杂任务时的性能和效果，通过使用残差网络代替卷积神经网络来提取流量原始特征及统计特征以便解决模型训练过程中出现的退化现象，从而提取到更细节的特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电数字数据处理，尤其涉及一种基于半监督学习的流量识别方法及系统。

技术介绍

1、随着信息技术的不断发展和普及，信息产业在现代社会中扮演着日益重要的角色。流量识别是信息产业中网络安全领域的一个重要组成部分。现如今，基于原始流量的方法是目前流量识别的主要方法，主要通过卷积神经网络提取并学习特征，但此种方法存在一些弊端，首先是需要大量已标记的数据进行模型训练，通过监督的方式来实现流量识别，但是，数据的标记需要大量的人力资源，且已标记的公开数据集有限，从而导致训练出来的模型容易出现过拟合现象，另外深度神经网络需要固定尺寸的输入，因此原始流量数据必须转换成相同大小的图像。然而，这可能会导致部分流量信息丢失，并且裁剪和填充操作也会损失流量的结构信息。

技术实现思路

1、为了解决上述问题，本专利技术提出一种基于半监督学习的流量识别方法及系统，通过引入自注意力机制来提高模型在处理复杂任务时的性能和效果；通过使用残差网络(resnet)代替卷积神经网络来提取流量原始特征及统计特征以便解决模型训练过程中出现的退化现象，从而提取到更细节的特征。

2、为了实现上述目的，本专利技术通过如下的技术方案来实现：

3、一种基于半监督学习的流量识别方法，所述方法包括：

4、分别采集正常数据流量和恶意数据流量，并进行数据预处理；

5、将预处理后的数据进行图像转换，生成灰度图像，转换后生成的图像数据集分为两组，一组为不带标记的数据，另一组为带有标记的数据；</p>

6、采用欠采样方法平衡图像数据集；

7、构建基于残差网络的流量识别模型，按照不带标记的数据：带有标记的数据＝50:1的比例组成模型数据集放入残差网络中对所述流量识别模型进行预训练，使用粒子群优化算法寻找全局最优解；

8、使用剩余带有标记的数据对所述流量识别模型进行再训练；

9、将捕获到的真实数据流量输送到训练好的流量识别模型中进行流量识别，最终实现流量的分类。

10、作为本专利技术的一种优选方案，所述正常数据流量和恶意数据流量通过imth2019数据集和cic-ids2017数据集进行采集，所述cic-ids2017数据集中的恶意数据流量类型包括ftp攻击、ssh攻击和dos攻击等。

11、作为本专利技术的一种优选方案，所述imth2019数据集和cic-ids2017数据集中的数据以pcap文件的形式保存，所述pcap文件中的每一条代表一个数据包；

12、所述数据预处理具体包括：

13、根据五元组信息将pcap文件中的所有数据包划分成数据流，将具有相同五元组信息的数据包归为同一数据流；若一个数据流中的数据包数量n＞4，则将该数据流再划分成n/4个数据流；每个数据流只保留前4个数据包；

14、提取每个数据包前125位的数据，分别保存到对应excel文件内；

15、对excel文件内的数据进行数据清洗，去除冗余数据；

16、进行转换进制操作，以确保与灰度图像中像素点的值完全匹配，具体为：将数据包中的十六进制数据和剩余数据帧中的十六进制数据均转化为十进制数据，确保每一个字节都转化为0到255之间的数值；将数据包中的8位二进制数据中的一个字节转化为0到255之间的数值。

17、作为本专利技术的一种优选方案，所述将数据预处理后的数据进行图像转换，生成灰度图像，具体包括：目标图像表示为a*b，像素点用p来表示，关系为：

18、

19、其中f1:b表示一段b长度字节的数据长度，ob-b表示b-b个空字符的连接，完整的图像定义为列运算q，表示为：

20、

21、其中e1:a表示一段a长度字节的数据长度，o(a-a)×b表示(a-a)×b个空字符的连接；通过线性映射或对数映射方法将数据包转换为像素值，具体为：将一维序列数据按照字节单位数据包中的顺序排列，将所述一维序列数据转化为一个大小为36m×36m的二维数组m＝m2，最后将所述二维数组保存为灰度图像文件。

22、作为本专利技术的一种优选方案，所述构建基于残差网络的流量识别模型，具体包括：将所述模型数据集按照5:1的比例划分为训练集和测试集，并放入残差网络中进行预训练，

23、残差网络中每个残差块通过残差传递机制直接学习到输入和输出之间的映射关系，所述残差块yl的表示方式为：

24、yl＝h(xl)+f(xl,wl)；

25、xl+1＝f(yl)；

26、式中，xl和xl+1分别代表第l层的输入和输出，f表示残差函数，wl代表第l层的1*1卷积操作，h(·)、f(·)分别是恒等映射函数和激活函数；

27、使用大小为1*1的卷积核对输入的数据进行卷积操作，获得对应的特征图，通过局部注意特征图计算调整特征图的尺寸，通过softmax归一化得到attention map，再与h(x)的像素点进行相乘操作，得到自注意力特征图，公式如下：

28、

29、式中，βj,i表示合成第j个区域时残差网络关注第i个区域的程度，sij代表通过softmax函数归一化得到的attention map；

30、在局部信息的基础上增加全局信息得到：

31、

32、式中，输出注意力层是o＝(o1,o2,o3,...,oj,...,on)∈rc×n；

33、注意力层的最终输出为：

34、

35、式中，前一个隐藏层的图像特征向量x∈rc×n，转化为3个特征空间f(x),g(x),h(x)，βj,i表示合成第j个区域时模型关注第i个区域的程度，然后输出注意力层是o＝(o1,o2,o3,...,oj,...,on)∈rc×n，再乘以一个初始化为0的可学习平衡因子γ，并且添加特征向量x，通过反向不断更新。

36、作为本专利技术的一种优选方案，所述使用粒子群优化算法寻找全局最优解，具体包括：通过粒子的位置信息计算适应度值，然后更新每个粒子的最佳位置和整个群体的全局最佳位置，公式为：

37、vi＝ω×vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi)；

38、xi＝xi+vi；

39、其中，ω表示惯性因子，vi代表粒子的速度，xi代表粒子的位置，rand()是(0,1)内的随机数，c1,c2代表学习因子，pbesti,gbesti代表当前个体极值和全局极值，损失函数采用交叉熵损失函数来作为衡量加密流量分类模型性能的指标，公式如下：

40、

41、其中m代表类别数量，pi代表每个类别的概率。

42、作为本专利技术的一种优选方案，所述使用剩余带有标记的数据集对所述流量识别模型进行再训练，具体包括：

43、通过剩余带有标记的数据，采用激活函数relu和softmax分类函数进行特征分类，并按照本文档来自技高网...

【技术保护点】

1.一种基于半监督学习的流量识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于半监督学习的流量识别方法，其特征在于，所述正常数据流量和恶意数据流量通过IMTH2019数据集和CIC-IDS2017数据集进行采集，所述CIC-IDS2017数据集中的恶意数据流量类型包括FTP攻击、SSH攻击和Dos攻击等。

3.根据权利要求2所述的一种基于半监督学习的流量识别方法，其特征在于，所述IMTH2019数据集和CIC-IDS2017数据集中的数据以pcap文件的形式保存，所述pcap文件中的每一条代表一个数据包；

4.根据权利要求1所述的一种基于半监督学习的流量识别方法，其特征在于，将数据预处理后的数据进行图像转换，生成灰度图像，具体包括：目标图像表示为A*B，像素点用P来表示，关系为：

5.根据权利要求1所述的一种基于半监督学习的流量识别方法，其特征在于，所述构建基于残差网络的流量识别模型，具体包括：将所述模型数据集按照5:1的比例划分为训练集和测试集，并放入残差网络中进行预训练，残差网络中每个残差块通过残差传递机制直

6.根据权利要求1所述的一种基于半监督学习的流量识别方法，其特征在于，所述使用粒子群优化算法寻找全局最优解，具体包括：通过粒子的位置信息计算适应度值，然后更新每个粒子的最佳位置和整个群体的全局最佳位置，公式为：

7.根据权利要求1所述的一种基于半监督学习的流量识别方法，其特征在于，所述使用剩余带有标记的数据集对所述流量识别模型进行再训练，具体包括：

8.基于权利要求1-7任一项所述的一种基于半监督学习的流量识别方法的系统，其特征在于，所述系统包括：

9.一种基于半监督学习的流量识别设备，其特征在于，所述设备包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于半监督学习的流量识别方法。

...

【技术特征摘要】

1.一种基于半监督学习的流量识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于半监督学习的流量识别方法，其特征在于，所述正常数据流量和恶意数据流量通过imth2019数据集和cic-ids2017数据集进行采集，所述cic-ids2017数据集中的恶意数据流量类型包括ftp攻击、ssh攻击和dos攻击等。

3.根据权利要求2所述的一种基于半监督学习的流量识别方法，其特征在于，所述imth2019数据集和cic-ids2017数据集中的数据以pcap文件的形式保存，所述pcap文件中的每一条代表一个数据包；

4.根据权利要求1所述的一种基于半监督学习的流量识别方法，其特征在于，将数据预处理后的数据进行图像转换，生成灰度图像，具体包括：目标图像表示为a*b，像素点用p来表示，关系为：

5.根据权利要求1所述的一种基于半监督学习的流量识别方法，其特征在于，所述构建基于残差网络的流量识别模型，具体包括：将所述模型数据集按照5...

【专利技术属性】
技术研发人员：姜风超，胡福亮，王绪民，刘德志，
申请(专利权)人：江苏君立华域信息安全技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人