一种基于集成的多过滤式特征选择的网络流量分类方法技术

技术编号:35294744 阅读:18 留言:0更新日期:2022-10-22 12:41
本发明专利技术提供了一种基于集成的多过滤式特征选择的网络流量分类方法,包括:对实时流量进行特征提取并进行预处理;采用基于集成的多过滤式特征选择算法获取最优特征子集,该方法结合卡方特征选择法、增益比特征选择法、relief特征选择法和信息增益特征选择法等四种单一的过滤式特征选择算法获取特征子集,使用简单多数投票的方法选取在四个特征子集中重复出现的特征作为最优特征子集;将最优特征子集划分为训练集和测试集,在CNN模型中基于训练集进行训练;再将测试集数据输入训练好的模型中,实现网络流量分类。本发明专利技术的方法可以完成对流量特征进行全面选择,避免重要特征的遗漏,并且保留较少的特征数目,从而提高分类模型的综合性能。模型的综合性能。模型的综合性能。

【技术实现步骤摘要】
一种基于集成的多过滤式特征选择的网络流量分类方法


[0001]本专利技术涉及网络流量分类
,具体但不限于涉及一种基于集成的多过滤式特征选择的网络流量分类方法。

技术介绍

[0002]随着互联网的迅速发展,爆炸式增长的网络流量给网络流量分类带来了巨大的挑战,这使得网络流量分类需要处理的数据量越来越大。
[0003]近年来,研究人员从网络流量原始数据中提取特征,并将深度学习应用于网络流量分类,尽管已经取得了巨大的进展,但还存在一些亟待解决的问题,尤其是流量特征选择问题。流量特征选择作为分类模型的先决条件,一方面会影响模型训练的复杂度,比如特征数量过多;另一方面也会影响模型的准确性,比如特征过少,或缺失关键特征等。
[0004]通常,为了最大程度的准确表达流量样本,通常会采集尽可能多的特征,其中可能包括一些不相关或冗余特征,特征之间也可能存在依赖关系。这会导致特征分析和预处理、模型训练、推理所需的时间延长,进而加大训练复杂度问题,甚至降低分类模型的准确率。
[0005]另外,仅使用单一的过滤式特征选择算法,选择后的流量特征仍然较多,且存在稳定性差的问题。即使使用深度学习中像CNN这种高效的神经网络模型,对特征选择过程并没有较大的贡献。而且将神经网络应用到特征选择时很少考虑使用神经网络得到特征的最佳表示。
[0006]网络流量分类中特征选择算法发展至今,解决了不少问题,但单一的过滤式特征选择算法还是存在选择特征数目较多、分类精度较低和稳定性差的问题。有鉴于此,需要提供一种新的方法,以期解决上述至少部分问题。

技术实现思路

[0007]针对现有技术中的一个或多个问题,本专利技术提出了一种基于集成的多过滤式特征选择的网络流量分类方法,实现对流量特征进行全面选择,避免重要特征的遗漏,并且保留较少的特征数目,从而提高分类模型的综合性能。
[0008]实现本专利技术目的的技术解决方案为:
[0009]一种基于集成的多过滤式特征选择的网络流量分类方法,包括:
[0010]步骤1:获取真实应用的网络流量数据,并提取出流量特征,进行数据预处理后存放在新的csv文件中;
[0011]步骤2:采用基于集成的多过滤式特征选择算法,删除不相关特征及冗余特征,得到最优特征子集;其中,集成的多过滤式特征选择算法集成了信息增益特征选择算法、增益比特征选择算法、relief特征选择算法和卡方检验特征选择算法,所述4种算法在特征选择时分别考虑增益量、增益比、特征权重和CHI值;
[0012]步骤3:将最优特征子集分为训练集和测试集,将训练集数据输入卷积神经网络CNN模型中进行训练,得到网络流量分类模型;
[0013]步骤4:将待检测的流量样本经预处理后输入网络流量分类模型中,输出网络流量分类结果。
[0014]进一步的,本专利技术的基于集成的多过滤式特征选择的网络流量分类方法,步骤1中使用流量特征提取工具CICflowmeter提取网络流量数据的流量特征。
[0015]进一步的,本专利技术的基于集成的多过滤式特征选择的网络流量分类方法,步骤1中数据预处理包括去除样本中存在空值或缺失值的实例以及非数值型数据。
[0016]进一步的,本专利技术的基于集成的多过滤式特征选择的网络流量分类方法,步骤2具体包括:
[0017]步骤2

1:采用信息增益特征选择算法对流量样本进行特征选择,根据信息增益量排序得到第一特征子集S1;
[0018]步骤2

2:采用增益比特征选择算法对流量样本进行特征选择,根据信息增益比得分排序得到第二特征子集S2;
[0019]步骤2

3:采用relief特征选择算法对流量样本进行特征选择,根据特征权重向量得到第三特征子集S3;
[0020]步骤2

4:采用卡方检验特征选择算法对流量样本进行特征选择,根据CHI值排序得到第四特征子集S4;
[0021]步骤2

5:使用简单多数投票的方法在四个特征子集S1、S2、S3和S4中找到四种过滤式特征选择方法中频繁出现的特征,得到最优特征子集S。
[0022]进一步的,本专利技术的基于集成的多过滤式特征选择的网络流量分类方法,步骤2

1具体包括:
[0023]设网络流量样本集合S,根据特征不同取值将样本集S划分为个k子集C1,C2,...,Ck,计算特征A对样本集S进行划分的信息增益量f
G
(S,A):
[0024]f
G
(S,A)=H(S)

H(S|A)
[0025]其中,H(S)是指网络流样本集S对分类的平均信息量,H(S|A)是指样本集S对分类的评价信息量。
[0026]进一步的,本专利技术的基于集成的多过滤式特征选择的网络流量分类方法,步骤2

2具体包括:
[0027]计算信息增益比f
GR
为:
[0028]f
GR
(A)=f
G
(S,A)|H(A)
[0029]其中,H(A)是指特征A对分类的平均信息量。
[0030]进一步的,本专利技术的基于集成的多过滤式特征选择的网络流量分类方法,步骤2

3具体包括:
[0031]从网络流量样本集中随机选择一个样本S
i
,选择距离样本S
i
距离最近的同类样本Hit和异类样本Miss,计算特征A的权重W(A):
[0032]W(A)=W(A)

diff(A,S
i
,Hit)/r+diff(A,S
i
,Miss)/r
[0033]其中,diff(A,S
i
,Hit)和diff(A,S
i
,Miss)分别表示样本S
i
与同类样本Hit、异类样本Miss在特征A上的差,r表示重复上述步骤的次数。
[0034]进一步的,本专利技术的基于集成的多过滤式特征选择的网络流量分类方法,步骤2

4具体包括:
[0035]设特征A和类别之间符合具有一阶自由度的CHI分布,A对类别的CHI值x2(A)为:
[0036][0037]其中,n表示总样本的个数,a表示有特征A且属于该类的样本个数,b表示有特征A但不属于该类的样本个数,c表示属于该类但是没有特征A的样本个数,d表示既不属于该类且没有特征A的样本个数。
[0038]进一步的,本专利技术的基于集成的多过滤式特征选择的网络流量分类方法,步骤2

5具体包括:
[0039]步骤2
‑5‑
1:确定特征计数阈值T,设过滤式特征子集数量为N,则T=N

1;
[0040]步骤2
‑5‑
2:计算由四种单一过滤式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,包括:步骤1:获取真实应用的网络流量数据,并提取出流量特征,进行数据预处理后存放在新的csv文件中;步骤2:采用基于集成的多过滤式特征选择算法,删除不相关特征及冗余特征,得到最优特征子集;其中,集成的多过滤式特征选择算法集成了信息增益特征选择算法、增益比特征选择算法、relief特征选择算法和卡方检验特征选择算法,所述4种算法在特征选择时分别考虑增益量、增益比、特征权重和CHI值;步骤3:将最优特征子集分为训练集和测试集,将训练集数据输入卷积神经网络CNN模型中进行训练,得到网络流量分类模型;步骤4:将待检测的流量样本经预处理后输入网络流量分类模型中,输出网络流量分类结果。2.根据权利要求1所述的基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,步骤1中使用流量特征提取工具CICflowmeter提取网络流量数据的流量特征。3.根据权利要求1所述的基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,步骤1中数据预处理包括去除样本中存在空值或缺失值的实例以及非数值型数据。4.根据权利要求1所述的基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,步骤2具体包括:步骤2

1:采用信息增益特征选择算法对流量样本进行特征选择,根据信息增益量排序得到第一特征子集S1;步骤2

2:采用增益比特征选择算法对流量样本进行特征选择,根据信息增益比得分排序得到第二特征子集S2;步骤2

3:采用relief特征选择算法对流量样本进行特征选择,根据特征权重向量得到第三特征子集S3;步骤2

4:采用卡方检验特征选择算法对流量样本进行特征选择,根据CHI值排序得到第四特征子集S4;步骤2

5:使用简单多数投票的方法在四个特征子集S1、S2、S3和S4中找到四种过滤式特征选择方法中频繁出现的特征,得到最优特征子集S。5.根据权利要求1所述的基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,步骤2

1具体包括:设网络流量样本集合S,根据特征不同取值将样本集S划分为个k子集C1,C2,...,Ck,计算特征A对样本集S进行划分的信息增益量f
G
(S,A):f
G
(S,A)=H(S)

H(S|A)其中,H(S)是指网络流样本集S对分类的平均信息量,H(S|A)是指样本集S对分类的评价信息量。6.根据...

【专利技术属性】
技术研发人员:陈雪娇韩倩倩
申请(专利权)人:南京信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1