【技术实现步骤摘要】
一种基于集成的多过滤式特征选择的网络流量分类方法
[0001]本专利技术涉及网络流量分类
,具体但不限于涉及一种基于集成的多过滤式特征选择的网络流量分类方法。
技术介绍
[0002]随着互联网的迅速发展,爆炸式增长的网络流量给网络流量分类带来了巨大的挑战,这使得网络流量分类需要处理的数据量越来越大。
[0003]近年来,研究人员从网络流量原始数据中提取特征,并将深度学习应用于网络流量分类,尽管已经取得了巨大的进展,但还存在一些亟待解决的问题,尤其是流量特征选择问题。流量特征选择作为分类模型的先决条件,一方面会影响模型训练的复杂度,比如特征数量过多;另一方面也会影响模型的准确性,比如特征过少,或缺失关键特征等。
[0004]通常,为了最大程度的准确表达流量样本,通常会采集尽可能多的特征,其中可能包括一些不相关或冗余特征,特征之间也可能存在依赖关系。这会导致特征分析和预处理、模型训练、推理所需的时间延长,进而加大训练复杂度问题,甚至降低分类模型的准确率。
[0005]另外,仅使用单一的过滤式特征选择算法,选择后的流量特征仍然较多,且存在稳定性差的问题。即使使用深度学习中像CNN这种高效的神经网络模型,对特征选择过程并没有较大的贡献。而且将神经网络应用到特征选择时很少考虑使用神经网络得到特征的最佳表示。
[0006]网络流量分类中特征选择算法发展至今,解决了不少问题,但单一的过滤式特征选择算法还是存在选择特征数目较多、分类精度较低和稳定性差的问题。有鉴于此,需要提供一种新的方法,以期解 ...
【技术保护点】
【技术特征摘要】
1.一种基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,包括:步骤1:获取真实应用的网络流量数据,并提取出流量特征,进行数据预处理后存放在新的csv文件中;步骤2:采用基于集成的多过滤式特征选择算法,删除不相关特征及冗余特征,得到最优特征子集;其中,集成的多过滤式特征选择算法集成了信息增益特征选择算法、增益比特征选择算法、relief特征选择算法和卡方检验特征选择算法,所述4种算法在特征选择时分别考虑增益量、增益比、特征权重和CHI值;步骤3:将最优特征子集分为训练集和测试集,将训练集数据输入卷积神经网络CNN模型中进行训练,得到网络流量分类模型;步骤4:将待检测的流量样本经预处理后输入网络流量分类模型中,输出网络流量分类结果。2.根据权利要求1所述的基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,步骤1中使用流量特征提取工具CICflowmeter提取网络流量数据的流量特征。3.根据权利要求1所述的基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,步骤1中数据预处理包括去除样本中存在空值或缺失值的实例以及非数值型数据。4.根据权利要求1所述的基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,步骤2具体包括:步骤2
‑
1:采用信息增益特征选择算法对流量样本进行特征选择,根据信息增益量排序得到第一特征子集S1;步骤2
‑
2:采用增益比特征选择算法对流量样本进行特征选择,根据信息增益比得分排序得到第二特征子集S2;步骤2
‑
3:采用relief特征选择算法对流量样本进行特征选择,根据特征权重向量得到第三特征子集S3;步骤2
‑
4:采用卡方检验特征选择算法对流量样本进行特征选择,根据CHI值排序得到第四特征子集S4;步骤2
‑
5:使用简单多数投票的方法在四个特征子集S1、S2、S3和S4中找到四种过滤式特征选择方法中频繁出现的特征,得到最优特征子集S。5.根据权利要求1所述的基于集成的多过滤式特征选择的网络流量分类方法,其特征在于,步骤2
‑
1具体包括:设网络流量样本集合S,根据特征不同取值将样本集S划分为个k子集C1,C2,...,Ck,计算特征A对样本集S进行划分的信息增益量f
G
(S,A):f
G
(S,A)=H(S)
‑
H(S|A)其中,H(S)是指网络流样本集S对分类的平均信息量,H(S|A)是指样本集S对分类的评价信息量。6.根据...
【专利技术属性】
技术研发人员:陈雪娇,韩倩倩,
申请(专利权)人:南京信息职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。