基于多目标自适应演化算法的网络业务流特征选择与分类方法技术

技术编号:18839967 阅读:20 留言:0更新日期:2018-09-05 08:22
本发明专利技术公开了一种基于多目标自适应演化算法的网络业务流特征选择与分类方法,该方法首先利用信息增益率对特征进行排序,滤除部分无关特征,达到快速降维的目的,然后以自适应演化算法对特征空间进行搜索,并用信息增益率排名靠前的特征作为初始种群,以不一致率和特征子集维数两个目标函数作为评价函数选取最优特征子集。自适应交叉和变异保持了种群多样性,且保证了算法的收敛能力。同时本发明专利技术利用设计的三层KNN分类器模型对在线标清直播视频、网页浏览(Baidu)、在线音频、网页浏览(sina)、网络语音聊天、在线标清非直播视频六种多媒体业务流进行分类。实验结果表明,该方法比现有方法具有更高的分类准确率。

Feature selection and classification of network traffic based on multi-objective adaptive evolutionary algorithm

The invention discloses a method for feature selection and classification of network traffic based on multi-objective adaptive evolutionary algorithm. The method first sorts the features by using information gain rate, filters out some irrelevant features, and achieves the goal of fast dimensionality reduction. The feature with the highest gain rate is taken as the initial population, and the optimal feature subset is selected by using the two objective functions of the inconsistency rate and the dimension of the feature subset as the evaluation function. Adaptive crossover and mutation maintain population diversity and guarantee the convergence ability of the algorithm. At the same time, the invention uses the designed three-layer KNN classifier model to classify six kinds of multimedia traffic streams, namely, on-line standard live video, web page browsing (Baidu), on-line audio, web page browsing (sina), network voice chat and on-line standard non-live video. Experimental results show that the proposed method has higher classification accuracy than the existing methods.

【技术实现步骤摘要】
基于多目标自适应演化算法的网络业务流特征选择与分类方法
本专利技术属于模式识别与分类
,具体涉及一种基于多目标自适应演化算法的网络业务流特征选择与分类方法。
技术介绍
近年来,随着互联网的快速发展,准确高效的网络流分类是网络管理的重要基础。网络多媒体业务流类型的多样性给其分类和识别带来了巨大的挑战。传统的流分类方法主要包括三种:基于端口的方法,深度包检测方法和基于多媒体流统计特征的方法。但是随着数据加密、新型应用的出现及动态端口的使用,前两种分类方法将不再适用。如今,大部分研究者重点关注包括决策树、SVM(SupportVectorMachine)和C5.0等机器学习分类方法。在实际应用中,特征维数往往很高,不相关和冗余特征的存在容易导致模型训练所需时间长且复杂度较高,不易于推广。特征选择能滤除不相关和冗余特征,从而实现快速降维,提高模型精确度。特征选择算法根据评价函数的不同可以分为过滤型(Filter)、封装型(Wrapper)和嵌入式型(Embed)。过滤型特征选择的过程是独立的,与具体的分类器无关。封装型是将特征选择和分类器的设计结合在一起,运用分类准确率去评估所选特征,从而选出最优子集。而嵌入式型是将特征选择方法作为分类器训练的一部分,通过分析所得模型的分类结果选取子集。目前常见的特征选择方法有信息增益率(GR)、皮尔森相关系数、卡方统计等。特征维数过高时,需要借助搜索算法来提高效率,近年来已有很多搜索算法应用于特征选择,例如序列前向选择(SFS),序列后向选择(SBS)和增L去R选择算法等。目前智能优化搜索算法已成为研究的热点,如演化算法(EA),粒子群算法等在特征选择方面得到了广泛的应用。但是这些方法在搜索特征子集时都只考虑了单一准则,并没有考虑所选特征子集的基数,它们都属于单目标特征选择方法。多目标优化可以从多个角度评价特征子集的质量,并将这些评价指标作为目标函数同时进行优化。受自然界生物进化过程的启发,研究者提出了用于求解多目标优化问题的多目标演化算法,例如非支配径向基演化算法(ENORA)。然而,在特征维数较高时,不相关和冗余特征会增加多目标优化的时间复杂度。对于演化算法,种群的初始化、交叉和变异概率选择不当都会降低最终的分类准确率和算法的收敛能力。且目前多数多目标特征选择算法一个目标函数为分类器的准确率,所以收敛速度较慢,运行时间较长。
技术实现思路
本专利技术所要解决的技术问题是:为克服以上算法的缺点,本专利技术提出一种基于多目标自适应演化算法的网络业务流特征选择与分类方法。本专利技术为解决上述技术问题采用以下技术方案:本专利技术提出一种基于多目标自适应演化算法的网络业务流特征选择与分类方法,包含以下步骤:(1)数据收集与预处理:采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作;(2)特征选择与分析:对上述网络数据流样本的统计特征进行分析,选择有效区分业务流的特征组合;(3)业务流分类与检验:利用三层KNN分类器对网络多媒体业务流进行分类实验,得出分类结果,并计算整体分类正确率。进一步,本专利技术提出的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,所述数据收集与预处理操作具体包括:(2.1)在开放的互联网环境中,通过网络封包分析软件WireShark抓取所需的多媒体业务流数据,然后将原始数据转换成标准的五元组文本格式,所述五元组文本格式包括数据包到达的时间、源IP地址、目的IP地址、协议、数据包分组大小;(2.2)对原始多媒体业务流的标准五元组文件进行基本的统计特征计算,所述统计特征包括:上/下行包大小、上/下行包大小信息熵、整体包大小、上/下行包到达时间间隔、下行数据包速率、下行字节速率和上下行字节数之比。进一步,本专利技术提出的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,所述特征选择与分析具体包括:(3.1)采用信息增益率对所有特征进行排序,滤除低于相关性阈值的特征;(3.2)编码选择:选取长度为特征数量N的二进制编码,每个编码个体由一串比特位组成;任一位都有两个取值,值为1代表选择该特征,值为0代表不选;将每个个体表示为:其中cI和mI分别代表每个编码个体中执行自适应交叉和变异的离散参数;(3.3)种群初始化:初始化空种群P0,在种群中个体数小于种群大小popsize时,循环执行在[1,N]范围内随机初始化q的值,个体选取信息增益率排名靠前的q个特征,即将对应的前q位置为1,q+1至N位置为0,将该个体加进种群P0;(3.4)每个个体I有两个适应度函数f1(I)和f2(I),对应于多目标优化的两个目标函数;其中f1(I)为不一致率,f2(I)代表所选特征个数;(3.5)选择父代:根据个体的拥挤距离来选择父代;(3.6)自适应交叉:固定交叉概率pc,对于t代的任两个个体I和J,若该伯努利随机变量以pc的概率取1,则将cJ随机置为0或1,并将cJ的值赋给cI;若cJ的值为0,则不交叉,如果为1则执行均匀交叉;将交叉产生的新个体加入辅助种群中Qt中;(3.7)自适应变异:固定变异概率pm,对于t代个体I,若该伯努利随机变量以pm的概率取1,则将mI随机置为0或1;如果mI的值为0,则不进行变异,如果为1则进行单点翻转变异;将变异产生的新个体加入Qt代种群中,并将父代Pt和Qt合并为辅助种群Rt;对种群Rt中的所有个体按照目标函数的等级及拥挤距离进行排序,选取前popsize个个体存活到下一代Pt+1;执行t=t+1;(3.8)若满足最大迭代次数gen或在迭代过程中不一致率保持不变,则输出最优特征子集;否则重复步骤(3.4)至步骤(3.7)。进一步,本专利技术提出的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,所述不一致率是指:将样本实例中的一个特征组合称为一个模式,特征子集的所有模式的不一致数,为该模式出现的样本总数减去出现次数最多的某一类标签的样本数,不一致率就等于不一致数除以样本总数。进一步,本专利技术提出的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,步骤(3.1)中的相关性阈值为0.4,步骤(3.2)中的N对应的三层分类器依次为25、26、13,步骤(3.6)中的交叉概率pc和步骤(3.7)中的变异概率pm均为0.1,步骤(3.7)中的popsize=100,步骤(3.8)中的最大迭代次数gen为10。进一步,本专利技术提出的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,业务流分类步骤具体包括:(5.1)采用特征选择方法对原始多媒体业务流进行特征选择,并进行第一层KNN分类,将多媒体流分为4类:C1,C2,C3,C4;其中C1为在线音频,C2为在线视频,C3为网页浏览,C4为网络语音聊天;(5.2)对上一层分类得到的C2的视频流特征再次使用特征选择方法进行特征选择,并进行第二层KNN分类,得到分类结果C21,C22;(5.3)对步骤(5.1)分类结果C3的数据流特征再次使用特征选择方法进行特征选择,并进行第二层的第二个KNN分类,得到分类结果C31,C32;(5.4)统计分类输出结果,计算整体分类正确率。进一步,本专利技术提出的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,所述分类结果C21为本文档来自技高网
...

【技术保护点】
1.基于多目标自适应演化算法的网络业务流特征选择与分类方法,其特征在于,包含以下步骤:(1)数据收集与预处理:采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作;(2)特征选择与分析:对上述网络数据流样本的统计特征进行分析,选择有效区分业务流的特征组合;(3)业务流分类与检验:利用三层KNN分类器对网络多媒体业务流进行分类实验,得出分类结果,并计算整体分类正确率。

【技术特征摘要】
1.基于多目标自适应演化算法的网络业务流特征选择与分类方法,其特征在于,包含以下步骤:(1)数据收集与预处理:采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作;(2)特征选择与分析:对上述网络数据流样本的统计特征进行分析,选择有效区分业务流的特征组合;(3)业务流分类与检验:利用三层KNN分类器对网络多媒体业务流进行分类实验,得出分类结果,并计算整体分类正确率。2.根据权利要求1所述的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,其特征在于,所述数据收集与预处理操作具体包括:(2.1)在开放的互联网环境中,通过网络封包分析软件WireShark抓取所需的多媒体业务流数据,然后将原始数据转换成标准的五元组文本格式,所述五元组文本格式包括数据包到达的时间、源IP地址、目的IP地址、协议、数据包分组大小;(2.2)对原始多媒体业务流的标准五元组文件进行基本的统计特征计算,所述统计特征包括:上/下行包大小、上/下行包大小信息熵、整体包大小、上/下行包到达时间间隔、下行数据包速率、下行字节速率和上下行字节数之比。3.根据权利要求1所述的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,其特征在于,所述特征选择与分析具体包括:(3.1)采用信息增益率对所有特征进行排序,滤除低于相关性阈值的特征;(3.2)编码选择:选取长度为特征数量N的二进制编码,每个编码个体由一串比特位组成;任一位都有两个取值,值为1代表选择该特征,值为0代表不选;将每个个体表示为:其中i=1,...,N,cI∈{0,1},mI∈{0,1};cI和mI分别代表每个编码个体中执行自适应交叉和变异的离散参数;(3.3)种群初始化:初始化空种群P0,在种群中个体数小于种群大小popsize时,循环执行在[1,N]范围内随机初始化q的值,个体选取信息增益率排名靠前的q个特征,即将对应的前q位置为1,q+1至N位置为0,将该个体加进种群P0;(3.4)每个个体I有两个适应度函数f1(I)和f2(I),对应于多目标优化的两个目标函数;其中f1(I)为不一致率,f2(I)代表所选特征个数;(3.5)选择父代:根据个体的拥挤距离来选择父代;(3.6)自适应交叉:固定交叉概率pc,对于t代的任两个个体I和J,若该伯努利随机变量以pc的概率取1,则将cJ随机置为0或1,并将cJ的值赋给cI;若cJ的值为0,则不交叉,如果为1则执行均匀...

【专利技术属性】
技术研发人员:董育宁张咪
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1