The invention discloses a method for feature selection and classification of network traffic based on multi-objective adaptive evolutionary algorithm. The method first sorts the features by using information gain rate, filters out some irrelevant features, and achieves the goal of fast dimensionality reduction. The feature with the highest gain rate is taken as the initial population, and the optimal feature subset is selected by using the two objective functions of the inconsistency rate and the dimension of the feature subset as the evaluation function. Adaptive crossover and mutation maintain population diversity and guarantee the convergence ability of the algorithm. At the same time, the invention uses the designed three-layer KNN classifier model to classify six kinds of multimedia traffic streams, namely, on-line standard live video, web page browsing (Baidu), on-line audio, web page browsing (sina), network voice chat and on-line standard non-live video. Experimental results show that the proposed method has higher classification accuracy than the existing methods.
【技术实现步骤摘要】
基于多目标自适应演化算法的网络业务流特征选择与分类方法
本专利技术属于模式识别与分类
,具体涉及一种基于多目标自适应演化算法的网络业务流特征选择与分类方法。
技术介绍
近年来,随着互联网的快速发展,准确高效的网络流分类是网络管理的重要基础。网络多媒体业务流类型的多样性给其分类和识别带来了巨大的挑战。传统的流分类方法主要包括三种:基于端口的方法,深度包检测方法和基于多媒体流统计特征的方法。但是随着数据加密、新型应用的出现及动态端口的使用,前两种分类方法将不再适用。如今,大部分研究者重点关注包括决策树、SVM(SupportVectorMachine)和C5.0等机器学习分类方法。在实际应用中,特征维数往往很高,不相关和冗余特征的存在容易导致模型训练所需时间长且复杂度较高,不易于推广。特征选择能滤除不相关和冗余特征,从而实现快速降维,提高模型精确度。特征选择算法根据评价函数的不同可以分为过滤型(Filter)、封装型(Wrapper)和嵌入式型(Embed)。过滤型特征选择的过程是独立的,与具体的分类器无关。封装型是将特征选择和分类器的设计结合在一起,运用分类准确率去评估所选特征,从而选出最优子集。而嵌入式型是将特征选择方法作为分类器训练的一部分,通过分析所得模型的分类结果选取子集。目前常见的特征选择方法有信息增益率(GR)、皮尔森相关系数、卡方统计等。特征维数过高时,需要借助搜索算法来提高效率,近年来已有很多搜索算法应用于特征选择,例如序列前向选择(SFS),序列后向选择(SBS)和增L去R选择算法等。目前智能优化搜索算法已成为研究的热点,如演化算法( ...
【技术保护点】
1.基于多目标自适应演化算法的网络业务流特征选择与分类方法,其特征在于,包含以下步骤:(1)数据收集与预处理:采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作;(2)特征选择与分析:对上述网络数据流样本的统计特征进行分析,选择有效区分业务流的特征组合;(3)业务流分类与检验:利用三层KNN分类器对网络多媒体业务流进行分类实验,得出分类结果,并计算整体分类正确率。
【技术特征摘要】
1.基于多目标自适应演化算法的网络业务流特征选择与分类方法,其特征在于,包含以下步骤:(1)数据收集与预处理:采集互联网上各种多媒体业务的数据流样本,然后进行预处理操作;(2)特征选择与分析:对上述网络数据流样本的统计特征进行分析,选择有效区分业务流的特征组合;(3)业务流分类与检验:利用三层KNN分类器对网络多媒体业务流进行分类实验,得出分类结果,并计算整体分类正确率。2.根据权利要求1所述的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,其特征在于,所述数据收集与预处理操作具体包括:(2.1)在开放的互联网环境中,通过网络封包分析软件WireShark抓取所需的多媒体业务流数据,然后将原始数据转换成标准的五元组文本格式,所述五元组文本格式包括数据包到达的时间、源IP地址、目的IP地址、协议、数据包分组大小;(2.2)对原始多媒体业务流的标准五元组文件进行基本的统计特征计算,所述统计特征包括:上/下行包大小、上/下行包大小信息熵、整体包大小、上/下行包到达时间间隔、下行数据包速率、下行字节速率和上下行字节数之比。3.根据权利要求1所述的基于多目标自适应演化算法的网络多媒体业务流特征选择与分类方法,其特征在于,所述特征选择与分析具体包括:(3.1)采用信息增益率对所有特征进行排序,滤除低于相关性阈值的特征;(3.2)编码选择:选取长度为特征数量N的二进制编码,每个编码个体由一串比特位组成;任一位都有两个取值,值为1代表选择该特征,值为0代表不选;将每个个体表示为:其中i=1,...,N,cI∈{0,1},mI∈{0,1};cI和mI分别代表每个编码个体中执行自适应交叉和变异的离散参数;(3.3)种群初始化:初始化空种群P0,在种群中个体数小于种群大小popsize时,循环执行在[1,N]范围内随机初始化q的值,个体选取信息增益率排名靠前的q个特征,即将对应的前q位置为1,q+1至N位置为0,将该个体加进种群P0;(3.4)每个个体I有两个适应度函数f1(I)和f2(I),对应于多目标优化的两个目标函数;其中f1(I)为不一致率,f2(I)代表所选特征个数;(3.5)选择父代:根据个体的拥挤距离来选择父代;(3.6)自适应交叉:固定交叉概率pc,对于t代的任两个个体I和J,若该伯努利随机变量以pc的概率取1,则将cJ随机置为0或1,并将cJ的值赋给cI;若cJ的值为0,则不交叉,如果为1则执行均匀...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。