一种并行网络流量分类方法技术

技术编号：11587469 阅读：99 留言：0更新日期：2015-06-10 20:37

本发明专利技术公开一种并行网络流量分类方法，基于Hadoop集群平台提供的MapReduce并行框架，先对数据集进行预处理，通过特征选择方法对高维网络流量数据降维，去除不相关以及冗余特征；然后通过选择性集成学习训练多个基分类器，选出其中准确率高以及差异性大的基分类器集成；最后通过多数投票方式得出最终分类结果。本发明专利技术能够有效的解决海量数据降维及分类问题，很大程度上提高了数据处理效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据处理
，具体涉及一种并行网络流量分类方法。
技术介绍
随着高速网络的迅速发展，新型网络业务不断涌现，网络规模因其开放性、共享性等特点不断地扩大，不同的应用流量呈现不同特征，日趋严重的网络安全以及网络服务质量问题给网络流量分类领域带来巨大的挑战。网络流量分类是认识、管理和优化各种网络资源的重要依据，它将基于TCP/IP协议的Internet产生的双向TCP流或UDP流按照网络应用类型(例如WWW、FTP、MAIL、P2P等)进行分类。网络流量特征选择作为流量分类的关键步骤，在损失较少信息的情况下，从大量候选特征属性中删除无关或冗余的特征，降低候选特征维数，减少训练时间和计算复杂度，提高学习算法效率及分类的精度。虽然特征选择从研究之初到现在，已有很多成熟的方法，但是关于网络流量方面的特征选择方法研究较少。在网络流量分类算法方面，基于流统计特征的机器学习方法成为主流，大多数基于流统计特征的机器学习方法均使用单个基分类器处理流量分类问题，而其缺陷在于难以适应网络环境的动态变化，在不同环境下的分类效果差距较大。集成学习通过对样本学习训练出若干个基分类器，然后根据某种规则将这些分类结果进行整合以解决某一具体问题。而大量研究发现，选择部分基分类器进行集成学习比选择所有的基分类器具有更好的泛化性，这种方法被称为选择性集成。基分类器选择性集成学习目的在于不降低甚至进一步提高基分类器预...
一种并行网络流量分类方法

【技术保护点】
一种并行网络流量分类方法，包括对网络流量数据进行特征选择过程S1和对网络流量分类得到分类结果过程S2，其特征是，上述网络流量数据进行特征选择的过程S1具体如下：S1‑1.将初始数据DA处理成特征向量后，按照设定的向量个数a将其划分为a份特征向量子集，且所有类标签作为单独一个类标签向量C；S1‑2.启动映射任务，将a份特征向量子集Y均分到a个映射任务节点上，并将类标签向量C传到这a个映射任务节点；S1‑3.根据费舍尔得分Fk与类标签互信息标准化值SU(x,C)，从各特征向量中预选出鉴别能力强与相关性大的特征向量，整合预选出的特征向量得到整合特征向量子集S，并将整合特征向量子集S与类标签向量C一起发送到规约任务节点上；S1‑4.启动规约任务，规约任务节点计算整合特征向量子集S的每个特征向量与类标签向量的类标签互信息标准化值SU(x,C)；S1‑5.初始化优选特征向量子集V，选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量加入优选特征向量子集V，并从整合特征向量子集S中删除该特征向量；S1‑6.再选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量...

【技术特征摘要】
1.一种并行网络流量分类方法，包括对网络流量数据进行特征选择
过程S1和对网络流量分类得到分类结果过程S2，其特征是，上述网络流
量数据进行特征选择的过程S1具体如下：
S1-1.将初始数据DA处理成特征向量后，按照设定的向量个数a将其
划分为a份特征向量子集，且所有类标签作为单独一个类标签向量C；
S1-2.启动映射任务，将a份特征向量子集Y均分到a个映射任务节点
上，并将类标签向量C传到这a个映射任务节点；
S1-3.根据费舍尔得分Fk与类标签互信息标准化值SU(x,C)，从各特征
向量中预选出鉴别能力强与相关性大的特征向量，整合预选出的特征向
量得到整合特征向量子集S，并将整合特征向量子集S与类标签向量C一起
发送到规约任务节点上；
S1-4.启动规约任务，规约任务节点计算整合特征向量子集S的每个特
征向量与类标签向量的类标签互信息标准化值SU(x,C)；
S1-5.初始化优选特征向量子集V，选取整合特征向量子集S中类标签
互信息标准化值SU(x,C)最大的特征向量加入优选特征向量子集V，并从
整合特征向量子集S中删除该特征向量；
S1-6.再选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最
大的特征向量，计算该特征向量与优选特征向量子集V中其它特征向量的
特征互信息标准化值SU(x,x’)，如果该特征向量存在特征互信息标准化值
SU(x,x’)大于类标签互信息标准化值SU(x,C)的情形，则从整合特征向量
子集S中删除该特征向量，否则将该特征向量加入到优选特征向量子集中；
S1-7.重复步骤S1-6，直到整合特征向量子集S为空，此时整合优选特
征向量子集V与类标签向量C构成训练集L输出到后续对网络流量分类得
到分类结果过程S2中。
2.根据权利要求1所述的一种并行网络流量分类方法，其特征是，
步骤S1-3中，鉴别能力强与相关性大的特征的预选过程如下：
S1-31.根据费舍尔得分公式计算每个特征向量的费舍尔得分Fk；
Fk=Σi=1cni(xkl‾-xk‾)2Σi=1cni(σki)2]]>式中，i表示类别，c表示类的数量，ni表示第i类样本的数量，表示
第i类中第k个特征的均值，表示所有样本中第k个特征的均值，表示
第i类中第k个特征的方差；
S1-32.根据互信息的标准化公式计算每个特征向量与类标签向量的
类标签互信息标准化值SU(x,C)；
SU(x,C)=2I(x,C)H(C)+H(x)]]>式中，H(x)表示特征向量x的信息熵，H(C)表示类标签向量C的信息
熵，I(x,C)表示特征向量x与类标签向量C的联合熵；
S1-33.根据给定的权重系数α，将上述两个公式融合得到目标评价函
数Tk；
Tk＝α×Fk+(1-α)×SU(x,C)
S1-34.选出各特征向量子集Y中目标评价函数Tk大于预设阈值的特征
向量，并将特征向量进行整合后得到整合特征向量子集S。
3.根据权利要求1所述的一种并行网络流量分类方法，其特征是，
步骤S1-4中的类标签互信息标准化值SU(x,C)和步骤S1-6中的特征互信
息标准化值SU(x,x’)的计算公式分别为：
SU(x,C)=2I(x,C...

【专利技术属性】
技术研发人员：王勇，龙也，陶晓玲，何倩，韦毅，曾小宝，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人