一种基于特征强相关的网络流量分类方法技术

技术编号：21606887 阅读：24 留言：0更新日期：2019-07-13 18:41

本发明专利技术提出一种基于特征强相关的网络流量分类方法，包括以下4个步骤：输入需要训练的数据，对输入数据进行特征提取，形成一个多维特征向量集合；利用特征与响应变量之间的互信息计算特征之间的相关性；根据互信息计算特征之间的冗余度，并通过迭代计算选出得分最高的特征作为最终的特征向量；根据分类目标构建基于特征强相关的网络流量分类模型并得到分类结果。本发明专利技术能够充分利用特征之间的相关性，在学习器训练过程中提取出相关性最大冗余度最小的特征，在相同的分类模型下，能够在保证分类精度的前提下有效提升分类效率，解决现有基于启发式搜索的特征选择方法未考虑特征之间相关性导致的不足。

A Classification Method of Network Traffic Based on Strong Feature Correlation

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征强相关的网络流量分类方法
本专利技术涉及数据处理和机器学习，特别涉及基于特征强相关的网络流量分类方法。
技术介绍
随着网络技术的发展，网络中的流量增长十分迅速。然而，在促进网络进一步深化发展的同时，也带来了很多的问题。不断扩大的数据规模以及日益增多的应用类型会导致网络资源的利用率下降。有些链路的吞吐量大，而有些链路几乎处于闲置状态，这将导致网络资源的利用率下降。因此，在过去几年中，网络流量的分类技术已经引起越来越多的关注。从安全角度来看，快速识别恶意流量将有助于安全控制和隔离攻击者。从QoS的角度来看，不同流量的准确分类有助于利用网络资源识别应用程序。此外，网络运营商可以跟踪不同应用的增长情况相应的提供带宽，用来适应用户群的不同需求。特征选择是“数据预处理”的一个重要的过程，在实际的机器学习任务中，在获得数据后通常先进行特征选择，然后再进行训练。我们经常在真实的任务中遇到维数灾难的问题，这是由于特征值的属性太多导致的，如果可以选择一些重要的特征，使得训练的过程中只需要一部分用来建模的特征，维数灾难的问题将会极大的减少。去掉相关的特征将会极大的减少学习器的难度，这会使学习器的训练时间和效率都会有所提升。
技术实现思路
专利技术目的：为解决上述技术问题，本专利技术提出一种基于特征强相关的网络流量分类方法。该方法利用特征强相关作为参数评估来源，利用降维的方法对特征进行了处理，因此可以对多分类场景下的网络流量进行快速识别。技术方案：为实现上述技术效果，本专利技术提供的技术方案为：一种基于特征强相关的网络流量分类方法，包括步骤：步骤一：利用特征与响应变量之间...

【技术保护点】
1.一种基于特征强相关的网络流量分类方法，其特征在于：所述方法具体过程为：步骤一：利用特征与响应变量之间的互信息获得预先提取的特征之间的相关性；步骤二：确定特征之间的相关性，根据特征之间的相关性确定特征之间的冗余度，并根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征；按照预先设定的次数m次迭代确定m个得分最高的特征作为最终的特征向量；步骤三：根据分类目标构建分类模型并得到特征强相关网络流量分类结果。

【技术特征摘要】
1.一种基于特征强相关的网络流量分类方法，其特征在于：所述方法具体过程为：步骤一：利用特征与响应变量之间的互信息获得预先提取的特征之间的相关性；步骤二：确定特征之间的相关性，根据特征之间的相关性确定特征之间的冗余度，并根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征；按照预先设定的次数m次迭代确定m个得分最高的特征作为最终的特征向量；步骤三：根据分类目标构建分类模型并得到特征强相关网络流量分类结果。2.根据权利要求1所述的一种基于特征强相关的网络流量分类方法，其特征在于：所述步骤二中利用特征与响应变量之间的互信息获得特征之间的相关性，具体过程为：假定X和Y表示两个随机变量，则特征与响应变量之间的互信息公式如下所示：其中，ΩX和ΩY分别是随机变量X和Y的样本空间，p(x,y)是联合概率密度函数，p(x)和p(y)是边缘概率密度函数；特征的相关性RS计算公式为：其中，c∈C＝{+1,-1}表示类变量，S表示数据的特征向量集F的子集，fi为特征向量集F中的一个特征向量。3.根据权利要求2所述的一种基于特征强相关的网络流量分类方法，其特征在于：所述步骤三中根据特征之间的相关性确定特征之间的冗余度的公式为：其中，fi,fj分别为子集S中的特征。4.根据权利...

【专利技术属性】
技术研发人员：张登银，吴思远，丁飞，赵莎莎，张恩轩，郭诗源，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人