一种移动App流量统计特征选择方法技术

技术编号:20493546 阅读:41 留言:0更新日期:2019-03-02 23:24
本发明专利技术公开了一种移动App流量统计特征选择方法,该方法包括:S1、获取原始移动App的流量数据集,提取移动App流量的流统计特征,获取用于训练的有标记数据集LD,以及待分类的无标记数据集UD;S2、在LD数据集上,利用信息增益率,评估每个流统计特征在类间的区分能力;S3、在LD和UD数据集上,计算每个流统计特征的取值分布,利用Hellinger距离评估特征取值分布差异性,评估流统计特征的漂移程度;S4、将漂移程度作为区分能力的惩罚因子,计算流统计特征的综合评估值;S5、基于综合评估值,搜索区分能力强且漂移程度低的流统计特征子集。本发明专利技术的方法涉及移动互联网流量测量领域的移动App流量分类技术,降低数据维度,并提高分类鲁棒性能。

A Statistical Feature Selection Method for Mobile App Traffic

The invention discloses a method for selecting statistical features of mobile App traffic. The method includes: S1, obtaining the original mobile App traffic data set, extracting the flow statistical characteristics of mobile App traffic, obtaining the labeled data set LD for training, and the unmarked data set UD to be classified; S2, using the information gain rate on the LD data set, evaluating the area of each flow statistical feature between classes. Separation capability; S3, calculating the value distribution of each flow statistical feature on LD and UD datasets, using Hellinger distance to evaluate the difference of distribution of feature values and to evaluate the drift degree of flow statistical feature; S4, calculating the comprehensive evaluation value of flow statistical feature by taking drift degree as a penalty factor of discriminating ability; S5, based on Comprehensive evaluation value, searching discrimination ability is strong and drift degree is low. Flow statistical feature subset. The method of the invention relates to mobile App traffic classification technology in the field of mobile Internet traffic measurement, which reduces data dimension and improves classification robustness.

【技术实现步骤摘要】
一种移动App流量统计特征选择方法
本专利技术涉及流量测量领域的流量分类
,具体涉及一种移动App流量统计特征选择方法。
技术介绍
基于机器学习的移动App流量分类技术描述为:对原始流量基于五元组{源IP、目的IP、源端口、目的端口、传输层协议}组流,对流提取流统计特征建立流样本集合,用于训练分类模型。多种流统计特征已经被提出,例如Moore等人在2005年提出248个流统计特征(A.Moore,D.Zuev,M.Crogan.Discriminatorsforuseinflow-basedclassification.QueenMaryandWestfieldCollege,DepartmentofComputerScience,2005.),包括:报文大小的统计特征(最小、最大、均值、中间值、标准差)、报文到达时间间隔的统计特征(最小、最大、均值、中间值、标准差)、特殊报文数(PUSH报文、ACK报文等)等。流统计特征集合可能存在与分类无关或冗余的特征,为降低分类模型的训练开销和提高分类性能,特征选择通常作为分类模型的预处理(Z.Liu,R.Wang,M.Tao,etal.Aclass-orientedfeatureselectionapproachformulti-classimbalancednetworktrafficdatasetsbasedonlocalandglobalmetricsfusion.Neurocomputing,2015,168:365-381.)。在互联网流量分类领域,信息增益率等特征选择算法已被用于选择流统计特征,但这些算法仅关注特征在类间的区分能力,忽略了互联网流量的动态特性导致的特征不稳定问题。Zhang等人提出SRSF特征选择算法,此算法在多个训练集上利用WSU_AUC指标分别选择一个特征子集,再从多个子集中选择出现频率较高的特征加入最终的特征子集(H.Zhang,G.Lu,M.T.Qassrawi,etal.Featureselectionforoptimizingtrafficclassification.ComputerCommunications,2012,35(12):1457-1471)。Fahad等人提出GOA特征选择算法,此算法通过多个特征评估指标(例如信息熵、信息增益率、卡方等)分别选择一个最优的特征子集,然后搜索具有较高出现频率的特征加入最终的特征子集(A.Fahad,Z.Tari,I.Khalil,A.Almalawi,Anoptimalandstablefeatureselectionapproachfortrafficclassificationbasedonmulti-criterionfusion,FutureGener.Comput.Syst.36(2014):156–169)。上述特征选择算法间接地考虑了特征稳定性问题,但是没有提出特征稳定性的评估指标。专利CN201410352930.3提供了一种基于杜鹃搜索算法的对等网络流量统计特征选择方法,对对等网络数据集,利用杜鹃搜索算法进行特征选择,剔除不相关或冗余的对等网络流量特征,取出真正相关的特征,节省对等网络流量识别中特征提取的计算时间,从而提高对等网络流量识别的效率和正确率。该专利技术尽管针对网络流量数据,剔除了冗余特征,但是没有分析特征的稳定性,不能用于选择较为稳定的特征子集。
技术实现思路
本专利技术的目的在于克服现有技术中的缺点与不足,提供一种移动App流量统计特征选择方法,选择区分能力强且稳定性高的特征集合。为实现以上目的,本专利技术采取如下技术方案:一种移动App流量统计特征选择方法,包括下述步骤:步骤S1、获取移动App的原始流量数据集,提取移动App流量的流统计特征,获取用于训练的有标记数据集LD,以及待分类的无标记数据集UD;步骤S2、在LD数据集上,利用信息增益率,评估每个流统计特征在类间的区分能力;步骤S3、在LD和UD数据集上,计算每个流统计特征的取值分布,利用Hellinger距离评估特征取值分布差异性,评估流统计特征的漂移程度;步骤S4、将漂移程度作为特征区分能力的惩罚因子,计算流统计特征的综合评估值;步骤S5、基于综合评估值,搜索区分能力强且漂移程度低的流统计特征子集。作为优选的技术方案,步骤S1中所述提取移动App流量的流统计特征,具体包括下述步骤:步骤S11、获取移动App的原始PCAP流量数据,根据五元组{源IP、源端口、目的IP、目的端口},对一定时间间隔内具有相同五元组的TCP/UDP报文进行组流;步骤S12、对属于同一条流的报文计算流统计特征,具体采用相邻报文大小差值的最小值、最大值进行统计计算。作为优选的技术方案,步骤S1中,LD数据集的每条网络流有App类别标签,UD数据集的每条流没有App类别标签;数据采集过程中,在移动设备端记录会话信息,会话信息包括:五元组、会话创建或结束时间、会话活动状态、以及创建会话的App;在标记网络流时,查找会话信息记录中,五元组相同且时间戳最接近的App作为网络流的类别标签。作为优选的技术方案,步骤S2,具体包括下述步骤:步骤S21、在LD数据集上,采用有监督的最小描述长度方法离散化每个流统计特征fi,i=1,2,..,m,m表示特征个数;步骤S22、在LD数据集上,计算每个流统计特征的信息增益率GR(LD,fi),表征流统计特征fi在类间的区分能力dis(fi),信息增益率越大表明该特征有利于确定类别取值,即在类间的区分能力越强;所述信息增益率的计算公式如下:其中V(fi)表示特征fi的取值域,LDv表示LD数据集中特征fi取值为第v个值的样本集合;Entropy(LD)和Entropy(LDv)分别表示LD和LDv数据集上类别的信息熵;LDk表示类别Ck的样本集合,k表示类别序号,LDvk表示来自Ck类别中特征fi取值为第v个值的样本集合。作为优选的技术方案,步骤S3,具体包括下述步骤:步骤S31、采用无监督的简单取值域方法离散化LD和UD数据集的每个流统计特征fi的取值,i=1,2,..,m,m表示特征个数;步骤S32、在LD数据集上计算每个流统计特征fi的取值分布Prob(fi|LD),表示为:Prob(fi|LD)={p(r1),...,p(rn)},其中p(rj)表示特征fi在LD数据集上的取值分布,j=1,…,n,n=li,li表示LD数据集上特征fi的取值个数;步骤S33、在UD数据集上计算每个流统计特征fi的取值分布Prob(fi|UD),表示为:Prob(fi|UD)={p'(r1),...,p'(rn)},其中p'(rj)表示特征fi在UD数据集上的取值分布,j=1,…,n,n=li,li表示UD数据集上特征fi的取值个数;步骤S34、利用Hellinger距离,计算流统计特征fi在LD和UD数据集上的取值分布的差异性,用于评估特征fi的漂移程度;Hellinger距离记为HD,具体计算如下:每个特征fi的漂移程度:drift(fi)=HDi。作为优选的技术方案,步骤S4中,所述流统计特征的综合评估值表示为:其中,dis(fi)表示特征fi的类间区分能力,drift(fi)表示特本文档来自技高网
...

【技术保护点】
1.一种移动App流量统计特征选择方法,其特征在于,包括下述步骤:步骤S1、获取移动App的原始流量数据集,提取移动App流量的流统计特征,获取用于训练的有标记数据集LD,以及待分类的无标记数据集UD;步骤S2、在LD数据集上,利用信息增益率,评估每个流统计特征在类间的区分能力;步骤S3、在LD和UD数据集上,计算每个流统计特征的取值分布,利用Hellinger距离评估特征取值分布差异性,评估流统计特征的漂移程度;步骤S4、将漂移程度作为特征区分能力的惩罚因子,计算流统计特征的综合评估值;步骤S5、基于综合评估值,搜索区分能力强且漂移程度低的流统计特征子集。

【技术特征摘要】
1.一种移动App流量统计特征选择方法,其特征在于,包括下述步骤:步骤S1、获取移动App的原始流量数据集,提取移动App流量的流统计特征,获取用于训练的有标记数据集LD,以及待分类的无标记数据集UD;步骤S2、在LD数据集上,利用信息增益率,评估每个流统计特征在类间的区分能力;步骤S3、在LD和UD数据集上,计算每个流统计特征的取值分布,利用Hellinger距离评估特征取值分布差异性,评估流统计特征的漂移程度;步骤S4、将漂移程度作为特征区分能力的惩罚因子,计算流统计特征的综合评估值;步骤S5、基于综合评估值,搜索区分能力强且漂移程度低的流统计特征子集。2.根据权利要求1所述的移动App流量统计特征选择方法,其特征在于,步骤S1中所述提取移动App流量的流统计特征,具体包括下述步骤:步骤S11、获取移动App的原始PCAP流量数据,根据五元组{源IP、源端口、目的IP、目的端口},对一定时间间隔内具有相同五元组的TCP/UDP报文进行组流;步骤S12、对属于同一条流的报文计算流统计特征,具体采用相邻报文大小差值的最小值、最大值进行统计计算。3.根据权利要求1所述的移动App流量统计特征选择方法,其特征在于,步骤S1中,LD数据集的每条网络流有App类别标签,UD数据集的每条流没有App类别标签;数据采集过程中,在移动设备端记录会话信息,会话信息包括:五元组、会话创建或结束时间、会话活动状态、以及创建会话的App;在标记网络流时,查找会话信息记录中,五元组相同且时间戳最接近的App作为网络流的类别标签。4.根据权利要求1所述的移动App流量统计特征选择方法,其特征在于,步骤S2,具体包括下述步骤:步骤S21、在LD数据集上,采用有监督的最小描述长度方法离散化每个流统计特征fi,i=1,2,..,m,m表示特征个数;步骤S22、在LD数据集上,计算每个流统计特征的信息增益率GR(LD,fi),表征流统计特征fi在类间的区分能力dis(fi),信息增益率越大表明该特征有利于确定类别取值,即在类间的区分能力越强;所述信息增益率的计算公式如下:其中V(fi)表示特征fi的取值域,LDv表示LD数据集中特征fi取值为第v个值的样本集合;Entropy(LD)和Entropy(LDv)分别表示LD和LDv数据集上类别的信息熵;LDk表示类别Ck的样本集合,k表示类别序号,LDvk表示来自Ck类别中特征fi取值为第v个值的样本集合。5.根据权利要求4所述的移动App流量统计特征选择方法,其特征在于,步骤S3,具体包括下述步骤:步骤S31、采用无监督的简单取值域方法离散化LD和UD数据集的每个流统计特征fi的取值,i=1,2,..,m,m表示特征个数;步骤S32、在LD数据集上计算每个流统计特征fi的取值分布Prob(fi|LD),表示为:Prob(fi|LD)={p(r1),...,p(rn)},其中p(rj)表示特征fi在LD数据集上的取值分布,j=1,…,n,n=li,li表示LD数据集上特征fi的取值个数;步骤S33、在UD数据集上计算每个流统计特征fi的取值分布Prob(fi|UD),表示为:Prob(fi|UD)={p'(r1),...,p'(rn)},其中p'(rj)表示特征fi在UD数据集上的取值分布,j=1,…,n,n=li,li表示UD数据集上特征fi的取值个数;步骤S34、利用Hellinger距离,计算流统计特征fi在LD和UD数据集上的取值分布的差异性,用于评估特征fi的漂移程度;Hellinger距离记为HD,具体计算如下:每个特征fi的漂移程度:drift(fi)=HDi。6.根据权利要求5所述的移动App流量统计特征选择方法,其特征在于,步骤S4中,所述流统计特征的综合评估值表示为:其中,dis(fi)表示特征fi的类间区分能力,drift...

【专利技术属性】
技术研发人员:王若愚张凌刘珍
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1