The invention discloses a method for selecting statistical features of mobile App traffic. The method includes: S1, obtaining the original mobile App traffic data set, extracting the flow statistical characteristics of mobile App traffic, obtaining the labeled data set LD for training, and the unmarked data set UD to be classified; S2, using the information gain rate on the LD data set, evaluating the area of each flow statistical feature between classes. Separation capability; S3, calculating the value distribution of each flow statistical feature on LD and UD datasets, using Hellinger distance to evaluate the difference of distribution of feature values and to evaluate the drift degree of flow statistical feature; S4, calculating the comprehensive evaluation value of flow statistical feature by taking drift degree as a penalty factor of discriminating ability; S5, based on Comprehensive evaluation value, searching discrimination ability is strong and drift degree is low. Flow statistical feature subset. The method of the invention relates to mobile App traffic classification technology in the field of mobile Internet traffic measurement, which reduces data dimension and improves classification robustness.
【技术实现步骤摘要】
一种移动App流量统计特征选择方法
本专利技术涉及流量测量领域的流量分类
,具体涉及一种移动App流量统计特征选择方法。
技术介绍
基于机器学习的移动App流量分类技术描述为:对原始流量基于五元组{源IP、目的IP、源端口、目的端口、传输层协议}组流,对流提取流统计特征建立流样本集合,用于训练分类模型。多种流统计特征已经被提出,例如Moore等人在2005年提出248个流统计特征(A.Moore,D.Zuev,M.Crogan.Discriminatorsforuseinflow-basedclassification.QueenMaryandWestfieldCollege,DepartmentofComputerScience,2005.),包括:报文大小的统计特征(最小、最大、均值、中间值、标准差)、报文到达时间间隔的统计特征(最小、最大、均值、中间值、标准差)、特殊报文数(PUSH报文、ACK报文等)等。流统计特征集合可能存在与分类无关或冗余的特征,为降低分类模型的训练开销和提高分类性能,特征选择通常作为分类模型的预处理(Z.Liu,R.Wang,M.Tao,etal.Aclass-orientedfeatureselectionapproachformulti-classimbalancednetworktrafficdatasetsbasedonlocalandglobalmetricsfusion.Neurocomputing,2015,168:365-381.)。在互联网流量分类领域,信息增益率等特征选择算法已被用于选择流统计特征,但 ...
【技术保护点】
1.一种移动App流量统计特征选择方法,其特征在于,包括下述步骤:步骤S1、获取移动App的原始流量数据集,提取移动App流量的流统计特征,获取用于训练的有标记数据集LD,以及待分类的无标记数据集UD;步骤S2、在LD数据集上,利用信息增益率,评估每个流统计特征在类间的区分能力;步骤S3、在LD和UD数据集上,计算每个流统计特征的取值分布,利用Hellinger距离评估特征取值分布差异性,评估流统计特征的漂移程度;步骤S4、将漂移程度作为特征区分能力的惩罚因子,计算流统计特征的综合评估值;步骤S5、基于综合评估值,搜索区分能力强且漂移程度低的流统计特征子集。
【技术特征摘要】
1.一种移动App流量统计特征选择方法,其特征在于,包括下述步骤:步骤S1、获取移动App的原始流量数据集,提取移动App流量的流统计特征,获取用于训练的有标记数据集LD,以及待分类的无标记数据集UD;步骤S2、在LD数据集上,利用信息增益率,评估每个流统计特征在类间的区分能力;步骤S3、在LD和UD数据集上,计算每个流统计特征的取值分布,利用Hellinger距离评估特征取值分布差异性,评估流统计特征的漂移程度;步骤S4、将漂移程度作为特征区分能力的惩罚因子,计算流统计特征的综合评估值;步骤S5、基于综合评估值,搜索区分能力强且漂移程度低的流统计特征子集。2.根据权利要求1所述的移动App流量统计特征选择方法,其特征在于,步骤S1中所述提取移动App流量的流统计特征,具体包括下述步骤:步骤S11、获取移动App的原始PCAP流量数据,根据五元组{源IP、源端口、目的IP、目的端口},对一定时间间隔内具有相同五元组的TCP/UDP报文进行组流;步骤S12、对属于同一条流的报文计算流统计特征,具体采用相邻报文大小差值的最小值、最大值进行统计计算。3.根据权利要求1所述的移动App流量统计特征选择方法,其特征在于,步骤S1中,LD数据集的每条网络流有App类别标签,UD数据集的每条流没有App类别标签;数据采集过程中,在移动设备端记录会话信息,会话信息包括:五元组、会话创建或结束时间、会话活动状态、以及创建会话的App;在标记网络流时,查找会话信息记录中,五元组相同且时间戳最接近的App作为网络流的类别标签。4.根据权利要求1所述的移动App流量统计特征选择方法,其特征在于,步骤S2,具体包括下述步骤:步骤S21、在LD数据集上,采用有监督的最小描述长度方法离散化每个流统计特征fi,i=1,2,..,m,m表示特征个数;步骤S22、在LD数据集上,计算每个流统计特征的信息增益率GR(LD,fi),表征流统计特征fi在类间的区分能力dis(fi),信息增益率越大表明该特征有利于确定类别取值,即在类间的区分能力越强;所述信息增益率的计算公式如下:其中V(fi)表示特征fi的取值域,LDv表示LD数据集中特征fi取值为第v个值的样本集合;Entropy(LD)和Entropy(LDv)分别表示LD和LDv数据集上类别的信息熵;LDk表示类别Ck的样本集合,k表示类别序号,LDvk表示来自Ck类别中特征fi取值为第v个值的样本集合。5.根据权利要求4所述的移动App流量统计特征选择方法,其特征在于,步骤S3,具体包括下述步骤:步骤S31、采用无监督的简单取值域方法离散化LD和UD数据集的每个流统计特征fi的取值,i=1,2,..,m,m表示特征个数;步骤S32、在LD数据集上计算每个流统计特征fi的取值分布Prob(fi|LD),表示为:Prob(fi|LD)={p(r1),...,p(rn)},其中p(rj)表示特征fi在LD数据集上的取值分布,j=1,…,n,n=li,li表示LD数据集上特征fi的取值个数;步骤S33、在UD数据集上计算每个流统计特征fi的取值分布Prob(fi|UD),表示为:Prob(fi|UD)={p'(r1),...,p'(rn)},其中p'(rj)表示特征fi在UD数据集上的取值分布,j=1,…,n,n=li,li表示UD数据集上特征fi的取值个数;步骤S34、利用Hellinger距离,计算流统计特征fi在LD和UD数据集上的取值分布的差异性,用于评估特征fi的漂移程度;Hellinger距离记为HD,具体计算如下:每个特征fi的漂移程度:drift(fi)=HDi。6.根据权利要求5所述的移动App流量统计特征选择方法,其特征在于,步骤S4中,所述流统计特征的综合评估值表示为:其中,dis(fi)表示特征fi的类间区分能力,drift...
【专利技术属性】
技术研发人员:王若愚,张凌,刘珍,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。