基于信息增益的特征选择方法、装置及存储介质制造方法及图纸

技术编号:20843427 阅读:21 留言:0更新日期:2019-04-13 08:50
本发明专利技术实施例公开了一种基于信息增益的特征选择方法、装置及存储介质,涉及网络安全领域。本发明专利技术的方法包括:计算初始特征集中的信息增益值;按照信息增益值由大到小的顺序对所述各特征进行排序;根据所述排序结果,利用支持向量机SVM分类器依次获得特征测评值;基于各特征测评值,在所述初始特征集中选择满足预设条件的至少一个特征作为目标特征。本发明专利技术能够降低特征处理的计算复杂度。

【技术实现步骤摘要】
基于信息增益的特征选择方法、装置及存储介质
本专利技术涉及网络安全领域,尤其涉及一种基于信息增益的特征选择方法、装置及存储介质。
技术介绍
随着移动终端的使用普及,对移动终端进行高效迅速的网络安全分析及潜在风险隐患分析,成为目前亟待实现的技术手段。目前,在入侵检测系统中通过对移动数据进行特征提取及分析,以实现对移动终端的网络安全及潜在风险隐患进行分析。然而,目前进行网络安全分析所考虑的移动数据的特征量大,计算分析的复杂度高。
技术实现思路
本专利技术的实施例提供一种基于信息增益的特征选择方法、装置及存储介质,能够降低特征处理的计算复杂度。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种基于信息增益的特征选择方法,包括:计算初始特征集中的信息增益值;按照信息增益值由大到小的顺序对所述各特征进行排序;根据所述排序结果,利用支持向量机SVM分类器依次获得特征测评值;基于各特征测评值,在所述初始特征集中选择满足预设条件的至少一个特征作为目标特征。结合第一方面,在第一方面的第一种可能的实现方式中,所述根据所述排序结果,利用SVM分类器依次获得特征测评值之前,还包括:基于样本数据集中的特征测评值和已选取的目标特征之间的信息相关性,构建所述SVM分类器。结合第一方面,在第一方面的第二种可能的实现方式中,所述基于各特征测评值,在所述初始特征集中选择满足预设条件的至少一个特征作为目标特征,包括:在所述初始特征集中,选择特征测评值最大的一个特征作为所述目标特征;或,在所述初始特征集中,选择特征测评值最大的多个特征作为所述目标特征;或,在所述初始特征集中,选择特征测评值大于或等于预设阈值的特征作为所述目标特征。结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,在所述初始特征集中,选择特征测评值最大的多个特征作为所述目标特征,包括:在所述初始特征集中,选择特征测评值最大的3个特征或6个特征,作为所述目标特征。结合第一方面,在第一方面的第四种可能的实现方式中,所述特征测评值为检测率与误报率之间的比值;所述方法还包括:基于所述目标特征,对当前网络进行入侵检测分析。第二方面,本专利技术的实施例提供一种基于信息增益的特征选择装置,包括:计算模块,用于计算初始特征集中的信息增益值;排序模块,用于按照信息增益值由大到小的顺序对所述各特征进行排序;测评模块,用于根据所述排序结果,利用支持向量机SVM分类器依次获得特征测评值;选择模块,用于基于各特征测评值,在所述初始特征集中选择满足预设条件的至少一个特征作为目标特征。结合第二方面,在第二方面的第一种可能的实现方式中,所述装置还包括:构建模块,用于基于样本数据集中的特征测评值和已选取的目标特征之间的信息相关性,构建所述SVM分类器。结合第二方面,在第二方面的第二种可能的实现方式中,所述选择模块,还用于在所述初始特征集中,选择特征测评值最大的一个特征作为所述目标特征;或,在所述初始特征集中,选择特征测评值最大的多个特征作为所述目标特征;或,在所述初始特征集中,选择特征测评值大于或等于预设阈值的特征作为所述目标特征。结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述选择模块,还用于在所述初始特征集中,选择特征测评值最大的3个特征或6个特征,作为所述目标特征。结合第二方面,在第二方面的第四种可能的实现方式中,所述测评模块获得的所述特征测评值为检测率与误报率之间的比值;所述装置还包括:分析模块,用于基于所述目标特征,对当前网络进行入侵检测分析。第三方面,本专利技术的实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现第一方面提供的方法的步骤。本专利技术实施例提供的基于信息增益的特征选择方法、装置及存储介质,通过计算初始特征集中的信息增益值;按照信息增益值由大到小的顺序对所述各特征进行排序;根据所述排序结果,利用支持向量机SVM分类器依次获得特征测评值;基于各特征测评值,在所述初始特征集中选择满足预设条件的至少一个特征作为目标特征。能够基于信息增益在庞大的特征数据中进行特征选择,即利用信息增益进行特征过滤,可以在考虑到特征测评值与已选取特征子集之间的信息相关性的同时,降低特征处理的计算复杂度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例的基于信息增益的特征选择方法的流程示意图;图2是本专利技术实施例的基于信息增益的特征选择方法的另一流程示意图;图3是本专利技术实施例的基于信息增益的特征选择装置结构示意图;图4是本专利技术实施例的基于信息增益的特征选择装置的另一结构示意图;图5是本专利技术实施例的基于信息增益的特征选择装置500的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术一实施例提供一种基于信息增益的特征选择方法,如图1所示,所述方法包括:101、计算初始特征集中的信息增益值。对于本专利技术实施例,信息增益的衡量标准是指特征能够为分类系统带来多少信息,若带来的信息越多,则该特征越重要。对一个特征而言,系统中包括该特征时的信息量与不包括该特征时的信息量之间的差值,即该特征带给系统的信息量。102、按照信息增益值由大到小的顺序对所述各特征进行排序。103、根据所述排序结果,利用支持向量机SVM分类器依次获得特征测评值。其中,SVM(SupportVectorMachine,支持向量机)是一个有监督的学习模型,用于进行模式识别、分类以及回归分析。对于本专利技术实施例,所述特征测评值为检测率与误报率之间的比值,即特征测评值=检测率/误报率。104、基于各特征测评值,在所述初始特征集中选择满足预设条件的至少一个特征作为目标特征。在入侵检测系统中,通过特征选择,即从网络数据集中筛选出对分类器分类性能影响最重要的最优特征子集,可以降低特征的维数,从而可以提高入侵检测系统效率。与现有技术相比,本专利技术实施例能够基于信息增益在庞大的特征数据中进行特征选择,即利用信息增益进行特征过滤,可以在考虑到特征测评值与已选取特征子集之间的信息相关性的同时,降低特征处理的计算复杂度。本专利技术又一实施例提供一种基于信息增益的特征选择方法,如图2所示,所述方法包括:201、计算初始特征集中的信息增益值。对于本专利技术实施例,信息增益的衡量标准是指特征能够为分类系统带来多少信息,若带来的信息越多,则该特征越重要。对一个特征而言,系统中包括该特征时的信息量与不包括该特征时的信息量之间的差值,即该特征带给系统的信息量。202、按照信息增益值由大到小的顺序对所述各特征进行排序。203、基于样本数据集中的特征测评值和已选取的目标特征之间的信息相关性,构建所述SVM分类器。204、根据所述排序结果,利用支持向量机SVM本文档来自技高网...

【技术保护点】
1.一种基于信息增益的特征选择方法,其特征在于,包括:计算初始特征集中的信息增益值;按照信息增益值由大到小的顺序对所述各特征进行排序;根据所述排序结果,利用支持向量机SVM分类器依次获得特征测评值;基于各特征测评值,在所述初始特征集中选择满足预设条件的至少一个特征作为目标特征。

【技术特征摘要】
1.一种基于信息增益的特征选择方法,其特征在于,包括:计算初始特征集中的信息增益值;按照信息增益值由大到小的顺序对所述各特征进行排序;根据所述排序结果,利用支持向量机SVM分类器依次获得特征测评值;基于各特征测评值,在所述初始特征集中选择满足预设条件的至少一个特征作为目标特征。2.根据权利要求1所述的基于信息增益的特征选择方法,其特征在于,所述根据所述排序结果,利用SVM分类器依次获得特征测评值之前,还包括:基于样本数据集中的特征测评值和已选取的目标特征之间的信息相关性,构建所述SVM分类器。3.根据权利要求1所述的基于信息增益的特征选择方法,其特征在于,所述基于各特征测评值,在所述初始特征集中选择满足预设条件的至少一个特征作为目标特征,包括:在所述初始特征集中,选择特征测评值最大的一个特征作为所述目标特征;或,在所述初始特征集中,选择特征测评值最大的多个特征作为所述目标特征;或,在所述初始特征集中,选择特征测评值大于或等于预设阈值的特征作为所述目标特征。4.根据权利要求3所述的基于信息增益的特征选择方法,其特征在于,在所述初始特征集中,选择特征测评值最大的多个特征作为所述目标特征,包括:在所述初始特征集中,选择特征测评值最大的3个特征或6个特征,作为所述目标特征。5.根据权利要求1所述的基于信息增益的特征选择方法,其特征在于,所述特征测评值为检测率与误报率之间的比值;所述方法还包括:基于所述目标特征,对当前网络进行入侵检测分析。6.一种基于信息增益的特...

【专利技术属性】
技术研发人员:魏金侠龙春万巍赵静杨帆
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1