一种特征筛选方法以及特征筛选装置制造方法及图纸

技术编号:21142070 阅读:26 留言:0更新日期:2019-05-18 05:26
本申请提供了一种特征筛选方法以及特征筛选装置,其中,该方法包括:获取m个训练样本分别在N个待选特征下的特征值,以及所述m个训练样本对应的分类标签;所述m、N分别为大于0的整数;确定所述N个待选特征中每个待选特征的重要性度量值;根据每个待选特征的重要性度量值,确定多个特征集合;针对每个特征集合:使用m个训练样本在该特征集合包含的每个待选特征下的特征值和所述m个待选特征对应的分类标签,训练分类模型,获得该特征集合对应的分类准确率;将分类准确率最高的特征集合包含的待选特征确定为选定特征。本申请实施例能够有针对性的从待选特征中确定选定特征,达到效率更高,且能够达到更高的筛选效果。

A Feature Screening Method and Device

【技术实现步骤摘要】
一种特征筛选方法以及特征筛选装置
本申请涉及深度学习
,具体而言,涉及一种特征筛选方法以及特征筛选装置。
技术介绍
相关技术中,在机器学习领域,为了实现对目标分类模型的训练,通常需要确定一个或者多个能够对该目标分类模型的输出造成影响的目标特征,然后根据各个训练样本在确定的各个特征下的特征值,生成与各个训练样本对应的特征向量,并基于生成的特征向量实现对目标分类模型的训练。目前的特征确定方法,通常是基于目标分类模型训练过程来实现的,也即确定多个可能对目标分类模型的输出造成影响的待选特征,并根据确定的多个待选特征,随机或者基于穷举算法形成多个不同的待选特征组合。然后针对每个待选特征组合,构建与该待选特征组合对应的待选特征向量,并基于待选特征向量对目标分类模型进行训练。之后再使用验证集对各个待选特征组合分别对应的目标模型进行验证,并将其中精度最高的目标分类模型对应的待选特征集合中的各个待选特征,确定为与该目标分类模型对应的选定特征。当前的特征筛选存在效率低,且无法达到较好的筛选效果的问题。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种特征筛选方法以及特征筛选装置,能够有针对性的从待选特征中确定选定特征,达到效率更高,且能够达到更高的筛选效果。第一方面,本申请实施例提供了一种特征筛选方法,包括:获取m个训练样本分别在N个待选特征下的特征值,以及所述m个训练样本对应的分类标签;所述m、N分别为大于0的整数;确定所述N个待选特征中每个待选特征的重要性度量值;根据每个待选特征的重要性度量值,确定多个特征集合;针对每个特征集合:使用m个训练样本在该特征集合包含的每个待选特征下的特征值和所述m个待选特征对应的分类标签,训练分类模型,获得该特征集合对应的分类准确率;将分类准确率最高的特征集合包含的待选特征确定为选定特征。第二方面,本申请实施例提供一种特征筛选装置,包括:获取模块,用于获取m个训练样本分别在N个待选特征下的特征值,以及所述m个训练样本对应的分类标签;所述m、N分别为大于0的整数;确定模块,用于确定所述N个待选特征中每个待选特征的重要性度量值;筛选模块,用于根据每个待选特征的重要性度量值,确定多个特征集合;以及针对每个特征集合:使用m个训练样本在该特征集合包含的每个待选特征下的特征值和所述m个待选特征对应的分类标签,训练分类模型,获得分类准确率;将分类准确率最高的特征集合包含的待选特征确定为选定特征。本申请实施例通过多个训练样本分别在不同的待选特征下的特征值,以及对应的分类标签,确定每个待选特征的重要性度量值,然后根据每个待选特征的重要性度量值,确定多个特征集合,然后获得每个特征集合对应的分类准确率,并将分类准确率最高的特征集合包含的待选特征确定为选定特征,从而能够有针对性的从待选特征中确定选定特征,较之现有技术中的盲目确定待选特征组合再行验证的过程,效率更高,且能够达到更高的筛选效果。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例一所提供的一种特征筛选方法的流程图;图2示出了本申请各实施例所提供的特征筛选方法中,确定每个待选特征的重要性度量值的具体方法的流程图;图3示出了本申请实施例二所提供的特征筛选方法应用于无线网络性能评价时,构成的每个特征集合的分类准确率的示意图;图4示出了本申请实施例三所提供的一种特征筛选装置的示意图;图5示出了本申请实施例四所提供的一种计算机设备的示意图。具体实施方式以对无线网络的性能进行评价为例,无线网络具有覆盖范围广、信息需求高、用户数量庞大、网络应用丰富等特点,这就对网络性能提出了很高的要求。通过对无线网络的网络性能进行分析和评估为网络管理员提供优化调整网络的数据,已经成为了无线网络管理的一个共识。由于影响网络性能的因素复杂,而且评价网络性能所使用特征很多,如何选择合适的特征以对网络性能作出客观的评价,则显得尤为重要。当前在对无线网路性能进行评价的时候,通常需要先确定多个待选特征,然后采用随机或者穷举的方式根据多个待选特征,生成不同的待选特征组合,并基于不同的待选特征组合,分别训练一个网络性能评价模型,然后基于验证数据对各个网络性能评价模型的精度进行验证,并将其中精度符合要求的网络性能评价模型对应的待选特征组合,确定为评价网络性能的选定特征组合。这种特征确定方法由于在构建待选特征组合时的盲目性,造成了该种特征确定方法存在效率低,且无法达到最佳筛选效果的问题。与相关技术不同,本申请实施例通过确定每个待选特征的重要性度量值,并根据每个待选特征的重要性度量值来从不同的待选特征中筛选出用于模型训练和应用的待选特征,能够有针对性的构建特征集合,并对特征集合对应的分类准确率进行验证,从而能以更少的时间和更高的效率,确定选定特征。下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。为便于对本实施例进行理解,首先对本申请实施例所公开的一种特征筛选方法进行详细介绍。需要注意的是,本申请实施例提供的特征筛选方法,可以用于所有需要进行特征筛选的场景,本申请实施例以应用于无线网络性能评价场景对该特征筛选方法加以说明。实施例一参见图1所示,为本申请实施例一提供的特征筛选方法的流程图,方法包括步骤S101~S103,其中:S101:获取m个训练样本分别在N个待选特征下的特征值,以及m个训练样本对应的分类标签。在具体实施中,m、N分别为大于0的整数。针对不同的应用场景,所确定的待选特征会有所区别;在确定待选特征的时候,可以将当前应用场景中可能会对模型输出结果造成影响的特征都确定为待选特征,也可以从这些特征中针对性的筛选部分特征作为待选。示例性的,将该方法应用于无线网络性能评价的时候,待选特征为可能会无线网络性能评估模型的评估结果造成影响的所有特征,所确定的选定特征用于无线网络性能评估,待选特征例如包括:信号强度、时延、错包率、丢包率、重传率、上行速率比、下行速率比、信道利用率、漫游次数、终端类型、协议类型、单播流量和连接时间点中一种或者多种。不同分类标签分别对应模型输出的不同结果。例如,将该方法应用于无线网络性能评价的时候,分类标签包括:“正常”和“差”两种。又例如,将该方法应用于对道路的拥堵情况进行预估的时候,分类标签包括:“拥堵”、“缓行”以及“畅通”三种。示例性的,当本申请实施例提供的特征筛选方法应用于无线网络性能评价时,训练样本是从预设时间段内的通过目标无线接入点(A本文档来自技高网...

【技术保护点】
1.一种特征筛选方法,其特征在于,包括:获取m个训练样本分别在N个待选特征下的特征值,以及所述m个训练样本对应的分类标签;所述m、N分别为大于0的整数;确定所述N个待选特征中每个待选特征的重要性度量值;根据每个待选特征的重要性度量值,确定多个特征集合;针对每个特征集合:使用m个训练样本在该特征集合包含的每个待选特征下的特征值和所述m个待选特征对应的分类标签,训练分类模型,获得该特征集合对应的分类准确率;将分类准确率最高的特征集合包含的待选特征确定为选定特征。

【技术特征摘要】
1.一种特征筛选方法,其特征在于,包括:获取m个训练样本分别在N个待选特征下的特征值,以及所述m个训练样本对应的分类标签;所述m、N分别为大于0的整数;确定所述N个待选特征中每个待选特征的重要性度量值;根据每个待选特征的重要性度量值,确定多个特征集合;针对每个特征集合:使用m个训练样本在该特征集合包含的每个待选特征下的特征值和所述m个待选特征对应的分类标签,训练分类模型,获得该特征集合对应的分类准确率;将分类准确率最高的特征集合包含的待选特征确定为选定特征。2.根据权利要求1所述的方法,其特征在于,所述多个特征集合中每个特征集合包含的待选特征数量不同;并且,对于任意两个特征集合:待选特征数量多的第一特征集合包含待选特征数量少的第二特征集合中的待选特征;且属于第一特征集合、但不属于第二特征集合的待选特征的重要性度量值,小于第二特征集合中的待选特征的重要性度量值。3.根据权利要求1所述的方法,其特征在于,确定待选特征的重要性度量值,包括:针对任意一个待选特征:根据各个所述训练样本在该待选特征下的特征值,确定该待选特征的信息熵;以及根据各个所述训练样本在该待选特征下的特征值以及对应的所述分类标签,确定该待选特征的不确定性信息;根据该待选特征的信息熵,以及该待选特征的不确定性信息,确定该待选特征的重要性度量值。4.根据权利要求3所述的方法,其特征在于,所述确定待选特征的信息熵,包括:确定每个训练样本在该待选特征下的特征值对应的概率密度;根据每个训练样本在该待选特征下的特征值对应的概率密度,计算该待选特征的信息熵。5.根据权利要求4所述的方法,其特征在于,所述确定待选特征的不确定性信息,包括:针对任一训练样本在该待选特征下的特征值:确定该特征值与每个所述分类标签对应的条件概率以及联合概率;根据每个训练样本在该待选特征下的特征值对应的所述条件概率和联合概率,确定该待选特征的不确定性信息。6.根据权利要求4或5所述的方法,其特征在于,所述根据该待选特征的信息熵,以及该待选特征的不确定性信息,确定该待选特征的重要性度量值,包括:将该待选特征的信息熵与该待选特征的不确定性信息的差值,确定为该待选特征的重要性度量值。7.一种特征筛选装置,其特征在于,包括:获取模块,用于获取m个训练样本...

【专利技术属性】
技术研发人员:王振杰
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1