特征选择方法、装置、设备和介质制造方法及图纸

技术编号:28050167 阅读:34 留言:0更新日期:2021-04-14 13:07
本发明专利技术公开了特征选择方法、装置、设备和介质。该方法包括:获取原始特征集的当前待寻优特征子集;将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集;从第一特征子集中剔除第二特征,得到第二特征子集;若第二特征子集不优于当前待寻优特征子集,将第一特征子集作为下一待寻优特征子集,直至第一特征子集满足预设停止准则,将第一特征子集选定为原始特征集的最优特征子集。根据本发明专利技术实施例提供的特征选择方法、装置、设备和介质,可以提高特征选择的精确度。可以提高特征选择的精确度。可以提高特征选择的精确度。

【技术实现步骤摘要】
特征选择方法、装置、设备和介质


[0001]本专利技术涉及数据处理领域,尤其涉及特征选择方法、装置、设备和介质。

技术介绍

[0002]特征选择,通常应用于建模过程中的数据降维,是指从原始特征集中选择使某种评估标准最优的特征子集。其目的在于使选出的最优特征子集所构建的分类或回归模型达到与特征选择前近似甚至更好的预测精度,这不但提高了模型的泛化能力、模型的可理解性以及计算效率,同时可降低“维度灾难”发生的可能,在实际建模工作中缩减了建模的人力、时间与资源等成本,增加了建模所带来的效率。
[0003]目前常用的特征选择算法包括完全搜索和随机搜索,特征选择精度较低。

技术实现思路

[0004]本专利技术实施例提供特征选择方法、装置、设备和介质,可以提高特征选择的精确度。
[0005]第一方面,本专利技术实施例提供了一种特征选择方法,包括:获取原始特征集的当前待寻优特征子集;将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集,第一特征子集优于将候选特征子集中第一特征外的任一其他特征加入当前待寻优特征子集得到的集合;从第一特征子集中剔除第二特征,得到第二特征子集,第二特征子集优于从第一特征子集剔除第一特征和第二特征外的任一其他特征得到的集合;若第二特征子集不优于当前待寻优特征子集,将第一特征子集作为下一待寻优特征子集,直至第一特征子集满足预设停止准则,将第一特征子集选定为原始特征集的最优特征子集。
[0006]在本专利技术实施例提供的特征选择方法中,通过循环的方式获取原始特征集的最优特征子集。在更新第二特征子集的过程中,由于第一特征子集优于将候选特征子集中第一特征外的任一其他特征加入当前待寻优特征子集得到的集合,第二特征子集优于从第一特征子集剔除第一特征和第二特征外的任一其他特征得到的集合。因此,在循环过程中,不断添加当前待寻优特征子集契合度最高的第一特征,并判断是否需要剔除掉最有可能是无关特征或者冗余特征的第二特征。因此,随着循环过程的推进,待寻优特征子集不断优化,可以提高特征选择的精确度。
[0007]在一种可选的实施方式中,方法还包括:若第二特征子集优于当前待寻优特征子集,将第二特征子集作为新的第一特征子集,并从新的第一特征子集中剔除新的第二特征,得到新的第二特征子集,直到新的第二特征子集不优于对应的待寻优特征子集或新的第二特征子集的特征数量小于数量阈值,将新的第一特征子集作为下一待寻优特征子集。
[0008]在第二特征子集优于当前待寻优特征子集的情况下,则可以继续利用第二特征子集计算最优特征子集。可以继续从第二特征子集中剔除掉疑似无关特征或者疑似冗余特征,直到第二特征无法继续降维。因此,在保证最优特征的评价函数值较高的同时,能够尽
量降低特征维度,提高了选择精度。
[0009]在一种可选的实施方式中,将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集,包括:在候选特征子集中任选一个特征加入待寻优特征子集,得到待定第一特征子集;将评价函数值最高的待定第一特征子集确定为第一特征子集,并将加入第一特征子集的特征确定为第一特征。
[0010]由于评价函数值可以作为评价特征集优劣的标准,通过构建待定第一特征子集,并将最优的待定第一特征子集作为第一特征子集的方式,可以充分考虑候选特征子集中的每个元素与当前待寻优特征子集的契合程度,准确的从候选特征子集中选择出契合度最高的特征添加入当前特征子集,提高了特征提取的精度。
[0011]在一种可选的实施方式中,从第一特征子集中剔除第二特征,得到第二特征子集,包括:在第一特征子集中任选一个除第一特征外的特征剔除,得到待定第二特征子集;将评价函数值最高的待定第二特征子集确定为第二特征子集,并将剔除出第二特征子集的特征确定为第二特征。
[0012]由于评价函数值可以作为评价特征集优劣的标准,通过构建待定第二特征子集,并将最优的待定第二特征子集作为第二特征子集的方式,可以将最有可能是冗余特征或者无关特征的第二特征从第一特征子集中剔除,因而最大程度的保证了最优特征子集不包含冗余特征或无关特征,提高了特征提取的精度。
[0013]在一种可选的实施方式中,方法还包括:将第二特征的相关特征从候选特征子集中剔除。
[0014]若第二特征子集作为下一待寻优特征子集,则第二特征表征无关特征或者冗余特征。由于若某一特征与无关特征或者冗余特征相关,则该特征也为无关特征或者冗余特征。因此,可以将第二特征从候选特征子集中剔除,来提高特征选择的效率,减小运算量。
[0015]在一种可选的实施方式中,方法还包括:
[0016]在候选特征子集的候选特征中,筛选出与第二特征的相关度大于第二阈值的特征,作为新的候选特征;按照预设增长步幅,增大第一阈值,并利用增大后的第一阈值对新的候选特征进行筛选,直到筛选后的候选特征数量为零,将新的候选相关特征作为第二特征的相关特征。
[0017]通过逐步放大第一阈值的方式,逐步限缩候选特征的数量,通过多次循环,准确的从候选特征子集中找到与第二特征相关的特征。
[0018]第二方面,本专利技术实施例提供一种装置,包括:获取模块,用于获取原始特征集的当前待寻优特征子集;第一构造模块,用于将原始特征集的候选特征子集中的第一特征加入当前待寻优特征子集,得到第一特征子集,第一特征子集优于将候选特征子集中第一特征外的任一其他特征加入当前待寻优特征子集得到的集合;第二构造模块,用于从第一特征子集中剔除第二特征,得到第二特征子集,第二特征子集优于从第一特征子集剔除第一特征和第二特征外的任一其他特征得到的集合;选定模块,用于若第二特征子集不优于当前待寻优特征子集,将第一特征子集作为下一待寻优特征子集,直至第一特征子集满足预设停止准则,将第一特征子集选定为原始特征集的最优特征子集。
[0019]在一种可选的实施方式中,装置还包括:
[0020]第三构造模块,用于若第二特征子集优于当前待寻优特征子集,将第二特征子集
作为新的第一特征子集,并从新的第一特征子集中剔除新的第二特征,得到新的第二特征子集,直到新的第二特征子集不优于对应的待寻优特征子集或新的第二特征子集的特征数量小于数量阈值,将新的第一特征子集作为下一待寻优特征子集。。
[0021]第三方面,本专利技术实施例提供一种特征选择设备,设备包括:存储器,用于存储程序;处理器,用于运行存储器中存储的程序,以执行第一方面、第一方面的任一可选实施方式提供的特征选择方法。
[0022]第四方面,本专利技术实施例提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面、第一方面的任一可选实施方式提供的特征选择方法。
附图说明
[0023]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征选择方法,其特征在于,所述方法包括:获取原始特征集的当前待寻优特征子集;将原始特征集的候选特征子集中的第一特征加入所述当前待寻优特征子集,得到第一特征子集,所述第一特征子集优于将所述候选特征子集中所述第一特征外的任一其他特征加入所述当前待寻优特征子集得到的集合;从所述第一特征子集中剔除第二特征,得到第二特征子集,所述第二特征子集优于从所述第一特征子集剔除所述第一特征和所述第二特征外的任一其他特征得到的集合;若所述第二特征子集不优于所述当前待寻优特征子集,将所述第一特征子集作为下一待寻优特征子集,直至所述第一特征子集满足预设停止准则,将所述第一特征子集选定为原始特征集的最优特征子集。2.根据权利要求1所述的方法,其特征在于,所述从所述第一特征子集中剔除第二特征,得到第二特征子集之后,所述方法还包括:若所述第二特征子集优于所述当前待寻优特征子集,将所述第二特征子集作为新的第一特征子集,并从所述新的第一特征子集中剔除新的第二特征,得到新的第二特征子集,直到所述新的第二特征子集不优于对应的待寻优特征子集或所述新的第二特征子集的特征数量小于数量阈值,将所述新的第一特征子集作为下一待寻优特征子集。3.根据权利要求1所述的方法,其特征在于,所述将原始特征集的候选特征子集中的第一特征加入所述当前待寻优特征子集,得到第一特征子集,包括:在所述候选特征子集中任选一个特征加入所述待寻优特征子集,得到待定第一特征子集;将评价函数值最高的待定第一特征子集确定为第一特征子集,并将加入所述第一特征子集的特征确定为所述第一特征。4.根据权利要求3所述的方法,其特征在于,所述从所述第一特征子集中剔除第二特征,得到第二特征子集,包括:在第一特征子集中任选一个除所述第一特征外的特征剔除,得到待定第二特征子集;将评价函数值最高的待定第二特征子集确定为所述第二特征子集,并将剔除出所述第二特征子集的特征确定为所述第二特征。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:将所述第二特征的相关特征从所述候选特征子集中...

【专利技术属性】
技术研发人员:吴丽丽李三川李金柱余韦谢笑娟梁恩磊杨猛陶涛徐海勇
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1