改进的特征选择方法、装置及存储介质制造方法及图纸

技术编号:29759365 阅读:12 留言:0更新日期:2021-08-20 21:12
本发明专利技术公开了改进的特征选择方法、装置及存储介质。其中,该方法包括:对特征变量和特征变量对应的标签进行分类,获取每一类的特征变量对应的平均特征变量矩阵和每一类特征变量对应的平均标签矩阵;利用斯皮尔曼相关系数计算平均特征变量矩阵和平均标签矩阵的相关度,获取相关度大于阈值的候选平均特征量集合;构建候选平均特征量集合对应的随机森林模型,通过随机森林模型计算袋外误差,选取最小袋外误差对应的特征变量。本发明专利技术解决了在数据挖掘中特征组合相关性不高的技术问题。

【技术实现步骤摘要】
改进的特征选择方法、装置及存储介质
本专利技术涉及计算机领域,具体而言,涉及改进的特征选择方法、装置及存储介质。
技术介绍
在实际数据分析和挖掘工作中,通常基于统计等相关工作获取初步特征,但是基于统计量的初步特征并不能反映出数据的全部信息,甚至统计量会误导数据的分析。有时统计量相同的多组变量X与Y,其变量关系相差甚远。例如,比较极端的,当统计量出现安斯库姆四重奏陷阱(Anscombe'squartert)时,四组统计量一致的数据(X,Y),实际上却是有线性、非线性、等异常值影响变量统计量与变量关系多种情况。因此仅仅依靠传统的相关系数计算可能会有无法准确把握变量相关关系。另外,在机器学习特征选择工作中,许多根据模型指标筛选特征的方法鲁棒性不强,或有偏。同时在实际工作中,常常是从高维特征中进行特征选择,因此直接使用机器学习建模进行特征选择,会出现特征数量过多的问题进而特征选择的效果与效率。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种改进的特征选择方法、装置及存储介质,以至少解决在数据挖掘中特征组合相关性不高的技术问题。根据本专利技术实施例的一个方面,本专利技术提供一种改进的特征选择方法,包括:对特征变量和上述特征变量对应的标签进行分类,获取每一类的上述特征变量对应的平均特征变量矩阵和上述每一类的上述特征变量对应的平均标签矩阵;利用斯皮尔曼相关系数计算上述平均特征变量矩阵和上述平均标签矩阵的相关度,获取上述相关度大于阈值的候选平均特征量集合;构建上述候选平均特征量集合对应的随机森林模型,通过上述随机森林模型计算袋外误差,选取最终特征组合。可选地,上述对特征变量和上述特征变量对应的标签进行分类,获取每一类的上述特征变量对应的平均特征变量矩阵和上述每一类的上述特征变量对应的平均标签矩阵,包括:获取上述特征变量和上述特征变量对应的观测值,计算上述特征变量对应的特征变量矩阵;根据上述特征变量的分类数目,获取上述特征变量对应的平均变量矩阵;根据上述平均变量矩阵,计算上述平均变量矩阵对应的上述平均标签矩阵。可选地,上述利用斯皮尔曼相关系数计算上述平均特征变量矩阵和上述平均标签矩阵的相关度,获取上述相关度大于阈值的候选平均特征量集合,包括:选取上述特征变量矩阵和上述平均标准矩阵为上述斯皮尔曼相关系数的自变量,获取上述特征变量矩阵和上述平均标签矩阵对应的斯皮尔曼相关矩阵;对上述斯皮尔曼矩阵中的斯皮尔曼相关系数进行排序,获取大于阈值的斯皮尔曼系数对应的上述特征变量矩阵;确定大于阈值的上述特征变量矩阵对应的上述特征变量为候选平均特征量。可选地,上述斯皮尔曼系数的公式为:其中,上述ρSk用于表示自变量A和自变量B的斯皮尔曼系数,上述ρSk的取值范围在[-1,1],上述ρSk绝对值越接近1,表示自变量之间的相关性越大。可选地,上述构建上述候选平均特征量集合对应的随机森林模型,通过上述随机森林模型计算袋外误差,选取最终特征组合,包括:对上述候选平均特征量构建一次随机森林模型,通过计算上述一次随机森林模型的袋外误差,获取上述一次随机森林模型对应的候选特征子集;对上述候选特征子集构建二次随机森林模型,通过计算上述二次随机森林模型的袋外误差,获取上述最终特征组合。可选地,上述对上述候选平均特征量构建一次随机森林模型,通过计算上述一次随机模型的袋外误差,获取上述一次随机模型对应的候选特征子集,包括:获取上述候选平均特征量集合对应的候选特征量;对上述候选特征量构建随机森林模型,计算上述候选特征量对应的第一袋外误差;对上述候选特征量添加袋外误差,计算上述添加袋外误差后的候选特征量对应的第二袋外误差;根据上述第一袋外误差和上述第二袋外误差,获取上述候选特征子集。可选地,上述根据上述第一袋外误差和上述第二袋外误差,获取上述候选特征子集包括:根据平均差公式,计算上述第一袋外误差和上述第二袋外误差对应的上述候选特征子集的相关度;根据上述候选特征子集的相关度,对上述候选特征子集进行排序,选取上述候选特征子集的相关度大于预设相关度的特征子集作为候选特征子集。可选地,上述对上述候选特征子集构建二次随机森林模型,通过计算上述二次随机森林模型的袋外误差,获取上述最终特征组合,包括:对上述候选特征子集相关性进行排序,选取在预设目标范围内的特征子集;对每个上述特征子集构建二次随机森林模型,并计算每个随机森林的袋外误差;选取袋外误差最小,且首次出现的上述特征子集对应的特征组合为上述最终特征组合。根据本专利技术实施例的又一方面,本专利技术提供一种存储介质,上述存储介质中存储有计算机程序,其中,上述计算机程序被设置为运行时执行上述的方法。根据本专利技术实施例的又一方面,本专利技术提供一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的方法。在本专利技术实施例中,本专利技术通过对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和每一类的特征变量对应的平均标签矩阵;利用斯皮尔曼相关系数计算平均特征变量矩阵和平均标签矩阵的相关度,获取相关度大于阈值的候选平均特征量集合;构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合。本专利技术通过专利技术本改进的特征选择方法、装置及存储介质,解决了在数据挖掘中特征组合相关性不高的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的改进的特征选择方法的应用环境的示意图;图2是根据本专利技术实施例的一种可选的改进的特征选择方法的流程示意图;图3是根据本专利技术实施例的另一种可选的改进的特征选择方法的流程示意图;图4是根据本专利技术实施例的另一种可选的改进的特征选择方法的流程示意图;图5是根据本专利技术实施例的另一种可选的改进的特征选择方法的流程示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没本文档来自技高网
...

【技术保护点】
1.一种改进的特征选择方法,其特征在于,包括:/n对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵;/n利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度,获取所述相关度大于阈值的候选平均特征量集合;/n构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合。/n

【技术特征摘要】
1.一种改进的特征选择方法,其特征在于,包括:
对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵;
利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度,获取所述相关度大于阈值的候选平均特征量集合;
构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合。


2.根据权利要求1所述的方法,其特征在于,所述对特征变量和所述特征变量对应的标签进行分类,获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵,包括:
获取所述特征变量和所述特征变量对应的观测值,计算所述特征变量对应的特征变量矩阵;
根据所述特征变量的分类数目,获取所述特征变量对应的平均变量矩阵;
根据所述平均变量矩阵,计算所述平均变量矩阵对应的所述平均标签矩阵。


3.根据权利要求1所述的方法,其特征在于,所述利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度,获取所述相关度大于阈值的候选平均特征量集合,包括:
选取所述特征变量矩阵和所述平均标准矩阵为所述斯皮尔曼相关系数的自变量,获取所述特征变量矩阵和所述平均标签矩阵对应的斯皮尔曼相关矩阵;
对所述斯皮尔曼矩阵中的斯皮尔曼相关系数进行排序,获取大于阈值的斯皮尔曼系数对应的所述特征变量矩阵;
确定大于阈值的所述特征变量矩阵对应的所述特征变量为候选平均特征量。


4.根据权利要求3所述的方法,其中,所述斯皮尔曼系数的公式为:

(其中p=1,...,P;k=1,...,K);
其中,所述ρSk用于表示自变量A和自变量B的斯皮尔曼系数,所述ρSk的取值范围在[-1,1],所述ρSk绝对值越接近1,表示自变量之间的相关性越大。


5.根据权利要求1所述的方法,其特征在于,所述构建所述候选平均特征量集合对应的随机森林模型,通过所述随机森林模型计算袋外误差,选取最终特征组合,包括:...

【专利技术属性】
技术研发人员:王心玥陈震宇刘国华
申请(专利权)人:中国邮政储蓄银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1