改进的特征选择方法、装置及存储介质制造方法及图纸

技术编号：29759365 阅读：12 留言：0更新日期：2021-08-20 21:12

本发明专利技术公开了改进的特征选择方法、装置及存储介质。其中，该方法包括：对特征变量和特征变量对应的标签进行分类，获取每一类的特征变量对应的平均特征变量矩阵和每一类特征变量对应的平均标签矩阵；利用斯皮尔曼相关系数计算平均特征变量矩阵和平均标签矩阵的相关度，获取相关度大于阈值的候选平均特征量集合；构建候选平均特征量集合对应的随机森林模型，通过随机森林模型计算袋外误差，选取最小袋外误差对应的特征变量。本发明专利技术解决了在数据挖掘中特征组合相关性不高的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
改进的特征选择方法、装置及存储介质
本专利技术涉及计算机领域，具体而言，涉及改进的特征选择方法、装置及存储介质。
技术介绍
在实际数据分析和挖掘工作中，通常基于统计等相关工作获取初步特征，但是基于统计量的初步特征并不能反映出数据的全部信息，甚至统计量会误导数据的分析。有时统计量相同的多组变量X与Y，其变量关系相差甚远。例如，比较极端的，当统计量出现安斯库姆四重奏陷阱(Anscombe'squartert)时，四组统计量一致的数据(X，Y)，实际上却是有线性、非线性、等异常值影响变量统计量与变量关系多种情况。因此仅仅依靠传统的相关系数计算可能会有无法准确把握变量相关关系。另外，在机器学习特征选择工作中，许多根据模型指标筛选特征的方法鲁棒性不强，或有偏。同时在实际工作中，常常是从高维特征中进行特征选择，因此直接使用机器学习建模进行特征选择，会出现特征数量过多的问题进而特征选择的效果与效率。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种改进的特征选择方法、装置及存储介质，以至少解决在数据挖掘中特征组合相关性不高的技术问题。根据本专利技术实施例的一个方面，本专利技术提供一种改进的特征选择方法，包括：对特征变量和上述特征变量对应的标签进行分类，获取每一类的上述特征变量对应的平均特征变量矩阵和上述每一类的上述特征变量对应的平均标签矩阵；利用斯皮尔曼相关系数计算上述平均特征变量矩阵和上述平均标签矩阵的相关度，获取上述相关度大于阈值的候选平均特征量集合；构建...

【技术保护点】
1.一种改进的特征选择方法，其特征在于，包括：/n对特征变量和所述特征变量对应的标签进行分类，获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵；/n利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度，获取所述相关度大于阈值的候选平均特征量集合；/n构建所述候选平均特征量集合对应的随机森林模型，通过所述随机森林模型计算袋外误差，选取最终特征组合。/n

【技术特征摘要】
1.一种改进的特征选择方法，其特征在于，包括：
对特征变量和所述特征变量对应的标签进行分类，获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵；
利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度，获取所述相关度大于阈值的候选平均特征量集合；
构建所述候选平均特征量集合对应的随机森林模型，通过所述随机森林模型计算袋外误差，选取最终特征组合。

2.根据权利要求1所述的方法，其特征在于，所述对特征变量和所述特征变量对应的标签进行分类，获取每一类的所述特征变量对应的平均特征变量矩阵和所述每一类的所述特征变量对应的平均标签矩阵，包括：
获取所述特征变量和所述特征变量对应的观测值，计算所述特征变量对应的特征变量矩阵；
根据所述特征变量的分类数目，获取所述特征变量对应的平均变量矩阵；
根据所述平均变量矩阵，计算所述平均变量矩阵对应的所述平均标签矩阵。

3.根据权利要求1所述的方法，其特征在于，所述利用斯皮尔曼相关系数计算所述平均特征变量矩阵和所述平均标签矩阵的相关度，获取所述相关度大于阈值的候选平均特征量集合，包括：
选取所述特征变量矩阵和所述平均标准矩阵为所述斯皮尔曼相关系数的自变量，获取所述特征变量矩阵和所述平均标签矩阵对应的斯皮尔曼相关矩阵；
对所述斯皮尔曼矩阵中的斯皮尔曼相关系数进行排序，获取大于阈值的斯皮尔曼系数对应的所述特征变量矩阵；
确定大于阈值的所述特征变量矩阵对应的所述特征变量为候选平均特征量。

4.根据权利要求3所述的方法，其中，所述斯皮尔曼系数的公式为：

(其中p＝1,...,P；k＝1,...,K)；
其中，所述ρSk用于表示自变量A和自变量B的斯皮尔曼系数，所述ρSk的取值范围在[-1，1]，所述ρSk绝对值越接近1，表示自变量之间的相关性越大。

5.根据权利要求1所述的方法，其特征在于，所述构建所述候选平均特征量集合对应的随机森林模型，通过所述随机森林模型计算袋外误差，选取最终特征组合，包括：...

【专利技术属性】
技术研发人员：王心玥，陈震宇，刘国华，
申请(专利权)人：中国邮政储蓄银行股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人