一种基于森林算法的特征选择方法、装置及系统制造方法及图纸

技术编号：30188233 阅读：31 留言：0更新日期：2021-09-29 08:25

本发明专利技术公开了一种基于森林算法的特征选择方法、装置及系统。方法包括初始化数据集，确定每个特征子集大小；遍历数据集中所有特征，将所有特征进行分组；计算每个特征子集需添加的邻居特征子集数量，将邻居特征子集加入数据集；提取部分特征子集构建候选集；选择候选集中的部分特征子集，遍历该部分特征子集，将该部分特征子集加入数据集；确定数据集的最优特征子集，继续计算最优特征子集需添加的邻居特征子集数量，满足迭代次数时停止，得到全局最优特征子集。本发明专利技术能保证数据集中每个特征子集具有较高的质量，很大程度上减少了寻找最优特征子集的迭代次数加快算法的搜索效率，提高分类的准确率。分类的准确率。分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于森林算法的特征选择方法、装置及系统

[0001]本专利技术涉及人工智能
，特别涉及一种基于森林算法的特征选择方法、装置及系统。

技术介绍

[0002]随着大数据的时代的到来，具有大量实例和高维的数据集给数据挖掘带来了极大的挑战。这个挑战主要包括两个方面：首先，在分类过程中，数据集通常包含大量的特征，并不是所有的特征对于分类都是有用的，数据集中的一些冗余和不相关的特征会严重降低分类器的准确率。另一方面，在数据处理过程中，我们需要花费大量的宝贵时间和昂贵的资源处理高维度的数据，从而严重降低了模型的学习速率。因此，克服这个问题的一个常见方法是通过去除不相关和冗余的特征并选择一个有用的子集来降低维数。特征选择一种常用的降维技术，目前在数据挖掘、机器学习、文本挖掘和图像处理等领域都有广泛的使用。特征选择的目的主要是提高模型学习效率，在构建分类模型的过程中，算法保留对分类有用的特征，剔除那些冗余和不相关的特征，能够降低模型的复杂程度，从而能够提高分类的准确率，避免出现过拟合现象。
[0003]目前通过基于森林优化算...

【技术保护点】

【技术特征摘要】
1.一种基于森林算法的特征选择方法，其特征在于，所述方法包括如下步骤：初始化数据集，确定每个特征子集大小；遍历所述数据集中所有特征，将所述所有特征进行分组；计算每个所述特征子集需添加的邻居特征子集数量，将所述邻居特征子集加入所述数据集；提取部分特征子集构建候选集；选择所述候选集中的部分特征子集，遍历该部分特征子集，将该部分特征子集加入所述数据集；确定所述数据集的最优特征子集，继续计算所述最优特征子集需添加的邻居特征子集数量，满足迭代次数时停止，得到全局最优特征子集。2.根据权利要求1所述的方法，其特征在于，所述初始化数据集，确定每个特征子集大小，进一步包括：确定所述特征子集大小；初始化所述特征子集的每个特征，每个所述特征随机初始化特征值为0或1；设置所有所述特征子集的当前值为0。3.根据权利要求2所述的方法，其特征在于，所述特征子集大小通过选址机制确定，所述选址机制为：其中，f表示原始数据集中的特征数量，sf表示特征子集中初始化特征值为1的特征数量，l表示f与sf的距离，P(sf)表示决定初始化特征数量sf的权重值。4.根据权利要求3所述的方法，其特征在于，所述遍历所述数据集中所有特征，将所述所有特征进行分组，进一步包括：遍历所述数据集中所有特征，分别计算所有所述特征的重要度；依次排序每个所述特征的重要度；按照所述重要度将所有所述特征分为高质量特征组和低质量特征组，所述高质量特征组中最低的重要度不低于所述低质量特征组中任意特征的重要度。5.根据权利要求4所述的方法，其特征在于，所述计算每个所述特征子集需添加的邻居特征子集数量，将所述邻居特征子集加入所述数据集，进一步包括：遍历当前值为0的特征子集，计算所述特征子集的待添加邻居特征子集的数量；从所述高质量特征组随机选取|a-α|个特征添加到当前邻居特征子集，且从所述低质量特征组随机选取|b-β|个特征并从当前邻居特征子集中移除对应的特征，其中，a表示高质量特征组的特征数量，α表示增加特征的数量，b表示低质量特征组的特征数量，β表示移除当前特征子集中特征的数量，α＝λ*sf，β＝(1-λ)*sf，λ为常数；设置所述邻居特征子集的当前...

【专利技术属性】
技术研发人员：贾冬冬，鲁威，孙迁，
申请(专利权)人：苏宁云计算有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人