特征选择方法技术

技术编号:19694146 阅读:15 留言:0更新日期:2018-12-08 11:45
本发明专利技术提供了一种特征选择方法,可应用于肝癌重要性指标的预测分析,所述方法包括:先对原始数据集进行扫描,依据重要性对各个特征进行排序,再用(广义)序列后向选择法从中去除一部分特征,在新的特征集上训练随机森林并计算其准确率,根据各轮筛选造成的误差增量(相对筛选前)来判断是否要继续筛选,一旦它超过指定阈值就退出迭代,并将上一轮筛选所得的特征集作为结果。这样做的依据是,对于在不断缩减的特征集上训练出的模型,它们的泛化性能一般呈降低趋势,而其降低程度可以作为特征集的评价。反复该过程,最终将测试准确率最高的特征集作为特征选择的输出结果。

【技术实现步骤摘要】
特征选择方法
本专利技术涉及一种特征选择方法。
技术介绍
对于高维数据,一般要进行降维或特征选择,目的是降低模型学习的难度。而冗余特征的存在使得特征选择更有必要性,去除这些不相关的特征不但能降低学习的开销,还能给数据采集提供便利。常见的特征选择方式有三类:过滤式、包裹式和嵌入式,其中,过滤式方法在建立学习器之前就对数据集进行特征选择,再用筛选后的特征训练学习器;包裹式方法在候选特征子集上训练学习器,用学习器的性能来评价所选的特征集;而嵌入式方法在训练学习器的同时就能完成特征选择。随机森林进行特征选择的基本方法是GenuerR等人在2010年提出的一种基于袋外误差的包裹式方法。该算法的策略主要分为以下几个步骤:先依据重要性对各个特征进行排序,再用(广义)序列后向选择法从中去除一部分特征,在新的特征集上训练随机森林并计算其准确率,反复该过程,最终将测试准确率最高的特征集作为输出。为了保证每次测试结果的稳定性,一般在每轮筛选后都采用交叉验证来评估新建立的随机森林,取其平均准确率作为该轮的准确率。由于迭代将一直持续直到剩余特征个数减少至阈值,它依然会有较大的时空开销;又因为最终取测试精度最高的筛选,所以得到的特征集不一定是最小的。
技术实现思路
本专利技术的目的在于提供一种特征选择方法。本专利技术提供一种特征选择方法,包括:S1:首次对原始数据集A进行扫描得到各个特征;S2:依据重要性对扫描得到的各个特征进行排序;S3:每次用序列后向选择法从排序后的各个特征中去除一部分特征,得到各轮筛选后的新的特征集,在所述新的特征集上训练随机森林并计算对应的准确率;S4:根据各轮筛选造成的相对筛选前的误差增量来判断是否要继续筛选,一旦它超过指定阈值就退出迭代,并将上一轮筛选所得的特征集作为结果;S5:反复步骤S1~S4过程,最终将测试准确率最高的特征集作为特征选择的输出结果。进一步的,在上述方法中,S2:依据重要性对扫描得到的各个特征进行排序之前,还包括:计算某个特征X的重要性。进一步的,在上述方法中,计算某个特征X的重要性,包括:S201:对于随机森林中的决策树Ti,计算该决策树Ti在自己袋外数据上的分类错误数Ei;S202:在该决策树的袋外数据中对X的取值进行随机扰动,重新计算其分类错误数S203:令i=1,2,...,n,重复S201~S202两步,计处每一个决策树Ti对应的分类错误数其中,随机森林包含的决策树个数为n个;S204:所述特征X的重要性IX定义为:进一步的,在上述方法中,计算该决策树Ti在自己袋外数据上的分类错误数Ei,包括:通过calcAccurOOB函数,计算该决策树Ti在自己袋外数据上的分类错误数Ei。进一步的,在上述方法中,每次用序列后向选择法从排序后的各个特征中去除一部分特征,得到各轮筛选后的新的特征集中,运用简单交叉验证进行筛选。进一步的,在上述方法中,运用简单交叉验证进行筛选,包括:采用chooseFeatures函数完成筛选,其中,将四个阈值均作为参数传入,新增的numTrees参数控制随机森林包含的决策树个数。与LVW这类随机选择特征子集的包裹式算法相比,本专利技术的有益效果是:对特征的筛选是启发式的,具有更高的效率,在给定误差范围内优先选择最小的特征子集,而不是测试精度最高的,从而能够尽早停止筛选,节省大量时间,试验结果表明,筛选后的特征集其实并不会产生像阈值那样大的误差增量,在其上的测试精度可以与筛选前持平甚至更高。附图说明图1是本专利技术一实施例的计算特征重要性的流程图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,本专利技术提供一种特征选择方法,包括:S1:首次对原始数据集A进行扫描得到各个特征;S2:依据重要性对扫描得到的各个特征进行排序;S3:每次用(广义)序列后向选择法从排序后的各个特征中去除一部分特征,得到各轮筛选后的新的特征集,在所述新的特征集上训练随机森林并计算对应的准确率;S4:根据各轮筛选造成的误差增量(相对筛选前)来判断是否要继续筛选,一旦它超过指定阈值就退出迭代,并将上一轮筛选所得的特征集作为结果,这样做的依据是,对于在不断缩减的特征集上训练出的模型,它们的泛化性能一般呈降低趋势,而其降低程度可以作为特征集的评价;S5:反复步骤S1~S4过程,最终将测试准确率最高的特征集作为特征选择的输出结果。本专利技术的特征选择方法一实施例中,S2:依据重要性对扫描得到的各个特征进行排序之前,还包括:计算某个特征X的重要性。本专利技术的特征选择方法一实施例中,随机森林定义了特征的重要性度量,计算某个特征X的重要性,包括:S201:对于随机森林中的决策树Ti,计算该决策树Ti在自己袋外数据上的分类错误数Ei;S202:在该决策树的袋外数据中对X的取值进行随机扰动,重新计算其分类错误数S203:令i=1,2,...,n,重复S201~S202两步,计处每一个决策树Ti对应的分类错误数其中,随机森林包含的决策树个数为n个;S204:所述特征X的重要性IX定义为:在此,所述特征X的重要性IX这样定义的依据是:如果对某个特征加入噪声后模型的袋外误差显著提升,则说明该特征对预测结果的影响较大,从而有较高的重要性。本专利技术的特征选择方法一实施例中,计算该决策树Ti在自己袋外数据上的分类错误数Ei,包括:通过calcAccurOOB函数,计算该决策树Ti在自己袋外数据上的分类错误数Ei。在此,在计算特征重要性之前,首先要得到每棵决策树的袋外误差。calcAccurOOB函数完成此功能,它会根据OOBIndxes属性从原训练集中获取袋外样本,在其上调用继承而来的calcAccuracy函数,具体步骤如表1:表1如表1所示,calcFeatImportnc函数是依据上述的步骤计算特征重要性,填写featImpormc属性。为了重用代码,将“误差增量”替换为了“精度减量”。它也可以用speciFeats参数指定要计算的特征,而featImportnc中其他未指定的特征将被赋空值,排序时不参与比较。如图1所示,是该函数的流程图,其中随机噪声使用np.random模块产生。本专利技术的特征选择方法一实施例中,S3:每次用(广义)序列后向选择法从排序后的各个特征中去除一部分特征,得到各轮筛选后的新的特征集中,运用简单交叉验证(留出法)进行筛选。本专利技术的特征选择方法一实施例中,运用简单交叉验证(留出法)进行筛选,包括:采用chooseFeatures函数完成筛选,其中,将四个阈值均作为参数传入,新增的numTrees参数控制随机森林包含的决策树个数。在此,该chooseFeatures函数是类方法,可以由类名直接调用。它还增加了两个返回值,分别是子集中各特征的重要性和用它们训练所得模型的测试精度。其中np.argsort函数获得序列排序后的下标。若各轮筛选造成的误差增量(相对筛选前)超过指定阈值就退出迭代,并将上一轮筛选所得的特征集作为结果。具体的步骤如表2:表2本专利技术一具体的实施例中,设原始特征集为A,样本集为D,该算法用伪代码描述如表3:表3一种基于RandomForest改进算法的特征选择算法的伪代码由于交叉验证的过程中会产生多个Random本文档来自技高网...

【技术保护点】
1.一种特征选择方法,其特征在于,包括:S1:首次对原始数据集A进行扫描得到各个特征;S2:依据重要性对扫描得到的各个特征进行排序;S3:每次用序列后向选择法从排序后的各个特征中去除一部分特征,得到各轮筛选后的新的特征集,在所述新的特征集上训练随机森林并计算对应的准确率;S4:根据各轮筛选造成的相对筛选前的误差增量来判断是否要继续筛选,一旦它超过指定阈值就退出迭代,并将上一轮筛选所得的特征集作为结果;S5:反复步骤S1~S4过程,最终将测试准确率最高的特征集作为特征选择的输出结果。

【技术特征摘要】
1.一种特征选择方法,其特征在于,包括:S1:首次对原始数据集A进行扫描得到各个特征;S2:依据重要性对扫描得到的各个特征进行排序;S3:每次用序列后向选择法从排序后的各个特征中去除一部分特征,得到各轮筛选后的新的特征集,在所述新的特征集上训练随机森林并计算对应的准确率;S4:根据各轮筛选造成的相对筛选前的误差增量来判断是否要继续筛选,一旦它超过指定阈值就退出迭代,并将上一轮筛选所得的特征集作为结果;S5:反复步骤S1~S4过程,最终将测试准确率最高的特征集作为特征选择的输出结果。2.如权利要求1所述的特征选择方法,其特征在于,S2:依据重要性对扫描得到的各个特征进行排序之前,还包括:计算某个特征X的重要性。3.如权利要求2所述的特征选择方法,其特征在于,计算某个特征X的重要性,包括:S201:对于随机森林中的决策树Ti,计算该决策树Ti在自己袋外数据上的分类错误数Ei;S202:在该决...

【专利技术属性】
技术研发人员:刘云翔陈斌周子宜潘琪原鑫鑫施伟李晓丹
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1