一种用于高维数据集特征选择的方法技术

技术编号:42670405 阅读:25 留言:0更新日期:2024-09-10 12:24
本发明专利技术公开了一种用于高维数据集特征选择的方法,属于数据分析领域。所述方法将离散型改进的海洋捕食者算法(BEMPA)应用于UCI高维数据集的特征选择中,其中,通过引入激活函数将MPA离散化,使其适用于特征选择任务;在迭代前期引入了全局最优个体,这一策略有效提升了搜索速度,使得算法能够更快地收敛到最优解;同时,为了增加跳出局部最优的能力,在每一次迭代后引入了莱维飞行策略,这一策略使算法能够在搜索过程中进行更大范围的探索,从而避免陷入局部最优解。本发明专利技术解决高维数据集分类易产生特征冗余的难题,实现在准确率不下降的情况下,选择的子特征数量最小。

【技术实现步骤摘要】

本专利技术属于数据分析领域,具体地说,本专利技术涉及一种用于高维数据集特征选择的方法


技术介绍

1、在机器学习和数据分析的广阔领域中,特征选择扮演着至关重要的角色。其核心目标是从庞大的初始数据集中精心挑选出那些对模型预测性能具有最大贡献的特征子集,这一步骤对于提升模型效率、减少不必要的计算开销尤为关键。特征选择不仅有助于简化模型的结构,使之更为精炼,还能加速学习进程,减少过拟合的风险,并增强模型的解释能力,使得结果更具说服力。尽管在低至中等维度的数据处理中,特征选择技术已经相对完善且成熟,但当面对高维数据——即特征数量高达数千乃至数万的情况时,现有的方法和技术便显得捉襟见肘,面临着诸多挑战。一方面,高维数据往往伴随着大量的冗余特征,这些特征不仅不能为模型性能带来任何增益,反而可能成为模型性能的绊脚石,造成不必要的性能下降。另一方面,随着特征维度的激增,计算成本和时间消耗也将呈指数级增长,给数据处理和模型训练带来了巨大的压力。因此,如何在有限的评估次数内,高效、准确地找到那些能显著提升模型性能的特征子集,成为了当前高维数据处理中亟待解决的关键问题。

本文档来自技高网...

【技术保护点】

1.一种用于高维数据集特征选择的方法,其特征在于:所述方法基于离散型改进的MPA算法进行特征选择,包括以下步骤:

2.根据权利要求1所述的一种用于高维数据集特征选择的方法,其特征在于:在所述步骤S2中,所述种群个体数量为N,求解问题维度为D,则种群位置的初始化为:

3.根据权利要求1所述的一种用于高维数据集特征选择的方法,其特征在于:在所述步骤S3中,迭代前期是指猎物的移动速度比捕食者的移动速度快时,此时t<T/3,t表示当前迭代次数,T表示最大迭代次数;迭代前期引入全局最优个体的位置信息,表示如下:

4.根据权利要求1所述的一种用于高维数据集特...

【技术特征摘要】

1.一种用于高维数据集特征选择的方法,其特征在于:所述方法基于离散型改进的mpa算法进行特征选择,包括以下步骤:

2.根据权利要求1所述的一种用于高维数据集特征选择的方法,其特征在于:在所述步骤s2中,所述种群个体数量为n,求解问题维度为d,则种群位置的初始化为:

3.根据权利要求1所述的一种用于高维数据集特征选择的方法,其特征在于:在所述步骤s3中,迭代前期是指猎物的移动速度比捕食者的移动速度快时,此时t<t/3,t表示当前迭代次数,t表示最大迭代次数;迭代前期引入全局最优个体的位置信息,表示如下:

4.根据权利要求1所述的一种用于高维数据集特征选择的方法,其特征在于:在所述步骤s4中,离散化操作表示如下:

5.根据权利要求1或4所述的一种用于高维数据集特征选择的方法,其特征在于:在所述步骤s4中,在每一次迭代后...

【专利技术属性】
技术研发人员:赵转哲王梦娴刘永明刘志博沈少峰段鑫鲁月林倪佳佳
申请(专利权)人:安徽工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1