当前位置: 首页 > 专利查询>深圳大学专利>正文

一种面向高维不平衡数据的特征选择方法技术

技术编号:41861753 阅读:19 留言:0更新日期:2024-06-27 18:34
本发明专利技术提供了一种面向高维不平衡数据的特征选择方法,属于特征选择技术领域。包括以下步骤:初始化细菌群体,为不同划分内的细菌个体赋予差异阈值;设计新型目标函数用于特征组合评估,为种群进化提供指导方向;采用阈值反馈学习机制寻找特征子集,通过分类器进行验证;通过新型菌群优化迭代机制寻优,确定最优特征子集,验证最优特征子集的泛化性和代表性。本发明专利技术通过新型目标函数引导种群进化来解决数据类别不平衡产生的性能偏置问题;采用双阀反馈学习机制选取与当前工作有关的特征,剔除冗余不相关数据;设计了新的细菌优化迭代方案,以解决搜索空间指数级增长和较高计算复杂度的问题。该方法能够在一定程度上解决维度灾难,提升机器学习任务中模型的学习性能。

【技术实现步骤摘要】

本专利技术涉及特征选择,尤其是涉及一种面向高维不平衡数据的特征选择方法


技术介绍

1、近年来,随着数据网络技术的蓬勃发展以及智能终端的普及,医疗健康、电子商务、社交网络、金融等诸多领域均需要存储应用大量的数据信息。这些海量数据的背后蕴含着丰富的知识,因此从复杂的大规模数据中提取出有意义的、有价值的信息变得尤为重要。作为一门多领域交叉学科,机器学习主要利用概率论、统计学、逼近论等领域的思想,通过设计一些算法从数据中自动分析获取规律,并根据规律对未知数据进行预测。典型的监督型机器学习任务是通过数据集中的特征来预测样本所对应的目标值。当前,机器学习已经大规模地被应用于各种大数据场景中,例如dna微阵列分析、图像分类、文本分类等。这些数据通常具有较高的数据维度,且常包含大量不相关或冗余特征,因此,直接使用原始数据进行处理会影响机器学习算法的效率和性能。基于该现象,在使用机器学习算法处理具有较高维度的大数据时,通常会对待处理的高维度数据进行预处理,比如特征选择、数据离散等一系列预处理操作,可以减少数据特征数量,节省计算机内存空间,从而提高机器学习算法的执行效率和拟本文档来自技高网...

【技术保护点】

1.一种面向高维不平衡数据的特征选择方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向高维不平衡数据的特征选择方法,其特征在于:在步骤S1中,采用新型的阈值编码方式,先使用分层种群初始化机制,将整个种群划分为不同的分区,来获得细菌的信息搜索位置,加速种群收敛,其中,各分区中的细菌数量DivSize根据种群大小PopSize和分区数量NbrDiv计算,如公式(1)所示,各分区内细菌特征规模由总特征规模、当前分区序号和总分区数量确定,如公式(2)所示,另外,在各分区内为个体特征组合自适应创建差异阈值,以确定是否选择该特征,如公式(3)所示,具体如下所示:

<...

【技术特征摘要】

1.一种面向高维不平衡数据的特征选择方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向高维不平衡数据的特征选择方法,其特征在于:在步骤s1中,采用新型的阈值编码方式,先使用分层种群初始化机制,将整个种群划分为不同的分区,来获得细菌的信息搜索位置,加速种群收敛,其中,各分区中的细菌数量divsize根据种群大小popsize和分区数量nbrdiv计算,如公式(1)所示,各分区内细菌特征规模由总特征规模、当前分区序号和总分区数量确定,如公式(2)所示,另外,在各分区内为个体特征组合自适应创建差异阈值,以确定是否选择该特征,如公式(3)所示,具体如下所示:

3.根据权利要求2所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s2中,依据分类预测性能、特征子集规模和类别可分离性,定义三个子函数,具体如下:

4.根据权利要求3所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s2中,综合上述三个子函数,采用加权的方...

【专利技术属性】
技术研发人员:王红邢童童牛奔杨辰王萌周天薇
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1