【技术实现步骤摘要】
本专利技术涉及特征选择,尤其是涉及一种面向高维不平衡数据的特征选择方法。
技术介绍
1、近年来,随着数据网络技术的蓬勃发展以及智能终端的普及,医疗健康、电子商务、社交网络、金融等诸多领域均需要存储应用大量的数据信息。这些海量数据的背后蕴含着丰富的知识,因此从复杂的大规模数据中提取出有意义的、有价值的信息变得尤为重要。作为一门多领域交叉学科,机器学习主要利用概率论、统计学、逼近论等领域的思想,通过设计一些算法从数据中自动分析获取规律,并根据规律对未知数据进行预测。典型的监督型机器学习任务是通过数据集中的特征来预测样本所对应的目标值。当前,机器学习已经大规模地被应用于各种大数据场景中,例如dna微阵列分析、图像分类、文本分类等。这些数据通常具有较高的数据维度,且常包含大量不相关或冗余特征,因此,直接使用原始数据进行处理会影响机器学习算法的效率和性能。基于该现象,在使用机器学习算法处理具有较高维度的大数据时,通常会对待处理的高维度数据进行预处理,比如特征选择、数据离散等一系列预处理操作,可以减少数据特征数量,节省计算机内存空间,从而提高机器学
...【技术保护点】
1.一种面向高维不平衡数据的特征选择方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种面向高维不平衡数据的特征选择方法,其特征在于:在步骤S1中,采用新型的阈值编码方式,先使用分层种群初始化机制,将整个种群划分为不同的分区,来获得细菌的信息搜索位置,加速种群收敛,其中,各分区中的细菌数量DivSize根据种群大小PopSize和分区数量NbrDiv计算,如公式(1)所示,各分区内细菌特征规模由总特征规模、当前分区序号和总分区数量确定,如公式(2)所示,另外,在各分区内为个体特征组合自适应创建差异阈值,以确定是否选择该特征,如公式(3)所示,具体
<...【技术特征摘要】
1.一种面向高维不平衡数据的特征选择方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种面向高维不平衡数据的特征选择方法,其特征在于:在步骤s1中,采用新型的阈值编码方式,先使用分层种群初始化机制,将整个种群划分为不同的分区,来获得细菌的信息搜索位置,加速种群收敛,其中,各分区中的细菌数量divsize根据种群大小popsize和分区数量nbrdiv计算,如公式(1)所示,各分区内细菌特征规模由总特征规模、当前分区序号和总分区数量确定,如公式(2)所示,另外,在各分区内为个体特征组合自适应创建差异阈值,以确定是否选择该特征,如公式(3)所示,具体如下所示:
3.根据权利要求2所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s2中,依据分类预测性能、特征子集规模和类别可分离性,定义三个子函数,具体如下:
4.根据权利要求3所述的一种面向高维不平衡数据的特征选择方法,其特征在于,在步骤s2中,综合上述三个子函数,采用加权的方...
【专利技术属性】
技术研发人员:王红,邢童童,牛奔,杨辰,王萌,周天薇,
申请(专利权)人:深圳大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。