基于邻域搜索策略的特征选择装置制造方法及图纸

技术编号:22975089 阅读:22 留言:0更新日期:2019-12-31 23:34
一种基于邻域搜索策略的特征选择装置,包括:获取单元,适于获取特征搜索空间;所述特征搜索空间包括多个特征子集;选取单元,适于采用基于邻域搜索策略的微粒群算法,从所述特征搜索空间中的特征子集中搜索出全局最优特征子集。上述的方案,可以提高所选取的特征子集的准确性,进而可以提高采用所选取的特征子集中的特征所构建的模型的准确性。

【技术实现步骤摘要】
基于邻域搜索策略的特征选择装置
本专利技术属于计算机
,特别是涉及一种基于邻域搜索策略的特征选择装置。
技术介绍
在机器学习和数据挖掘问题中,经常遇到高维数据集。很显然并非所有特征在建模时都是有用的,其中存在一些无关或冗余特征。在高维数据集上建模会带来高昂的计算成本,同时会降低预测模型的准确性。特征选择的目的是从所有特征中辨别并选出那些有价值的特征,并利用这些特征来建立预测模型。特征选择可以有效地降低建模时间,提升模型准确率以及提供更好的模型解读能力。特征选择是一个非常复杂的组合优化问题。在高维度数据集中,搜索空间规模很大,且特征之间存在复杂的相互关系。假设一个数据集中含有n个特征,那么可能的特征子集就有2n个。传统的穷举方法显然无法应用于高维数据集。进化计算技术是一种具备很强的全局搜索能力的优化算法,很适合用于高维空间的优化问题。其中,微粒群算法因其具备操作简单、收敛速度快等特点,已经被应用于从高维数据集中筛选出优秀的特征子集。但是现有的基于微粒群算法的特征选择模型,所选取的特征子集存在准确性差的问题。
技术实现思路
本专利技术解决的技术问题是如何提高所选取的特征子集的准确性。为了达到上述目的,本专利技术提供一种基于邻域搜索策略的特征选择装置,所述装置包括:获取单元,适于获取特征搜索空间;所述特征搜索空间包括多个特征子集;选取单元,适于采用基于邻域搜索策略的微粒群算法,从所述特征搜索空间中的特征子集中搜索出全局最优特征子集。可选地,所述选取单元,适于初始化所述特征搜索空间中的特征子集;计算所述特征子集之间的相似度矩阵;基于计算得到的相似度矩阵,找到每个特征子集最相似的预设数量个邻近特征子集;从所述预设数量个邻近特征子集中找出适应度数值最大的特征子集,分别作为每个特征子集对应的局域导引;基于对应的局域导引对每个特征子集的位置进行更新,得到每个特征子集更新后的新特征子集;当确定新特征子集的适应度数值大于对应的特征子集的适应度数值时,采用新特征子集代替对应的特征子集;从所述计算所述特征子集之间的相似度矩阵开始执行下一次迭代,直至迭代次数达到预设的次数阈值,得到全局最优特征子集。可选地,所述选取单元,适于采用如下的公式计算所述相似度矩阵中的特征子集之间的相似度:Sij=||xi-xj||;其中,Sij表示第i个特征子集xi与第j个特征子集xj之间的相似度,||xi-xj||表示第i个特征子集xi与第j个特征子集xj之间的欧式距离。可选地,所述选取单元,适于采用如下的公式计算所述特征子集的适应度数值:其中,f(xi)表示第i个特征子集xi的适应度数值,TP表示正确分类的正样本数目,FP表示错误分类的正样本数目,TN表示正确分类的负样本数目,FN表示错误分类的负样本数目。可选地,所述选取单元,适于基于对应的局域导引对每个特征子集的位置进行更新,包括:且:其中,表示执行第t次迭代得到的第i个特征子集进行更新的新特征子集,表示执行第t-1次迭代得到的第i个特征子集的位置,w表示预设的惯性权重,pbesti表示所记录的第i个特征子集的全局最优,表示第i个特征子集的局域导引,c1和c2是分别表示个体认知和社会认知权重,r1r2分别表示[0,1]之间的随机数。可选地,所述选取单元,还适于在基于对应的局域导引对每个特征子集的位置进行更新之后,按照预设的概率对更新后的新特征子集执行变异操作,得到变异后的新特征子集,并采用变异后的新特征子集替换所述更新后的新特征子集。可选地,所述选取单元,适于采用如下的公式所述对更新后的新特征子集执行变异操作:其中,xnew,d表示更新后的新特征子集变异后的位置,F表示缩放因子,MR表示变异概率,xid表示更新后的新特征子集,xr1,d、xr2,d和xr3,d表示种群中三个随机选取的特征子集。与现有技术相比,本专利技术的有益效果为:上述的方案,通过获取包括多个特征子集的特征搜索空间,并采用基于邻域搜索策略的微粒群算法,从所述特征搜索空间中的特征子集中搜索出全局最优特征子集,可以从多个特征子集中筛选出更佳的特征子集,提高所选取的特征的准确性,从而可以提高模型构建的准确性。进一步地,通过采用邻域搜索策略,每个个体在它的邻域范围内选择最优个体作为其学习对象,可以使得每个粒子在它的邻域范围内搜寻高质量的特征子集,因此可以搜索特征空间内更多区域,提高搜索的准确性。进一步地,按照预设的概率对更新后的新特征子集执行变异操作,可以提升微粒群算法的全局搜索能力,丰富算法的搜索行为,提升搜寻特征子集的准确性。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例的一种基于邻域搜索策略微粒群算法的特征选择方法的流程示意图;图2是本专利技术实施例的另一种基于邻域搜索策略微粒群算法的特征选择方法的流程示意图;图3是本专利技术实施例的一种基于邻域搜索策略的特征选择装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本专利技术实施例中有关方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。如
技术介绍
所述,现有技术中的基于微粒群算法的特征选择方法,每个个体通过学习它自身的个体最优(pbest)和整个种群内的全局最优(gbest)来更新自身的位置。在高维特征选择问题中,这种搜索策略可能会导致算法快速收敛到一个局部最优特征子集,无法找到真正的最佳特征子集。同时,微粒群算法在全局搜索能力方面逊色与其他一些常见的进化算法,这会导致它无法有效地遍历整个特征空间,尤其是在高维度的特征选择问题中。本专利技术的技术方案通过获取包括多个特征子集的特征搜索空间,并采用基于邻域搜索策略的微粒群算法,从所述特征搜索空间中的特征子集中搜索出全局最优特征子集,可以从多个特征子集中筛选出更佳的特征子集,提高所选取的特征的准确性,从而可以提高模型构建的准确性。。为使本专利技术的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。图1是本专利技术实施例的一种基于邻域搜索策略微粒群算法的特征选择方法的流程示意图。参见图1,一种基于邻域搜索策略微粒群算法的特征选择方法,具体可以包括如下的步骤:步骤S101:获取特征搜索本文档来自技高网
...

【技术保护点】
1.一种基于邻域搜索策略的特征选择装置,其特征在于,包括:/n获取单元,适于获取特征搜索空间;所述特征搜索空间包括多个特征子集;/n选取单元,适于采用基于邻域搜索策略的微粒群算法,从所述特征搜索空间中的特征子集中搜索出全局最优特征子集。/n

【技术特征摘要】
1.一种基于邻域搜索策略的特征选择装置,其特征在于,包括:
获取单元,适于获取特征搜索空间;所述特征搜索空间包括多个特征子集;
选取单元,适于采用基于邻域搜索策略的微粒群算法,从所述特征搜索空间中的特征子集中搜索出全局最优特征子集。


2.根据权利要求1所述的基于邻域搜索策略的特征选择装置,其特征在于,所述选取单元,适于初始化所述特征搜索空间中的特征子集;
计算所述特征子集之间的相似度矩阵;基于计算得到的相似度矩阵,找到每个特征子集最相似的预设数量个邻近特征子集;从所述预设数量个邻近特征子集中找出适应度数值最大的特征子集,分别作为每个特征子集对应的局域导引;基于对应的局域导引对每个特征子集的位置进行更新,得到每个特征子集更新后的新特征子集;当确定新特征子集的适应度数值大于对应的特征子集的适应度数值时,采用新特征子集代替对应的特征子集;从所述计算所述特征子集之间的相似度矩阵开始执行下一次迭代,直至迭代次数达到预设的次数阈值,得到全局最优特征子集。


3.根据权利要求2所述的基于邻域搜索策略的特征选择装置,其特征在于,所述选取单元,适于采用如下的公式计算所述相似度矩阵中的特征子集之间的相似度:
Sij=||xi-xj||;
其中,Sij表示第i个特征子集xi与第j个特征子集xj之间的相似度,||xi-xj||表示第i个特征子集xi与第j个特征子集xj之间的欧式距离。


4.根据权利要求1所述的基于邻域搜索策略的特征选择装置,其特征在于,所述选取单元,适于采用如下的公式计算所述特征子集的适应度数值:<...

【专利技术属性】
技术研发人员:仇晨晔
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1