当前位置: 首页 > 专利查询>宁波大学专利>正文

一种基于差分进化优化近邻成分分析的特征选择方法技术

技术编号:18764584 阅读:29 留言:0更新日期:2018-08-25 10:51
本发明专利技术公开一种基于差分进化优化近邻成分分析的特征选择方法,旨在解决如何从最优化的角度优化近邻成分分析(NCA)算法,从而得到最优的特征权重系数。本发明专利技术方法利用差分进化算法优化NCA算法的目标函数,从而得到全局最优的特征权重系数。相比于传统的NCA方法,利用差分进化算法来优化为NCA算法的目标函数,以保证最后的权重系数向量是全局最优结果而非局部最优。其次,本发明专利技术方法与传统NCA的不同之处在于未曾考虑包含规划化参数的目标函数,也就不需要确定规则化参数的大小。可以说,本发明专利技术发法是对传统NCA方法用于分类特征选择的一种完善策略。

【技术实现步骤摘要】
一种基于差分进化优化近邻成分分析的特征选择方法
本专利技术涉及一种特征选择方法,尤其涉及一种基于差分进化优化近邻成分分析的特征选择方法。
技术介绍
近年来,数据挖掘方法在各行各业都得到了广泛的应,针对数据挖掘方法的理论研究与应用研究同样得到了广泛的关注。在工业信息化建设、金融领域、互联网行业,对数据挖掘与机器学习的研究投入了大量的人力与物力。特征选择在数据挖掘与机器学习中占有者重要的地位,它虽然不是某种特定的数据挖掘或机器学习算法,但是特征选择能显著地改善后续数据挖掘算法的性能。尤其是针对高维数据进行数据建模时,特征选择所能发挥出的积极作用是有目共睹的。以模式识别中常见的分类模型为例,模型的输入通常是高维的样本数据,而模型的输出则为各样本数据对应的类别标号。在应用相同的分类算法的前提下,采取与不采取输入数据特征选择在分类准确率上有着显著地差异。因为,实施特征选择后再建立分类模型时,能够剔除很多干扰信息的负面影响,从而提升分类模型的精度。针对特征选择的研究,已有很多研究人员针对不同的对象、不同的问题提出了相应的解决思路。这其中,近邻成分分析(NeighborhoodComponentAnalysis,NCA)是一种较新颖的特征选择算法,可专门用于分类建模前的特征选择。NCA通过1阶近邻的方式优化Leave-One-Out分类正确率,进而得到各个输入特征的权重系数。那么,权重系数接近于0的特征就是无用特征,可以予以剔除。然而,传统NCA方法的优化求解特征权重系数的过程很容易陷入局部最优,而且权重系数也容易出现过拟合现象。虽然,可通过引入规则化参数调整过拟合程度,但是如何选择该规则化参数目前只能依靠交叉验证的方式进行。因此,传统NCA算法的完善还有待进一步的研究。
技术实现思路
本专利技术所要解决的主要技术问题是:如何从最优化的角度优化NCA算法,从而得到最优的特征权重系数。具体来讲,本专利技术方法利用差分进化算法优化NCA算法的目标函数,从而得到全局最优的特征权重系数。本专利技术解决上述技术问题所采用的技术方案为:一种基于差分进化优化近邻成分分析的特征选择方法,包括以下步骤:(1)收集应用对象不同类别y1,y2,…,yC所对应的样本数据集X1,X2,…,XC,其中,C表示类别总数,第c类数据集包含m个特征的Nc个样本数据,c=1,2,…,C。(2)将数据集X1,X2,…,XC组成一个矩阵X∈RN×m,并对X按列实施标准化处理得到X=[x1,x2,…,xN]T∈RN×m从而消除各特征的量纲的影响,其中N=N1+N1+…+NC,xi∈Rm×1表示第i个样本数据。(3)设置差分进化算法的参数,包括种群数nP=6m、缩放因子Z=0.6、最大迭代次数Imax≥2000、以及交叉概率p=0.1。(4)任意初始化m×nP维的矩阵W=[w1,w2,…,wnP]后,置迭代次数iter=0与k=1。(5)取矩阵W中第k个列向量作为种群wk∈Rm×1后,根据公式dij=wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij,其中|xi-xj|表示将向量xi-xj中的元素都取绝对值,下标号i,j=1,2,…,N。(6)根据如下所示公式计算xi选择xj作为其参考数据点的概率pij:(7)根据公式fk=∑i∑jzijpij计算第k个种群wk对应的目标函数fk,其中zij为二进制数且只在xi与xj属于同一种类时取值1。(8)判断是否满足条件k<N?若是,置k=k+1后返回步骤(5);若否,得到目标函数向量F=[f1,f2,…,fN]后找出F中最大值fbest所对应的种群wbest,并执行下一步骤(9)。(9)根据如下所示公式为每个种群产生一个对应的变异向量vk:vk=wk+Z(wbest-wk)+Z(wa-wb)(2)上式中,下标号a与b为从区间[1,nP]中随机产生的2个互不相同的整数。(10)按照如下所示公式对变异向量vk进行修正,即;其中,vk,n表示向量vk中的第n个元素,n=1,2,…,m。(11)根据如下所示公式产生尝试向量uk∈Rm×1,即:其中,uk,n与wk,n分别为uk与wk中第n个元素,向量rand∈Rm×1中各元素都是0到1之间均匀分布的任意随机小数,randn则为随机向量rand中的第n个元素。(12)依据如下所示公式更新种群wk,即:上式中,h(uk)表示将uk作为种群wk的替换值后计算得到的目标函数值。(13)重复步骤(9)~(12)直至所有种群都更新完毕以得到新矩阵W,并置iter=iter+1。(14)判断是否满足条件iter>Imax?若否,返回步骤(5)继续执行;若是,则输出最大目标函数fbest所对应的种群wbest,即为各个特征的相应权重系数。(15)根据wbest∈Rm×1中各个元素的具体数值大小,将接近于0的元素所对应的特征剔除,那么剩余的特征即为特征选择后的结果。与传统方法相比,本专利技术方法的优势在于:首先,本专利技术方法利用差分进化算法来优化NCA算法的目标函数,以保证最后的权重系数向量是全局最优结果而非局部最优。其次,本专利技术方法与传统NCA的不同之处在于未曾考虑包含规划化参数的目标函数,也就不需要确定规则化参数的大小。可以说,本专利技术发法是对传统NCA方法用于分类特征选择的一种完善策略。附图说明图1为本专利技术方法的实施流程图。图2为本专利技术方法的特征选择结果示意图。具体实施方式下面结合附图与具体的实施案例对本专利技术方法进行详细的说明。如图1所示,本专利技术公开一种基于差分进化优化近邻成分分析的特征选择方法。下面设计一个两分类的数值案例验证本专利技术方法的有效性。随机产生一个500×20维的在区间[0,1]之间均匀分布的数据集X,将数据集X中满足条件X3·X9/X15<0.4的样本的类别标号设置成y1=1,而其他不满足条件的样本的类别标号设置成y2=2。(1)上述训练数据集由两类样本数据组成,特征选择的结果理应选择数据集X中第3、9、和15列所对应的特征,下面继续实施本专利技术方法。(2)对X按列实施标准化处理得到X=[x1,x2,…,x500]T∈R500×20从而消除各特征的量纲的影响。(3)设置差分进化算法的参数,包括种群数nP=120、缩放因子Z=0.6、最大迭代次数Imax=2000、以及交叉概率p=0.1。(4)利任意初始化m×nP维的矩阵W=[w1,w2,…,wnP]后,置迭代次数iter=0与k=1。(5)取矩阵W中第k个列向量作为种群wk∈Rm×1后,根据公式dij=wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij。(6)计算xi选择xj作为其参考数据点的概率pij。(7)根据公式fk=∑i∑jzijpij计算第k个种群wk对应的目标函数fk。(8)判断是否满足条件k<500?若是,置k=k+1后返回步骤(5);若否,得到目标函数向量F=[f1,f2,…,f500]后找出F中最大值fbest所对应的种群wbest,并执行下一步骤(9)。(9)为每个种群产生一个对应的变异向量vk。(10)对变异向量vk进行修正。(11)根据如下所示公式产生尝试向量uk∈Rm×1,即:(12)更新种群wk。(13)重复步骤(9)~(12)直至所有种群都更新完毕以得到新矩阵W,并置iter=本文档来自技高网
...

【技术保护点】
1.一种基于差分进化优化近邻成分分析的特征选择方法,其特征在于,包括以下步骤:步骤(1):收集应用对象不同类别y1,y2,…,yC所对应的样本数据集X1,X2,…,XC,其中,C表示类别总数,第c类数据集

【技术特征摘要】
1.一种基于差分进化优化近邻成分分析的特征选择方法,其特征在于,包括以下步骤:步骤(1):收集应用对象不同类别y1,y2,…,yC所对应的样本数据集X1,X2,…,XC,其中,C表示类别总数,第c类数据集包含m个特征的Nc个样本数据,c=1,2,…,C;步骤(2):将数据集X1,X2,…,XC组成一个矩阵X∈RN×m,并对X按列实施标准化处理得到X=[x1,x2,…,xN]T∈RN×m从而消除各特征的量纲的影响,其中N=N1+N1+…+NC,xi∈Rm×1表示第i个样本数据,上标号T表示矩阵或向量的转置;步骤(3):设置差分进化算法的参数,包括种群数nP=6m、缩放因子Z=0.6、最大迭代次数Imax≥2000、以及交叉概率p=0.1;步骤(4):利任意初始化m×nP维的矩阵W=[w1,w2,…,wnP]后,置迭代次数iter=0与k=1;步骤(5):取矩阵W中第k个列向量作为种群wk∈Rm×1后,根据公式dij=wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij,其中|xi-xj|表示将向量xi-xj中的元素都取绝对值,下标号i,j=1,2,…,N;步骤(6):根据如下所示公式计算xi选择xj作为其参考数据点的概率pij:步骤(7):根据公式fk=∑i∑jzijpij计算第k个种群wk对应的近邻成分分析目标函数fk,其中zij为二进制数且只在xi与xj属于同一种类时取值1;步骤(8):判断是否满足条件...

【专利技术属性】
技术研发人员:童楚东俞海珍朱莹
申请(专利权)人:宁波大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1