一种基于差分进化优化近邻成分分析的特征选择方法技术

技术编号：18764584 阅读：29 留言：0更新日期：2018-08-25 10:51

本发明专利技术公开一种基于差分进化优化近邻成分分析的特征选择方法，旨在解决如何从最优化的角度优化近邻成分分析(NCA)算法，从而得到最优的特征权重系数。本发明专利技术方法利用差分进化算法优化NCA算法的目标函数，从而得到全局最优的特征权重系数。相比于传统的NCA方法，利用差分进化算法来优化为NCA算法的目标函数，以保证最后的权重系数向量是全局最优结果而非局部最优。其次，本发明专利技术方法与传统NCA的不同之处在于未曾考虑包含规划化参数的目标函数，也就不需要确定规则化参数的大小。可以说，本发明专利技术发法是对传统NCA方法用于分类特征选择的一种完善策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于差分进化优化近邻成分分析的特征选择方法
本专利技术涉及一种特征选择方法，尤其涉及一种基于差分进化优化近邻成分分析的特征选择方法。
技术介绍
近年来，数据挖掘方法在各行各业都得到了广泛的应，针对数据挖掘方法的理论研究与应用研究同样得到了广泛的关注。在工业信息化建设、金融领域、互联网行业，对数据挖掘与机器学习的研究投入了大量的人力与物力。特征选择在数据挖掘与机器学习中占有者重要的地位，它虽然不是某种特定的数据挖掘或机器学习算法，但是特征选择能显著地改善后续数据挖掘算法的性能。尤其是针对高维数据进行数据建模时，特征选择所能发挥出的积极作用是有目共睹的。以模式识别中常见的分类模型为例，模型的输入通常是高维的样本数据，而模型的输出则为各样本数据对应的类别标号。在应用相同的分类算法的前提下，采取与不采取输入数据特征选择在分类准确率上有着显著地差异。因为，实施特征选择后再建立分类模型时，能够剔除很多干扰信息的负面影响，从而提升分类模型的精度。针对特征选择的研究，已有很多研究人员针对不同的对象、不同的问题提出了相应的解决思路。这其中，近邻成分分析(NeighborhoodComponentAnalysis，NCA)是一种较新颖的特征选择算法，可专门用于分类建模前的特征选择。NCA通过1阶近邻的方式优化Leave-One-Out分类正确率，进而得到各个输入特征的权重系数。那么，权重系数接近于0的特征就是无用特征，可以予以剔除。然而，传统NCA方法的优化求解特征权重系数的过程很容易陷入局部最优，而且权重系数也容易出现过拟合现象。虽然，可通过引入规则化参数调整过拟合程度...

【技术保护点】
1.一种基于差分进化优化近邻成分分析的特征选择方法，其特征在于，包括以下步骤：步骤(1)：收集应用对象不同类别y1，y2，…，yC所对应的样本数据集X1，X2，…，XC，其中，C表示类别总数，第c类数据集

【技术特征摘要】
1.一种基于差分进化优化近邻成分分析的特征选择方法，其特征在于，包括以下步骤：步骤(1)：收集应用对象不同类别y1，y2，…，yC所对应的样本数据集X1，X2，…，XC，其中，C表示类别总数，第c类数据集包含m个特征的Nc个样本数据，c＝1，2，…，C；步骤(2)：将数据集X1，X2，…，XC组成一个矩阵X∈RN×m，并对X按列实施标准化处理得到X＝[x1，x2，…，xN]T∈RN×m从而消除各特征的量纲的影响，其中N＝N1+N1+…+NC，xi∈Rm×1表示第i个样本数据，上标号T表示矩阵或向量的转置；步骤(3)：设置差分进化算法的参数，包括种群数nP＝6m、缩放因子Z＝0.6、最大迭代次数Imax≥2000、以及交叉概率p＝0.1；步骤(4)：利任意初始化m×nP维的矩阵W＝[w1，w2，…，wnP]后，置迭代次数iter＝0与k＝1；步骤(5)：取矩阵W中第k个列向量作为种群wk∈Rm×1后，根据公式dij＝wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij，其中|xi-xj|表示将向量xi-xj中的元素都取绝对值，下标号i，j＝1，2，…，N；步骤(6)：根据如下所示公式计算xi选择xj作为其参考数据点的概率pij：步骤(7)：根据公式fk＝∑i∑jzijpij计算第k个种群wk对应的近邻成分分析目标函数fk，其中zij为二进制数且只在xi与xj属于同一种类时取值1；步骤(8)：判断是否满足条件...

【专利技术属性】
技术研发人员：童楚东，俞海珍，朱莹，
申请(专利权)人：宁波大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人