一种基于人工神经网络的特征选择方法技术

技术编号:2928861 阅读:217 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于人工神经网络的特征选择方法,包括:①用户给定需要进行特征选择的所有特征,给出对人工神经网络进行训练用的样本;②选定模糊隶属度函数的个数,设置人工神经网络各层的节点数以及各层之间的连接权值和模糊隶属度函数参数的初始值;③利用反向传播算法,以批处理的学习方式,对网络进行训练,调整网络连接权值和模糊隶属度函数的参数;④计算所有特征的重要性度量,并对特征排序。本发明专利技术较好地避免了数据归一化的难题;计算简单,网络只需训练一次;容易和各种搜索算法结合起来组成一个完整的特征选择系统。本发明专利技术已成功应用于多种具有多维特征的模式识别和目标分类,也可应用于各类涉及数据型特征的模式识别领域。

【技术实现步骤摘要】

本专利技术属于模式识别领域,涉及一种特征选择方法,具体为。
技术介绍
特征选择(feature selection)技术是模式识别领域中的一个重要方面,因为模式识别算法的复杂度往往随着数据维数的增长而以指数的形式增长,如果不设法降低数据的维数,分类器的规模将变得异常庞大,进行分类所需要的运算开销也会大得无法承受。因此对数据特征进行选择,选出其中的重要特征,降低数据特征的维数是不可缺少的环节。而且,目前多数模式识别算法所用的特征大多是由机器自动提取的,这就不可避免地存在冗余、噪声等特征,利用特征选择可以有效地消除这一问题。特征选择是在不降低或较少降低分类器识别率的条件下,从所有特征构成的集合中选出一个子集的过程。特征选择技术的关键点是选用什么准则来度量特征的重要性。传统的度量准则,如基于距离的度量、基于信息(或不确定性)的度量、基于依赖性的度量等等,侧重于分析数据的特性,这类方法在实践中效果并不十分理想。随着人工智能领域的不断进步,一些利用人工神经网络(artificialneuron networks)和模糊数学(fuzzy math)等技术的特征度量方法被提了出来。这一类方法都是基于分类错误率的,即根据特征对分类错误率的贡献来度量其重要性大小,因此比前一类方法更加有效。在具体操作上,这类方法大多数利用人工神经网络技术来进行特征选择。基于人工神经网络的特征选择可以看作是剪枝算法(prune algorithm)的一个特例,即剪除输入层的节点而不是隐含层的节点或权值,如文献1的Reed R.Pruning Algorithms-A Survey.IEEE Transactions on Neural Networks,1993,4(5)740~746介绍的。常见的思路是利用剪枝前后人工神经网络的输出值的变化作为特征的敏感性度量,如文献2的Verikas A,Baeauskiene M.Featureselection with neural networks.Pattern Recognition Letters,2002,23(11)1323~1335。这种思路的基本假设是一个学习良好的神经网络,对于越重要的特征的变化,其相应的输出值变化也越大,即越敏感,反之亦然。基于敏感性度量Aj的特征选择方法最直接而准确地反映了这一假设,如文献3的Ruck D W,Rogers S K and Kabrisky M.Feature selection using a multilayerperceptron,Journal of Neural Network Computing,1990,9(1)40~48所述。具体考察某个特征的重要性时,通过计算该特征删除前后人工神经网络的输出的变化作为特征度量。所谓删除特征,就是令样本中该特征的观察值恒为零,如文献4的De R.K,Basak J and Pal S K.Neuro-Fuzzy Feature EvaluationWith Theoretical Analysis.Neural Networks,1999,12(10)1429~1455。这种方法要求首先对数据进行归一化,这可能会破坏数据。为了避开归一化的问题,可以在人工神经网络中增加一个模糊映射(fuzzy mapping)层,该层将每一个特征按一对多映射,映射后的新特征,即模糊特征,其定义域限定为,因此就避开了归一化的问题,如文献5的Jia P and Sang N.Feature selectionusing a radial basis function networks and fuzzy set theoretic measures.InProceedings of SPIE 5281(1)-the Third International Symposium onMultispectral Image Processing and Pattern Recognition,Beijing,ChinaThe International Society of Optical Engineering Press,2003.109~114。在这种方法里,模糊隶属度函数(fuzzy membership function)是在人工神经网络进行学习之前就已经获得的,它依赖的仍然是数据的一、二阶矩,这与文献4的归一化其实有同样的问题。事实上,完全可以把文献5提出的模糊映射层从网络中独立出来,作为一种归一化方法进行数据的预处理。
技术实现思路
本专利技术的目的在于提供,该方法避免了数据归一化的难题,鲁棒性高,对噪声特征和冗余特征具有好的效果。本专利技术提供的,包括以下步骤(1)用户指定需要进行特征选择的特征fi,i=1,…,N,给出对人工神经网络进行训练用的训练样本集 训练样本有相同的维数R,R=N,分为K个类别ω1,…,ωK,第q个训练样本xq的第i维xqi即指定的第i个特征fi的第q次观测值;(2)根据训练样本,构造依次由输入层、模糊映射层、隐含层和输出层组成的人工神经网络;神经网络数据由输入层输入神经网络,通过连接权w2传递到模糊映射层,经过模糊映射层作用之后再通过连接权w3传递到隐含层,经过隐含层作用之后再通过连接权w4传递到输出层获得输出,其中,m=2,3,4;(3)使用用户给出的训练样本集训练初始化之后的人工神经网络,其处理过程为(3.1)选用均方误差的估计量e作为学习过程中的性能指数e=1QΣq=1QΣi=1G(tim(q)-aim(q))2]]>其中,tim(q)是第m层的节点i在输入第q个样本时的输出的目标值,aim(q)是第m层的节点i在输入第q个样本时的实际输出,G为该层的节点数;(3.2)采用反向传播算法对人工神经网络各层之间的连接权矩阵wm进行训练,其中m=3,4;(3.3)对模糊映射层节点的作用函数中的参数ξ,σ,τ进行更新;(3.4)当e满足收敛条件时,进入步骤(4),否则重复步骤(3.2)-(3.3);(4)使用已训练好的人工神经网络对特征进行模糊剪枝,计算每个特征的重要性度量,并按重要性的度量值对特征排序。本专利技术只需要用户给出原始特征集和训练用的样本,能够从中获得原始特征集中的所有特征对分类的重要性的排序。本专利技术的特征选择方法与现有的特征选择方法相比的优点在于较好地避免了数据归一化的难题;计算简单,神经网络只需训练一次;容易和各种搜索算法结合起来组成一个完整的特征选择系统。本专利技术已成功应用于多种具有多维特征的模式识别和目标分类,也可应用于各类涉及数据型特征的模式识别领域。附图说明图1为基于带自适应模糊映射层的人工神经网络的特征选择方法的流程图;图2为带有自适应模糊映射层的人工神经网络的结构示意图;图3为实例中建立的带有自适应模糊映射层的人工神经网络的结构示意4为特征seqal length的模糊隶属度函数图(初始值)。具体实施例方式本专利技术的特征选择方法在用户给出训练用的数据集和需要进行选择的特征集的前提下,开始特征选择过程,下面详细介绍特征选择流程。进行特征选择,就是要获得对特征的重要性的度量。本专利技术提出的特征选择方法中,使用用户提供的本文档来自技高网
...

【技术保护点】
一种基于人工神经网络的特征选择方法,包括以下步骤:(1)用户指定需要进行特征选择的特征f↓[i],i=1,…,N,给出对人工神经网络进行训练用的训练样本集:X={x↓[q]=(x↓[q1],…,x↓[qi],…,x↓[qR] )↑[T]∈*↑[R],q=1,…,Q}训练样本有相同的维数R,R=N,分为K个类别:ω↓[1],…,ω↓[K],第q个训练样本x↓[q]的第i维x↓[qi]即指定的第i个特征f↓[i]的第q次观测值;(2)根据训练样本,构 造依次由输入层、模糊映射层、隐含层和输出层组成的人工神经网络;神经网络数据由输入层输入神经网络,通过连接权w↑[2]传递到模糊映射层,经过模糊映射层作用之后再通过连接权w↑[3]传递到隐含层,经过隐含层作用之后再通过连接权w↑[4]传递到输出层获得输出,其中,m=2,3,4;(3)使用用户给出的训练样本集训练初始化之后的人工神经网络,其处理过程为:(3.1)选用均方误差的估计量e作为学习过程中的性能指数:e=1/Q**(t↓[i]↑[m](q)-a↓[ i]↑[m](q))↑[2]其中,t↓[i]↑[m](q)是第m层的节点i在输入第q个样本时的输出的目标值,a↓[i]↑[m](q)是第m层的节点i在输入第q个样本时的实际输出,G为该层的节点数;(3.2)采用反向传播算法对 人工神经网络各层之间的连接权矩阵w↑[m]进行训练,其中m=3,4;(3.3)对模糊映射层节点的作用函数中的参数ξ,σ,τ进行更新;(3.4)当e满足收敛条件时,进入步骤(4),否则重复步骤(3.2)-(3.3);( 4)使用已训练好的人工神经网络对特征进行模糊剪枝,计算每个特征的重要性度量,并按重要性的度量值对特征排序。...

【技术特征摘要】

【专利技术属性】
技术研发人员:桑农曹治国张天序谢衍涛张荣贾沛
申请(专利权)人:华中科技大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利