当前位置: 首页 > 专利查询>重庆大学专利>正文

一种面向复杂模式分类的特征选择方法技术

技术编号:2925110 阅读:284 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种面向复杂模式分类的特征选择方法,该方法是在传统遗传方法的基础上,通过改进种群的结构为双环智能体网络结构,使种群分为多个子种群,子种群间通过共享智能体传递信息,所有子种群的遗传进化同步进行,改进的动态邻域竞争操作和邻域自适应交叉操作方法提高了遗传进化效率,同时引入二进制编码方式表达某个特征是否被选中,方便编码和解码,实现高效的特征选择。与传统的特征选择相比,该选择方法具有较高的自适应性,可在高维多峰的特征空间中进行快速搜索,并有效避免陷入局部极值,获得较满意的特征选择效果。

【技术实现步骤摘要】

本专利技术属于模式分类
,具体地说,涉及一种面向复杂模式分类的 特征选择方法。
技术介绍
模式分类问题目前广泛应用于社会的各个领域,如图像分类、数据挖掘、 信息检索、信息提取、语音识别等,其处理方法通常包括如下几个部分样本 预处理、特征提取、特征选择、分类。其中,特征选择是模式分类系统中重要 的预处理过程。在模式分类系统中,经过特征提取后的样本往往含有大量的特 征,特征选择就是从这些大量的特征中过滤掉对分类无关或作用较小的特征, 选择出对分类非常有用的特征,以便分类器分类。因此特征选择的结果影响着 分类的效率和准确率。近年来,模式分类问题己经变得越来越复杂,这主要表现在模式类别增多、 类与类之间的区别越来越微妙、待分类的样本数越来越多等等,特征是否包含 足够的类别信息越来越难以确定。为了提高分类准确率,总是最大限度地提取 特征,结果不仅使特征维数增大,而且可能存在较大的相关性和冗余,这给特 征的进一步处理和分类器的实现都带来很大的困难。因而,需要在不降低或尽 量不降低分类准确率的前提下,尽量降低特征维数,这使得特征选择在复杂模 式分类问题中显得更为重要。特征选择中主要有两个问题要解决, 一是选择结果的评价准则,即要选出 使某一可分性能达到最大的特征子集来。另一个问题是要找到一个较好的搜索 方法,以便在允许的时间内找出最优的那一个特征子集(即那一组最优的特征 组合)。现有技术中前一个问题的解决方案已经比较成熟,而提出一种高效率 的特征选择搜索方法是函待解决的重要课题,尤其是对于复杂的模式分类问题。 在高效率的特征选择方法基础上才能实现高效率的特征选择。传统的特征选择方法主要包括分支定界法、顺序前进法、顺序后退法、增1减r法。由于复杂模式分类问题导致搜索空间变得复杂,常常是一个高维多峰的搜索空间,因此采用这些传统的搜索方法的特征选择方法往往容易陷入局部 极值而得到局部最优的特征子集。穷举法是一种基本的遍历搜索方法,但复杂 的模式分类问题带来的高维搜索空间使得待搜索的点非常巨大,在有限的时间 里遍历这些点是不实际的。近年来也出现了针对传统方法的一些新技术为了减少选择所需时间同时 能得到最优解,提出了具有回溯功能的分支定界法,它是一种自下而上方法, 可使所有可能的特征组合都被考虑到。由于合理地组织搜索过程,使得有可能 避免计算某些特征组合而不影响结果为最优。但是当搜索空间较为复杂的时候, 需要回溯的分支点较多,因此需要大量空间记录这些分支点。为了进一步减少 选择时间,不得不放弃最优解而采用计算量小的次优搜索方法。模拟退火法是一种基于Mente Carlo (蒙特卡洛)迭代求解策略的一种随机寻优方法,其出发 点是基于物理中固体物质的退火过程与一般组合优化问题之间的相似性。该方 法在某一初温下,伴随温度参数的不断下降,结合概率突跳特性在解空间中随 机寻找目标函数的全局最优解。但是,初温不可能给无限高,温度下降也不可 能无限慢,因此模拟退火法实际上寻找的是局部次优解,由于复杂模式分类问 题的特征搜索空间高维多峰,因此该方法常常得到的是局部次优的特征子集。遗传方法是一种优良的全局优化方法。它是基于"适者生存"的一种高度 并行、随机和自适应的优化方法,它将问题的求解表示成"染色体"的适者生 存过程,通过"染色体"群的一代代不断进化,包括选择、交叉和变异等操作, 最终收敛到"最适应环境"的个体,从而求得问题的最优解或满意解。遗传方 法是一种通用的优化方法,其编码技术和遗传操作比较简单,优化不受限制性 条件的约束,而其两个最显著特点则是隐含并行性和全局解空间搜索。目前, 随着计算机技术的发展,GA愈来愈得到人们的重视,并在机器学习、模式识别、图像处理、神经网络、优化控制、组合优化、VLSI设计等诸多领域,显示出GA 强大的求解问题的能力以及其广阔的研究和应用前景。尽管遗传方法具有如此多的优点,但传统的遗传方法仍然存在收敛速度慢, 搜索效率不高的问题。因此,近年来出现了一些改进的遗传方法。但是这些改 进的遗传方法主要集中在对遗传进化操作的改进,很少涉及对种群结构的改 进;其次遗传操作必须在整个种群进行,不仅需要大量的计算(例如选择过程 需要在整个种群中选择个体),同时还容易降低种群的多样性,不符合现实的 自然界中的进化状况,导致过早收敛;因此,高性能的改进遗传方法还有待进 一步研究。Weicai Zhong等人引入智能体实现了一种新的种群网络结构-网格式 智能体结构,并结合遗传方法的搜索方式提出了一种多智能体遗传方法,在数 值优化领域中取得了重要的改进效果,但是还未引入到特征选择中加以研究, 且其优化速度和精度还有待提高。而且我们在研究中发现,该智能体遗传方法 中智能体个体邻域竞争不是动态的,并且由于其采用四邻域的智能体网络结构, 容易造成某些优势个体占据多个网络格点,即易导致局部顶端优势,从而不利 于保持种群的多样性,易出现"早熟"现象。参考文献Nenad Mladenovic, Milan Drazic, Vera Kovac evic-Vujcic, et al. General variable neighborhood search for the continuous optimization. European Journal of Operational Research, 2008, 191(3): 753-770Steven Orla Kimbrough, Gary J. Koehler, Ming Lu, et al. On a Feasible-Infeasible Two-Population (FI-2Pop) genetic algorithm for constrained optimization: Distance tracing and no free lunch. European Journal of Operational Research, 2008, 190(2): 310-327Zbigniew Michalewicz and David B.Fogel. How to solve it: Modern Heuristics. Springer-Verlag Berlin Heidelberg 2000: 83-234Y.W.Leung and Y.Wang. An orthogonal genetic algorithm with quantization for global numerical optimization. IEEE Trans.evol.comput., 2001, 5(2):41-53H Muhlenbein and D Schlierkamp-vose. Predictive models for the breeder genetic algorithm. Evol.computat, 1993, 1(1》25-49Weicai Zhong, Jing Liu, Mingzhi Xue, et al. A Multi-agent Genetic Algorithm for Global Numerical Optimizati本文档来自技高网...

【技术保护点】
一种面向复杂模式分类的特征选择方法,其特征在于按照下列步骤进行:(1)采集经过特征提取后得到的样本数据集;(2)对该样本数据集按特征进行归一化处理;(3)对归一化后的样本数据集进行矩阵变换,形成特征矩阵;(4)设置初始参数;(5)根据所述初始参数随机生成种群,所述种群的每个个体即智能体;(6)根据所述初始参数构建种群的双环智能体网络结构,该双环智能体网络结构具体为:所述种群被分为多个子种群,每个子种群构成一个闭合的小环,子种群内部各个智能体位于闭合小环的节点上,相邻小环之间共享部分智能体,从而相互连接,形成一个闭合的大环;(7)进入遗传进化机构,所述所有子种群的遗传进化并行进行;所述遗传进化机构包括:用于初始化精英数组的装置;用于计算种群中智能体的适应度值fitness的装置;用于判断是否满足终止条件的装置;如果满足,则进入用于输出适应度值最高的智能体的装置;进入用于结束特征选择的装置;如果不满足,则进入用于更新精英数组以及种群的装置;用于选择的装置;用于自适应交叉的装置;用于自适应变异的装置;返回到所述用于计算种群中智能体的适应度值fitness的装置。

【技术特征摘要】

【专利技术属性】
技术研发人员:李勇明曾孝平韩亮赵德春冯文江吴玉成蒋阳韩庆文
申请(专利权)人:重庆大学
类型:发明
国别省市:85[中国|重庆]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利