一种基于PTPR和轮盘赌的特征选择方法技术

技术编号:15330200 阅读:85 留言:0更新日期:2017-05-16 13:42
本发明专利技术属于数据挖掘、生物信息学技术的交叉领域,提出了一种基于PTPR和轮盘赌的特征选择方法,是在职业网球选手排名算法的基础上,结合了轮盘赌算法,分别在种子集和非种子集中加入了轮盘赌机制,该机制用每个特征的累计得分计算出该特征被选中参与下一轮竞争的概率。这样,在种子集和非种子集中,表现相对较好的特征会以较高的概率被抽取。本发明专利技术提供了一种特征选择的新方法,该算法迭代多次,通过轮盘赌机制尽可能地使表现相对较好的特征参与每次迭代,从而提高了算法的收敛速度,增加了算法的分类准确率。算法最后根据每个特征的最终得分进行排序,得到特征排名,从排名靠前的特征中挑选出具有区分能力的特征形成特征子集。

A feature selection method based on PTPR and Roulette

The invention belongs to the field of bioinformatics, data mining technology, we propose a feature selection method based on PTPR and roulette, is a basic algorithm ranking in the occupation tennis player, combining roulette algorithm, are respectively joined the roulette mechanism in the seed set and seed, the mechanism of cumulative score each feature to calculate the probability of the feature was selected to participate in the next round of competition. Thus, relatively good features in seed set and non seed concentration can be extracted with higher probability. The present invention provides a new method of feature selection algorithm, the iterative times, through the roulette mechanism as much as possible so that the relatively good performance characteristics in each iteration, thus improving the convergence speed of the algorithm, the algorithm increases the classification accuracy. In the end, the algorithm is sorted according to the final scores of each feature, and the feature ranking is obtained. The discriminative feature is selected from the pre ranking feature to form the feature subset.

【技术实现步骤摘要】
一种基于PTPR和轮盘赌的特征选择方法
本专利技术属于生物信息学技术与数据挖掘的交叉领域,用于从生物信息中筛选出具有区分能力的生物标志物,具体涉及一种基于PTPR和轮盘赌的特征选择方法。
技术介绍
生物信息学是伴随着人类基因组计划发展而产生的一门涉及生物学、数学以及计算机科学的交叉学科,包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐释和理解大量数据所包含的生物学意义。数据挖掘是近年来新兴的一种科学计算技术与数据分析方法,它能够有效地从大量数据中提取潜在的信息与知识。在生物信息领域,计算机工作者与生物学家合作,研究提出了一系列的挖掘算法和挖掘模式,并应用于生物数据,取得了传统生物计算技术无可比拟的效果。生物信息数据具有数据量巨大,数据维数高等特征。通常情况下,数据维数可以达到成百上千甚至几万维。如此高的维数带来了两个主要问题。一是所谓的“维数灾难”。现有的大多数算法的时间复杂度都达到了二次或更高,很难去处理更高维的数据。处理高维数据面临的另一个困难是样本数目的相对短缺。也就是说,维数有时会远远高于样本的数量。在这种情况下,对于高维数据的分析和处理,传统的数据处理方法己经不能满足稳健性等要求了,需要设计更有效的搜索策略和评价准则。为了解决高维数据所带来的问题,需要对数据进行降维处理,并且通过某种方式来增加样本的数量。特征选择是对数据降维的一种有效方法,能删除那些干扰特征和冗余特征,从大量特征中筛选出有意义的、具有代表性的少数特征,从而挖掘出隐藏的、具有研究价值的重要信息。近年来,一种基于职业网球选手排名(PTPR)的基因随机选择算法(称为“PTPR算法”)被广泛使用。该算法在MonteCarlo(MC)特征选择算法的基础上,根据对职业网球选手排名和基因选择问题的分析,把PTPR的思想引入到特征选择方法中形成了一种新的特征选择算法。MC特征选择算法通过建立成千上万棵决策树,然后计算所有决策树各节点(特征)的重要性,即RI值(见公式(1)),作为最终衡量特征排名的指标。特征的RI越大,代表其越重要,排名越靠前。PTPR算法保留了MC算法的精髓,即随机选择,同时借鉴PTPR排名机制,引入了种子变量排名、排名滚动更新,在每次迭代之后根据特征的重要性对特征进行排名,根据特征排名把排名靠前的少数特征放入种子集中,其余的特征放入非种子集中,类似于网球比赛中的种子选手和非种子选手,种子集中特征的表现要优于非种子集中的特征。在下次迭代中,非种子集中的特征以较低的概率被抽中参与决策树建立,而种子集中的特征以较高的概率被抽取参与建树,这样使得每次迭代都有表现相对较好的特征参与建树,优化了搜索过程,提高了搜索效率。PTPR算法将种子变量放入种子集list中,种子变量排名是list内的种子选手到目前为止累计RI的比较,同时算法逐次滚动更新当前种子变量排名,使得表现较好的特征有较大的概率被抽取,进一步提高搜索效率,随着迭代次数的增加逐渐有真正的种子变量进入种子集中,种子集逐渐趋近最优。PTPR算法最重要的思想是:运用种子变量、滚动更新及历史信息(RI),标记并保留已搜索到的当前最优变量,并在下一步的迭代搜索中更新特征排名,避免因初解不同、盲目搜索对结果造成的不稳定,从而快速高效地筛选出重要特征。在随机搜索策略中,轮盘赌算法是一种常用的随机选择方法,类似于博彩游戏中的轮盘赌,常被用于遗传算法中,个体的适应度按比例转换为选择的概率,按个体所占的比值在一圆盘上进行比例划分,每次转动圆盘后待圆盘停止后指针停靠扇区对应的个体为选中的个体。显然,个体概率越大,其在圆盘中所占的面积越大,其被选中的机会也就越大。
技术实现思路
虽然PTPR算法把特征集合分成了种子集和非种子集,使得种子特征比非种子特征有较高的概率被抽取,但是在各自的集合中,特征还是以相同的概率被抽取,无法尽可能地抽出表现相对较好的特征。本专利技术在PTPR算法的基础上,结合了轮盘赌算法,分别在种子集和非种子集中加入了轮盘赌机制,进一步在两个集合中抽取相对优秀的特征,该机制用每个特征的历史得分RI计算出该特征被选中参与下一轮竞争的概率。这样,在各自的集合中,表现相对较好的特征(RI得分高)会以较高的概率被抽取,而不是以等概率随机地被抽取,这样提高了优秀的特征参与建树的概率,从而提高了算法的收敛速度,增加了算法的搜索效率。由此,本专利技术提出了一种基于职业网球选手排名和轮盘赌的特征选择算法称作MPTPR算法。本专利技术的技术方案:一种基于PTPR和轮盘赌的特征选择方法,步骤如下:MPTPR算法分为两部分:初始化和循环寻优;(1)初始化对于d个特征,计算每个特征在训练样本上的信息增益;MPTPR算法使用ID3决策树作为分类模型,信息增益是ID3决策树所使用的节点分裂准则;使用每个特征的信息增益作为其初始RI得分,再根据每个特征的RI得到最初的特征排名,初始化循环变量s为1;(2)循环寻优1)根据特征排名,把特征排名前200的特征放入种子集,其余的特征放入非种子集;对于种子集和非种子集,分别根据其中每个特征的得分RI构造一个轮盘赌,从种子集中按照轮盘赌机制随机选择p*m个特征;从非种子集中按照轮盘赌机制随机选择(1-p)*m个特征,得到含有m个特征的子集;2)对于含有m个特征的子集,从训练样本中随机抽取50%的样本用于构建一棵决策树,其余50%样本用来测试所构建的决策树,该过程进行t次,即构建t棵决策树;3)计算步骤2)中参与决策树建立的特征的得分,更新RI值,根据每个特征的RI进行排名,动态更新特征排名,计算公式如(1):其中:k为决策的节点即为特征,wAcc为特征k所在决策树的分类准确率,IG(nk(τ))为特征k所在决策树中节点nk(τ)处的信息增益,no.innk(τ)为节点nk(τ)处的样本数,no.inτ为特征k所在决策树根节点的样本数;4)此时s=s+1,当s≤snum时,返回步骤1),否则,进入步骤5);5)得到d个特征的最终排名,根据需要,选出排名靠前的特征作为最后的特征子集;其中:d为训练集的特征数;m为每次迭代参与建树的特征数,m<d;p为每次从种子集中抽取的特征占m个特征的比例;t为每次迭代所构建决策树的数量;snum为算法迭代总次数。本专利技术的有益效果:本专利技术提供了一种特征选择的新方法,该算法迭代多次,通过轮盘赌机制尽可能地使表现相对较好的特征参与每次迭代,从而提高了算法的收敛速度,增加了算法的分类准确率。算法最后根据每个特征的最终得分进行排序,得到特征排名,从排名靠前的特征中挑选出具有区分能力的特征形成特征子集。具体实施方式以下结合技术方案,进一步说明本专利技术的具体实施方式。实施例以数据集breast为例,简要说明特征选择方法MPTPR的执行过程。数据集breast有77个样本、4869个特征,其中F={f1,f2,……,f4869},F代表特征集合,f代表每个特征,参数设置如下:d=4869,m=d*0.02=97,p=0.6,t=10,snum=100.MPTPR算法分为两部分,首先算法进入初始化部分,计算breast中每个特征在所有样本上的信息增益,把每个特征的信息增益作为其初始的RI值,根本文档来自技高网
...

【技术保护点】
一种基于PTPR和轮盘赌的特征选择方法,其特征在于,步骤如下:MPTPR算法分为两部分:初始化和循环寻优;(1)初始化对于d个特征,计算每个特征在训练样本上的信息增益;MPTPR算法使用ID3决策树作为分类模型,信息增益是ID3决策树所使用的节点分裂准则;使用每个特征的信息增益作为其初始RI得分,再根据每个特征的RI得到最初的特征排名,初始化循环变量s为1;(2)循环寻优1)根据特征排名,把特征排名前200的特征放入种子集,其余的特征放入非种子集;对于种子集和非种子集,分别根据其中每个特征的得分RI构造一个轮盘赌,从种子集中按照轮盘赌机制随机选择p*m个特征;从非种子集中按照轮盘赌机制随机选择(1‑p)*m个特征,得到含有m个特征的子集;2)对于含有m个特征的子集,从训练样本中随机抽取50%的样本用于构建一棵决策树,其余50%样本用来测试所构建的决策树,该过程进行t次,即构建t棵决策树;3)计算步骤2)中参与决策树建立的特征的得分,更新RI值,根据每个特征的RI进行排名,动态更新特征排名,计算公式如(1):

【技术特征摘要】
1.一种基于PTPR和轮盘赌的特征选择方法,其特征在于,步骤如下:MPTPR算法分为两部分:初始化和循环寻优;(1)初始化对于d个特征,计算每个特征在训练样本上的信息增益;MPTPR算法使用ID3决策树作为分类模型,信息增益是ID3决策树所使用的节点分裂准则;使用每个特征的信息增益作为其初始RI得分,再根据每个特征的RI得到最初的特征排名,初始化循环变量s为1;(2)循环寻优1)根据特征排名,把特征排名前200的特征放入种子集,其余的特征放入非种子集;对于种子集和非种子集,分别根据其中每个特征的得分RI构造一个轮盘赌,从种子集中按照轮盘赌机制随机选择p*m个特征;从非种子集中按照轮盘赌机制随机选择(1-p)*m个特征,得到含有m个特征的子集;2)对于含有m个特征的子集,从训练样本中随机抽取50%的样本用于构建一棵决策树,其余50%样本用来测试所构建的决策树,该过程进行t次,即构建t棵决策树;3)计算步骤2)中参与决策树建立...

【专利技术属性】
技术研发人员:王家天林晓惠
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1