The invention belongs to the field of bioinformatics, data mining technology, we propose a feature selection method based on PTPR and roulette, is a basic algorithm ranking in the occupation tennis player, combining roulette algorithm, are respectively joined the roulette mechanism in the seed set and seed, the mechanism of cumulative score each feature to calculate the probability of the feature was selected to participate in the next round of competition. Thus, relatively good features in seed set and non seed concentration can be extracted with higher probability. The present invention provides a new method of feature selection algorithm, the iterative times, through the roulette mechanism as much as possible so that the relatively good performance characteristics in each iteration, thus improving the convergence speed of the algorithm, the algorithm increases the classification accuracy. In the end, the algorithm is sorted according to the final scores of each feature, and the feature ranking is obtained. The discriminative feature is selected from the pre ranking feature to form the feature subset.
【技术实现步骤摘要】
一种基于PTPR和轮盘赌的特征选择方法
本专利技术属于生物信息学技术与数据挖掘的交叉领域,用于从生物信息中筛选出具有区分能力的生物标志物,具体涉及一种基于PTPR和轮盘赌的特征选择方法。
技术介绍
生物信息学是伴随着人类基因组计划发展而产生的一门涉及生物学、数学以及计算机科学的交叉学科,包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐释和理解大量数据所包含的生物学意义。数据挖掘是近年来新兴的一种科学计算技术与数据分析方法,它能够有效地从大量数据中提取潜在的信息与知识。在生物信息领域,计算机工作者与生物学家合作,研究提出了一系列的挖掘算法和挖掘模式,并应用于生物数据,取得了传统生物计算技术无可比拟的效果。生物信息数据具有数据量巨大,数据维数高等特征。通常情况下,数据维数可以达到成百上千甚至几万维。如此高的维数带来了两个主要问题。一是所谓的“维数灾难”。现有的大多数算法的时间复杂度都达到了二次或更高,很难去处理更高维的数据。处理高维数据面临的另一个困难是样本数目的相对短缺。也就是说,维数有时会远远高于样本的数量。在这种情况下,对于高维数据的分析和处理,传统的数据处理方法己经不能满足稳健性等要求了,需要设计更有效的搜索策略和评价准则。为了解决高维数据所带来的问题,需要对数据进行降维处理,并且通过某种方式来增加样本的数量。特征选择是对数据降维的一种有效方法,能删除那些干扰特征和冗余特征,从大量特征中筛选出有意义的、具有代表性的少数特征,从而挖掘出隐藏的、具有研究价值的重要信息。近年来,一种基于职业 ...
【技术保护点】
一种基于PTPR和轮盘赌的特征选择方法,其特征在于,步骤如下:MPTPR算法分为两部分:初始化和循环寻优;(1)初始化对于d个特征,计算每个特征在训练样本上的信息增益;MPTPR算法使用ID3决策树作为分类模型,信息增益是ID3决策树所使用的节点分裂准则;使用每个特征的信息增益作为其初始RI得分,再根据每个特征的RI得到最初的特征排名,初始化循环变量s为1;(2)循环寻优1)根据特征排名,把特征排名前200的特征放入种子集,其余的特征放入非种子集;对于种子集和非种子集,分别根据其中每个特征的得分RI构造一个轮盘赌,从种子集中按照轮盘赌机制随机选择p*m个特征;从非种子集中按照轮盘赌机制随机选择(1‑p)*m个特征,得到含有m个特征的子集;2)对于含有m个特征的子集,从训练样本中随机抽取50%的样本用于构建一棵决策树,其余50%样本用来测试所构建的决策树,该过程进行t次,即构建t棵决策树;3)计算步骤2)中参与决策树建立的特征的得分,更新RI值,根据每个特征的RI进行排名,动态更新特征排名,计算公式如(1):
【技术特征摘要】
1.一种基于PTPR和轮盘赌的特征选择方法,其特征在于,步骤如下:MPTPR算法分为两部分:初始化和循环寻优;(1)初始化对于d个特征,计算每个特征在训练样本上的信息增益;MPTPR算法使用ID3决策树作为分类模型,信息增益是ID3决策树所使用的节点分裂准则;使用每个特征的信息增益作为其初始RI得分,再根据每个特征的RI得到最初的特征排名,初始化循环变量s为1;(2)循环寻优1)根据特征排名,把特征排名前200的特征放入种子集,其余的特征放入非种子集;对于种子集和非种子集,分别根据其中每个特征的得分RI构造一个轮盘赌,从种子集中按照轮盘赌机制随机选择p*m个特征;从非种子集中按照轮盘赌机制随机选择(1-p)*m个特征,得到含有m个特征的子集;2)对于含有m个特征的子集,从训练样本中随机抽取50%的样本用于构建一棵决策树,其余50%样本用来测试所构建的决策树,该过程进行t次,即构建t棵决策树;3)计算步骤2)中参与决策树建立...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。