当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于确定性粒子群优化和支持向量机的肿瘤识别方法技术

技术编号:15864297 阅读:61 留言:0更新日期:2017-07-23 09:18
本发明专利技术公开了一种基于确定性粒子群优化和支持向量机的肿瘤识别方法,包括对肿瘤基因表达谱数据的预处理,在训练集上运用分类信息指数方法对信息基因进行初选,然后使用两两冗余方法去除冗余基因得到备选基因库;在训练集上进一步使用分类信息指数方法获取关键的基因子集;在训练集上使用确定性粒子群优化算法对支持向量机的参数进行优化,然后对待识别的肿瘤基因表达谱数据进行识别。本发明专利技术在充分利用支持向量机适合于小样本数据识别的特点上,运用确定性粒子群优化对支持向量机进行优化,进一步提高支持向量机的性能,从而提高肿瘤识别准确性。

【技术实现步骤摘要】
一种基于确定性粒子群优化和支持向量机的肿瘤识别方法
本专利技术属于肿瘤基因表达谱数据的计算机分析技术的应用领域,具体涉及一种基于确定性粒子群优化和支持向量机的肿瘤识别方法。
技术介绍
DNA微阵列技术为生物学带来了巨大的机遇,但是其产生的大量和复杂的微阵列数据,给相关领域的学者们提出了巨大的挑战,其主要原因有四:第一,微阵列数据中含有大量噪声或异常值。因为实验过程中常常会产生噪声以及异常值,且数据处理过程也会带来误差或样本类别标记错误,因此,希望能够设计鲁棒性强的处理方法。第二,基因表达谱数据规模庞大,如何处理大规模数据集也是需要解决的难点之一。因此,设计计算和空间复杂度都较低的有效算法就变得非常有意义。第三,微阵列数据具有高维度,低样本的特征。基因表达谱数据集,其分类运算规模随基因数据增长而呈指数级增长,所以如何应对维数灾难问题也是难点之一。第四,微阵列数据中具有非线性特点,且隐藏了大量实用信息。因此,使经典的统计分析方法转变成非线性分析方法处理非线性数据集,以及利用这些方法来挖掘和推导这些潜在的生物信息显得非常重要。自从1999年Golub等开创了基因表达谱的肿瘤分类领域的先河以本文档来自技高网...
一种基于确定性粒子群优化和支持向量机的肿瘤识别方法

【技术保护点】
一种基于确定性粒子群优化和支持向量机的肿瘤识别方法,其特征在于,包括下列步骤:步骤1 肿瘤基因表达谱数据集的预处理,首先将肿瘤基因表达谱数据集划分为训练集和测试集,然后对数据集进行归一化处理,获取最终的关键基因子集;步骤2提出确定性粒子群优化算法IGPSO,在训练集上,使用确定性粒子群优化算法优化支持向量机SVM;步骤3在测试集上,使用步骤2中优化得到的支持向量机SVM来对肿瘤基因表达谱数据集进行识别。

【技术特征摘要】
1.一种基于确定性粒子群优化和支持向量机的肿瘤识别方法,其特征在于,包括下列步骤:步骤1肿瘤基因表达谱数据集的预处理,首先将肿瘤基因表达谱数据集划分为训练集和测试集,然后对数据集进行归一化处理,获取最终的关键基因子集;步骤2提出确定性粒子群优化算法IGPSO,在训练集上,使用确定性粒子群优化算法优化支持向量机SVM;步骤3在测试集上,使用步骤2中优化得到的支持向量机SVM来对肿瘤基因表达谱数据集进行识别。2.根据权利要求1所述的基于确定性粒子群优化和支持向量机的肿瘤识别方法,其特征在于,所述步骤1中包含下列步骤:步骤1.1将肿瘤基因表达谱数据集划分为训练集和测试集;步骤1.2根据式(1),计算训练集中每个基因的“分类信息指数”;其中d(g)为基因g的分类信息指数,分别为基因g在两类正负样本中表达水平的均值,和分别为基因g在两类正负样本中表达水平的标准差;步骤1.3选择大于某个分类信息指数阈值的所有基因作为初步过滤后的基因集;步骤1.4在使用分类信息指数方法初步过滤后,计算两两基因表达水平间的Pearson相关系数,选取大于某个值的基因集,再次减小备选基因库的大小;步骤1.5为了更加缩小关键基因集的范围,在备选基因库中再次使用分类信息指数方法,选择大于某个阈值的所有基因作为最终关键基因子集。3.根据权利要求1所述的基于确定性粒子群优化和支持向量机的肿瘤识别方法,其特征在于,所述步骤2中提出确定性粒子群优化算法IGPSO包含下列步骤:步骤2.1在初始范围内随机初始化粒子群的位置x、速度v以及每个函数的种群多样性阈值σ;步骤2.2计算每个粒子的适应值和对于适应度函数在其位置的梯度;步骤2.3对于每个粒子,将其适应值与个体经历过的最好位置的适应值进行比较,若更好,则将其作为当前的最优位置;步骤2.4对于每个粒子,将其适应值与群体所经历的最好位置的适应值进行比较,若更好,则将其作为群体最优位置;步骤2.5当种群多样性值大于设定的阈值时,每个粒子的速度根据式(2)进行更新,否则根据式(5)进行更新,并更新粒子的位置;基于确定性粒子群优化算法分为两个阶段,第一阶段是粒子的相互吸引过程,分为两个步骤,首先,当种群多样性值大于某个适当的阈值时,粒子沿着适应度函数对其位置的负梯度方向,朝全局最优粒子聚拢;当搜索到某个最优点邻域时,采用逐步下降的策略,不断降低粒子的速度来进行线性搜索;这个阶段两个步骤分别采用式(2)和式(3)来描述;vij(t+1)=w*gra(i,j)+c2*rand()*(pg-xij(t))(2)vij(t+1)=k*vij(t)(3)其中Vi=(vi1,vi2,......,vin)为微粒i的当前飞行速度,Xi=(xi1,xi2,......,xin)为微粒i的当前位置,w为惯性权重,pg为全局最好位置,k为(0,1)之间的常数;对于适应度函数f(x),其相应的负梯度gra(i,j)如下:第二阶段是粒子的相互排斥过程;当种群多样性值小于预定的阈值时,自适应地对粒子进行排斥以提高种群多样性,同时粒子沿着梯度的方向进行搜索并且向其他局部最优点靠近;种群多样性越大,其散开速度越小,种群多样性越小,其散开速度就越...

【专利技术属性】
技术研发人员:韩飞李佳玲凌青华周从华崔宝祥宋余庆
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1