【技术实现步骤摘要】
基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法
本专利技术属于肿瘤基因表达谱数据的计算机分析技术的应用领域,具体涉及一种基于偏好网格和莱维飞行的多目标粒子群优化的肿瘤关键基因识别方法。
技术介绍
自上个世纪八十年代以来,微阵列技术已经被广泛应用于疾病诊断。它能帮助医务人员和研究人员同时访问数千个基因的表达水平,最终产生微阵列数据。通过基因表达谱对样本的诊断类别进行分类和预测,这些数据已成功应用于癌症的分类。但是复杂的基因表达谱数据在开发有效的分类器时仍面临很多挑战:首先,基因表达谱数据的维度很高,各维度及基因之间拥有复杂未知的关系。第二,基因表达谱数据集中拥有大量的无关样本。第三,基因表达谱数据集的样本量很少,这就导致了更高的计算复杂性和更多的预测误差。关键基因识别即基因选择,也被称之为特征选择,可以被认为是一种提高模型预测性能的有效方法。它是数据挖掘中的关键预处理步骤,它侧重于通过减少冗余,无关或嘈杂的基因从表达数据集中鉴定最佳基因子集。根据每个基因与目标类别的相关性如何评估,基因选择可以主要分为过滤法,缠绕法和混合方法。过滤法不用分类器来评价基因子集,且多数过滤法不考虑基因之间的相关性。缠绕法将预定的学习算法与分类器集成,以根据预测准确度对最佳基因子集进行分组。尽管过滤法比缠绕法更有效,但后者的分类性能要比前者好得多。混合法是过滤法和封装法的结合,以互补的方式利用它们的优势。然而,这些方法通常将基因选择视为单目标问题。主要缺点是难以探索分类准确性与所选基因的不同子集之间的不同潜在权 ...
【技术保护点】
1.一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,包括下列步骤:/n步骤1基因表达谱数据的预处理,包括把原始数据集分成训练集和测试集,利用分类信息指数对原始基因表达谱数据集进行过滤,得到初始基因池;/n步骤2计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;/n步骤3以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;/n步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF),并用它不断地搜索、评估更新粒子以及维护外部存档,以获得基因子集;/n步骤5如果满足终止条件,则输出最终识别好的肿瘤关键基因,否则转向步骤4。/n
【技术特征摘要】
1.一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,包括下列步骤:
步骤1基因表达谱数据的预处理,包括把原始数据集分成训练集和测试集,利用分类信息指数对原始基因表达谱数据集进行过滤,得到初始基因池;
步骤2计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;
步骤3以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;
步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF),并用它不断地搜索、评估更新粒子以及维护外部存档,以获得基因子集;
步骤5如果满足终止条件,则输出最终识别好的肿瘤关键基因,否则转向步骤4。
2.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤1中包含下列步骤:
步骤1.1载入原始基因数据集,并按照2∶1的比例划分训练集和测试集;
步骤1.2根据式(1),计算每个基因的分类信息指数并按降序排列,选择前400个基因加入初始基因池。
其中,和表示基因g在正类(+)和负类(-)上表达水平的均值,和分别表示基因g在正类(+)和负类(-)上表达水平的标准差。
3.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤2中包含下列步骤:
步骤2.1根据式(2)和式(3),计算初级基因池中每个基因的GCS值,GCS值越大往往比GCS值小的基因对分类的贡献大;
其中XTraining为训练样本集,βsq是ELM的第s个隐含层节点和第q个输出节点的权重,wjs是第j个输入节点和第s个隐含层节点的权重;Hid(s)是第s个隐含层节点的输入;Ngnl是初始基因池中基因的数目,g为ELM的激活函数,本发明取sigmoid函数;
步骤2.2对粒子进行编码,先将各个基因按GCS值进行降序排列,前20%的基因随机初始化为[0,1]内的随机数,其余80%的基因都初始化为0,粒子的位置在某一维度上的值大于0.5就表示对应该维度的基因被选中,反之小于0.5就表示未选中。
4.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤3中包含下列步骤:
步骤3.1设置多目标粒子群算法的评价指标,它包括两个指标:准确率和基因规模。f1为准确率acc(i),它是第i个粒子在验证集上的ELM分类准确率,f2为基因规模geneNum(i),即为粒子i所选出的基因数目,为了把两个指标统一为最大化问题,这里把geneNum(i)变为d是样本的维度;
步骤3.2把f=(f1,f2)作为多目标粒子群算法的优化目标。
5.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤4中包含下列步骤:
步骤4.1随机初始化种群粒子,并且给每个粒子新加入一个参数flag,该参数用以评判每个粒子经过多久都还没进化为更好的粒子;
步骤4.2每个粒子的参数flag是否小于预先设定的阈值T;
步骤4.3如果小于T,按照公式(4)(5),即常规的粒子群算法公式进化粒子,如果大于T,则按照公式(6)(7)(8),对该粒子使用改进的莱维飞行策略进化粒子,同时该粒子的flag值变为0;
<...
【专利技术属性】
技术研发人员:韩飞,管天华,孙郁闻天,方升,
申请(专利权)人:江苏大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。