当前位置: 首页 > 专利查询>江苏大学专利>正文

基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法技术

技术编号:23316846 阅读:57 留言:0更新日期:2020-02-11 18:26
本发明专利技术公开了一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,包括利用分类信息指数对原始基因表达谱数据集进行过滤,得到初级基因池;计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;通过建立好的多目标模型搜索出最终的基因子集,识别出肿瘤的关键基因。在多目标优化模型方面,本发明专利技术能通过多目标模型在初级基因池里快速高效地识别出数目较少且分类性能较好的关键基因子集。

Multi-objective particle swarm optimization based on preference grid and Levy flight

【技术实现步骤摘要】
基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法
本专利技术属于肿瘤基因表达谱数据的计算机分析技术的应用领域,具体涉及一种基于偏好网格和莱维飞行的多目标粒子群优化的肿瘤关键基因识别方法。
技术介绍
自上个世纪八十年代以来,微阵列技术已经被广泛应用于疾病诊断。它能帮助医务人员和研究人员同时访问数千个基因的表达水平,最终产生微阵列数据。通过基因表达谱对样本的诊断类别进行分类和预测,这些数据已成功应用于癌症的分类。但是复杂的基因表达谱数据在开发有效的分类器时仍面临很多挑战:首先,基因表达谱数据的维度很高,各维度及基因之间拥有复杂未知的关系。第二,基因表达谱数据集中拥有大量的无关样本。第三,基因表达谱数据集的样本量很少,这就导致了更高的计算复杂性和更多的预测误差。关键基因识别即基因选择,也被称之为特征选择,可以被认为是一种提高模型预测性能的有效方法。它是数据挖掘中的关键预处理步骤,它侧重于通过减少冗余,无关或嘈杂的基因从表达数据集中鉴定最佳基因子集。根据每个基因与目标类别的相关性如何评估,基因选择可以主要分为过滤法,缠绕法和混合方法。过滤法不用分类器来评价基因子集,且多数过滤法不考虑基因之间的相关性。缠绕法将预定的学习算法与分类器集成,以根据预测准确度对最佳基因子集进行分组。尽管过滤法比缠绕法更有效,但后者的分类性能要比前者好得多。混合法是过滤法和封装法的结合,以互补的方式利用它们的优势。然而,这些方法通常将基因选择视为单目标问题。主要缺点是难以探索分类准确性与所选基因的不同子集之间的不同潜在权衡。微粒群算法(ParticleSwarmOptimization,PSO)的全局搜索能力较强,且收敛速度较快。相对于遗传算法而言,PSO无需进行复杂的遗传操作,且可调参数较少,易于实现,因此近年来它广泛应用于肿瘤表达谱数据的关键基因识别上。通常,肿瘤关键基因识别是一个多目标问题,其涉及到最小化基因子集的大小和最大化预测性能。速度约束多目标粒子群算法(SMPSO)加入了一种速度约束机制,当粒子的速度过大时,这个速度约束机制就会限制粒子的速度太大而造成种群爆炸现象。基于竞争机制的多目标粒子群算法(CMOPSO)基于成对竞争的方式更新粒子而不是通过常规的个体最优和全局最优粒子更新。这些方法都一定程度上提高了算法的收敛性和多样性,但在面对复杂的多目标问题,例如非凸问题或者多模态问题时,算法性能往往会有所下降。此外,假设所有非支配解决方案都是可取的,这些多目标优化算法旨在搜索所有Pareto最优解。在实践中,关键基因识别的主要目的是增强分类器的分类性能。因此,关键基因识别可能更喜欢搜索解决方案表现出更好预测性能的那些区域,而不是那些在帕累托前沿具有较少基因的区域。从这个角度来看,这些方法在搜索不需要的解决方案时浪费了计算成本。
技术实现思路
专利技术目的:提出一种基于莱维飞行和双存档机制的多目标粒子群算法的肿瘤关键基因识别方法,该方法能识别出与肿瘤类别高度相关的基因子集,且选出的基因子集数目较少,相较于传统的方法具有较强的可解释性。技术方案:一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,包括对原始基因利用分类信息指数进行初选,然后利用GCS信息对粒子进行编码,以及利用基于偏好网格和莱维飞行的多目标粒子群算法搜索关键肿瘤基因的步骤,包括下列步骤:步骤1基因表达谱数据的预处理,包括把原始数据集分成训练集和测试集,利用分类信息指数对原始基因表达谱数据集进行过滤,得到初始基因池;步骤2计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;步骤3以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF),并用它不断地搜索、评估更新粒子以及维护外部存档,以获得分类准确率较高且规模较小的基因子集;步骤5如果满足终止条件,则输出最终识别好的肿瘤关键基因,否则转向步骤4;进一步,所述步骤1中包含下列步骤:步骤1.1载入原始基因数据集,并按照2:1的比例划分训练集和测试集;步骤1.2根据式(1),计算每个基因的分类信息指数并按降序排列,选择前400个基因加入初始基因池。其中,和表示基因g在正类(+)和负类(-)上表达水平的均值,和分别表示基因g在正类(+)和负类(-)上表达水平的标准差。进一步,所述步骤2中包含下列步骤:步骤2.1根据式(2)和式(3),计算初级基因池中每个基因的GCS值,GCS值越大往往比GCS值小的基因对分类的贡献大;其中XTraining为训练样本集,βsq是ELM的第s个隐含层节点和第q个输出节点的权重,wjs是第j个输入节点和第s个隐含层节点的权重;Hid(s)是第s个隐含层节点的输入;Ngnl是初始基因池中基因的数目,g为ELM的激活函数,本专利技术取sigmoid函数。步骤2.2对粒子进行编码,先将各个基因按GCS值进行降序排列,前20%的基因随机初始化为[0,1]内的随机数,其余80%的基因都初始化为0,粒子的位置在某一维度上的值大于0.5就表示对应该维度的基因被选中,反之小于0.5就表示未选中。进一步,所述步骤3中包含下列步骤:步骤3.1设置多目标粒子群算法的评价指标,它包括两个指标:准确率和基因规模。f1为准确率acc(i),它是第i个粒子在验证集上的ELM分类准确率,f2为基因规模geneNum(i),即为粒子i所选出的基因数目,为了把两个指标统一为最大化问题,这里把geneNum(i)变为d是样本的维度。步骤3.2把f=(f1,f2)作为多目标粒子群算法的优化目标。进一步,所述步骤4中包含下列步骤:步骤4.1随机初始化种群粒子,并且给每个粒子新加入一个参数flag,该参数用以评判每个粒子经过多久都还没进化为更好的粒子;步骤4.2每个粒子的参数flag是否小于预先设定的阈值T;;步骤4.3如果小于T,按照公式(4)(5),即常规的粒子群算法公式进化粒子,如果大于T,则按照公式(6)(7)(8),对该粒子使用改进的莱维飞行策略进化粒子,同时该粒子的flag值变为0;这里的u和v服从正态分布:并且其中,为粒子i在第t+1次迭代时的速度,为粒子i在第t次迭代的位置,xpb,i为粒子i的个体历史最优位置,xgb,i为粒子i的全局最优位置,w为惯性权重,一般在[0.4,0.9]间自适应变化,c1,c2为加速常数,r1,r2为两个在[0,1]范围内变化的随机数,S为莱维飞行的更新步长。一般来说,参数α通常被设置为0.01用以防止它过于激进进而很容易就跳出了决策边界,β设置为1.5。注意到,当更新步长S时,本专利技术对常规的莱维飞行公式作了一些扰动,这里会有一定的几率用S乘上全局最优粒子xgb,i减去当前本文档来自技高网
...

【技术保护点】
1.一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,包括下列步骤:/n步骤1基因表达谱数据的预处理,包括把原始数据集分成训练集和测试集,利用分类信息指数对原始基因表达谱数据集进行过滤,得到初始基因池;/n步骤2计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;/n步骤3以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;/n步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF),并用它不断地搜索、评估更新粒子以及维护外部存档,以获得基因子集;/n步骤5如果满足终止条件,则输出最终识别好的肿瘤关键基因,否则转向步骤4。/n

【技术特征摘要】
1.一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,包括下列步骤:
步骤1基因表达谱数据的预处理,包括把原始数据集分成训练集和测试集,利用分类信息指数对原始基因表达谱数据集进行过滤,得到初始基因池;
步骤2计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;
步骤3以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;
步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF),并用它不断地搜索、评估更新粒子以及维护外部存档,以获得基因子集;
步骤5如果满足终止条件,则输出最终识别好的肿瘤关键基因,否则转向步骤4。


2.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤1中包含下列步骤:
步骤1.1载入原始基因数据集,并按照2∶1的比例划分训练集和测试集;
步骤1.2根据式(1),计算每个基因的分类信息指数并按降序排列,选择前400个基因加入初始基因池。



其中,和表示基因g在正类(+)和负类(-)上表达水平的均值,和分别表示基因g在正类(+)和负类(-)上表达水平的标准差。


3.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤2中包含下列步骤:
步骤2.1根据式(2)和式(3),计算初级基因池中每个基因的GCS值,GCS值越大往往比GCS值小的基因对分类的贡献大;






其中XTraining为训练样本集,βsq是ELM的第s个隐含层节点和第q个输出节点的权重,wjs是第j个输入节点和第s个隐含层节点的权重;Hid(s)是第s个隐含层节点的输入;Ngnl是初始基因池中基因的数目,g为ELM的激活函数,本发明取sigmoid函数;
步骤2.2对粒子进行编码,先将各个基因按GCS值进行降序排列,前20%的基因随机初始化为[0,1]内的随机数,其余80%的基因都初始化为0,粒子的位置在某一维度上的值大于0.5就表示对应该维度的基因被选中,反之小于0.5就表示未选中。


4.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤3中包含下列步骤:
步骤3.1设置多目标粒子群算法的评价指标,它包括两个指标:准确率和基因规模。f1为准确率acc(i),它是第i个粒子在验证集上的ELM分类准确率,f2为基因规模geneNum(i),即为粒子i所选出的基因数目,为了把两个指标统一为最大化问题,这里把geneNum(i)变为d是样本的维度;
步骤3.2把f=(f1,f2)作为多目标粒子群算法的优化目标。


5.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤4中包含下列步骤:
步骤4.1随机初始化种群粒子,并且给每个粒子新加入一个参数flag,该参数用以评判每个粒子经过多久都还没进化为更好的粒子;
步骤4.2每个粒子的参数flag是否小于预先设定的阈值T;
步骤4.3如果小于T,按照公式(4)(5),即常规的粒子群算法公式进化粒子,如果大于T,则按照公式(6)(7)(8),对该粒子使用改进的莱维飞行策略进化粒子,同时该粒子的flag值变为0;
<...

【专利技术属性】
技术研发人员:韩飞管天华孙郁闻天方升
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1