一种采用果蝇优化算法识别关键蛋白质的方法技术

技术编号:18351315 阅读:69 留言:0更新日期:2018-07-02 01:08
本发明专利技术公开了一种采用果蝇优化算法识别关键蛋白质的方法,将蛋白质相互作用网络转化为无向图、构建动态蛋白质相互作用网络、对动态蛋白质相互作用网络边和结点预处理、随机初始化果蝇种群的位置、利用嗅觉搜寻食物随机方向和距离、计算果蝇个体味道浓度判定值、计算果蝇个体的气味浓度值、找出当前种群中最高气味浓度值、利用视觉向食物飞去、产生关键蛋白质。本发明专利技术能准确地识别关键蛋白质;仿真实验结果表明本发明专利技术在敏感性、特异性、阳性预测值、阴性预测值、精确率和召回率调和值、精确值等指标性能都表现良好;跟其他识别关键蛋白质的方法相对,本发明专利技术采用果蝇优化算法识别关键蛋白质的方法具有一定的优势。

【技术实现步骤摘要】
一种采用果蝇优化算法识别关键蛋白质的方法
本专利技术属于生物信息
,涉及在动态蛋白质相互作用网络中识别关键蛋白质的方法,具体涉及一种采用果蝇优化算法识别关键蛋白质的方法。
技术介绍
蛋白质基本上在每个有机体的细胞中起着重要的作用,关键蛋白质对于生物体的生长和发育至关重要,关键蛋白质的缺失会导致生物体致死或无法生存。最近的一些研究结果表明,对于关键蛋白质的综合分析可以深入地理解基因突变与人类疾病之间的关系,揭示人类疾病的一般原理。因此,识别关键蛋白质与疾病预测和药物设计密切相关。随着酵母双杂交、串联亲和纯化和质谱分析等高通量技术的发展,许多生物数据都可用了。识别关键蛋白质方法主要分为两类,一类是基于生物实验的方法如基因敲除、RNA干扰和条件性敲除等,这些方法不仅昂贵而且耗时。另一类方法是基于网络拓扑中心性的方法,他们是基于“中心性-致死性”法则提出的,该法则指出关键蛋白质与蛋白质相互作用网络紧密相关,拥有较多邻居结点的蛋白质的缺失更容易影响整个网络的拓扑结构,从而产生致死效应。网络拓扑中心性的方法主要包括度中心性(DegreeCentrality,DC),介数中心性(BetweennessCentrality,BC),紧密度中心性(ClosenessCentrality,CC),特征向量中心性(EigenvectorCentrality,EC),信息中心性(InformationCentrality,IC),子图中心性(SubgraphCentrality,SC)和局部平均联通(LocalAverageConnectivity,LAC)。基于网络拓扑的方法不仅提高了识别关键蛋白质的方法还降低了成本。但是,这些中心性的方法也有不足之处。众所周知,基于拓扑的方法的性能与蛋白质相互作用网络密切相关,但在蛋白质相互作用网络中存在很多假阳性和假阴性。为了弥补这些方法的不足,研究人员提出了通过整合拓扑特性和生物学特性来识别关键蛋白质的方法。考虑到数据的相互作用和基因本体注释信息,Hsing等人提出了一种预测高度连接蛋白质的方法去预测关键蛋白质。Li等人提出的PeC和WDC这两种方法都是结合了网络拓扑特性和基因表达数据,Peng提出的UDoNC结合了蛋白质相互作用网络拓扑特性和结构域数据去识别关键蛋白质。这些结合生物数据的方法比仅仅依赖于网络拓扑的方法在识别精度上有了很大的提高。同时,也有一些研究者考虑到蛋白质模块化和保守型特性,他们认为在蛋白质网络中表现为存在大量的蛋白质复合物功能模块,并且认为关键蛋白质在进化的过程中比非关键蛋白质具有较强的保守型。基于模块化和保守型的方法在识别精度上有很大的优势。还有一些方法结合了蛋白质复合物信息去识别关键蛋白质,例如复合物中心性方法等。其中,也有一些研究者将支持向量机(SVM),朴素贝叶斯和NBtree等机器学习方法运用到识别关键蛋白质的研究中去。例如,研究者提出的机器学习中随机森林的方法去识别关键蛋白质,机器学习的方法在识别效率上有明显的优势。虽然近年来研究者从不同的视角和方法入手去识别关键蛋白质,但是识别精度和效率依然没有达到我们所希望的目标,所以这一课题仍然值得进一步研究和探讨。在目前的结合网络拓扑去识别关键蛋白质的方法中,大部分方法都基于静态的蛋白质相互作用网络,而忽略了网络的时序性。真实的蛋白质相互作用网络在细胞周期的不同阶段不断变化,因此在动态的蛋白质相互作用网络中识别关键蛋白质是很有必要的。综合上述分析,在识别关键蛋白质的过程中,不仅要综合考虑网络的拓扑特性包括模块化特性,还要考虑到蛋白质相互作用网络的时序性以及生物特性,但是,现有的识别方法中,鲜有能够同时满足关键蛋白质的识别精度和识别效率的方法。
技术实现思路
本专利技术所要解决的问题在于克服现有的识别关键蛋白质的方法上的不足,提出一种采用果蝇优化算法识别关键蛋白质的方法,该方法不仅体现了真实蛋白质相互作用网络的动态性还提高了识别精度及效率。本专利技术是通过以下技术方案来实现:本专利技术公开了一种采用果蝇优化算法识别关键蛋白质的方法,包括以下步骤:1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化为一个无向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;2)构建动态蛋白质相互作用网络基因表达数据有三个周期,每个周期有12个时间点,在时间点t时,蛋白质vi的基因表达值FT(s)若大于基因表达阈值AT(s),则被认为蛋白质vi在时间点t具有活性,否则认为该结点在时间点t不具有活性;将所有时间点的活性的蛋白质组合到一起,对应到原静态蛋白质相互作用网络中形成一个具有12个子网的新的蛋白质相互作用网络,即动态蛋白质相互作用网络;3)对动态蛋白质相互作用网络的边和结点的预处理结点预处理包括计算结点的度、结点的局部平均连通性、在动态网络中结点的局部平均联通性以及结点的亚细胞定位得分;边的预处理包括计算边的聚集系数、边的功能相似性;然后计算得到新的中心性方法和动态网络中新的中心性方法;4)随机初始化果蝇群体的位置随机选取p个蛋白质作为一个果蝇,将p个蛋白质的序列号作为果蝇的位置,EP代表随机选取的p个蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter=100;5)利用嗅觉搜寻食物随机方向和距离将EP与已知关键蛋白质标准库进行对比,令m为EP集合中关键蛋白质的个数,将EP集合之外的n-p个蛋白质的度进行降序排序,然后将EP中不是关键蛋白的p-m个蛋白质在n-p个蛋白质组成的降序排列集合中进行位置更新;6)通过计算得到果蝇个体的味道浓度判定值S(q);7)计算果蝇个体的味道浓度值根据步骤6)求得的味道浓度的判定值S(q),将其带入味道浓度判定函数中,计算当前每个果蝇个体的味道浓度值smell(q);8)找出当前种群中最高气味浓度值根据味道浓度值smell(q),根据公式[bestSmellbestIndex]=max(smellq)找出果蝇群体中味道浓度值中的最大浓度值,式中,bestSmell为最大浓度值,bestIndex为最大浓度值的坐标;9)利用视觉向食物飞去判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell,若是则保留最佳味道浓度的值和它的位置bestIndex,此时,果蝇利用视觉往该位置飞去;iter迭代加1;10)产生关键蛋白质若iter的值小于等于maxiter,则转向步骤5);否则,将位置bestIndex中的蛋白质作为关键蛋白质输出。优选地,步骤2)中,蛋白质vi的基因表达值FT(s)由式(1)得到:式中,T(s)代表蛋白质vi在时间点t的基因表达值;基因表达阈值AT(s)由式(2)得到:式中,μ(s)代表蛋白质vi的平均基因表达值,σ(s)是基因表达值的标准差。优选地,步骤3)中,结点预处理具体包括:按式(3)计算结点的度:式中,n表示网络中蛋白质结点总数;当结点vi和vj之间有边相连时,aij的值为1,否则为0;按式(4)计算结点的局部平均连通性:式中,Nv表示蛋白质v的邻居结点的集合本文档来自技高网
...
一种采用果蝇优化算法识别关键蛋白质的方法

【技术保护点】
1.一种采用果蝇优化算法识别关键蛋白质的方法,其特征在于,包括以下步骤:1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化为一个无向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;2)构建动态蛋白质相互作用网络基因表达数据有三个周期,每个周期有12个时间点,在时间点t时,蛋白质vi的基因表达值FT(s)若大于基因表达阈值AT(s),则被认为蛋白质vi在时间点t具有活性,否则认为该结点在时间点t不具有活性;将所有时间点的活性的蛋白质组合到一起,对应到原静态蛋白质相互作用网络中形成一个具有12个子网的新的蛋白质相互作用网络,即动态蛋白质相互作用网络;3)对动态蛋白质相互作用网络的边和结点的预处理结点预处理包括计算结点的度、结点的局部平均连通性、在动态网络中结点的局部平均联通性以及结点的亚细胞定位得分;边的预处理包括计算边的聚集系数、边的功能相似性;然后计算得到新的中心性方法和动态网络中新的中心性方法;4)随机初始化果蝇群体的位置随机选取p个蛋白质作为一个果蝇,将p个蛋白质的序列号作为果蝇的位置,EP代表随机选取的p个蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter=100;5)利用嗅觉搜寻食物随机方向和距离将EP与已知关键蛋白质标准库进行对比,令m为EP集合中关键蛋白质的个数,将EP集合之外的n‑p个蛋白质的度进行降序排序,然后将EP中不是关键蛋白的p‑m个蛋白质在n‑p个蛋白质组成的降序排列集合中进行位置更新;6)通过计算得到果蝇个体的味道浓度判定值S(q);7)计算果蝇个体的味道浓度值根据步骤6)求得的味道浓度的判定值S(q),将其带入味道浓度判定函数中,计算当前每个果蝇个体的味道浓度值smell(q);8)找出当前种群中最高气味浓度值根据味道浓度值smell(q),根据公式[bestSmellbestIndex]=max(smellq)找出果蝇群体中味道浓度值中的最大浓度值,式中,bestSmell为最大浓度值,bestIndex为最大浓度值的坐标;9)利用视觉向食物飞去判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell,若是则保留最佳味道浓度的值和它的位置bestIndex,此时,果蝇利用视觉往该位置飞去;iter迭代加1;10)产生关键蛋白质若iter的值小于等于maxiter,则转向步骤5);否则,将位置bestIndex中的蛋白质作为关键蛋白质输出。...

【技术特征摘要】
1.一种采用果蝇优化算法识别关键蛋白质的方法,其特征在于,包括以下步骤:1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化为一个无向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;2)构建动态蛋白质相互作用网络基因表达数据有三个周期,每个周期有12个时间点,在时间点t时,蛋白质vi的基因表达值FT(s)若大于基因表达阈值AT(s),则被认为蛋白质vi在时间点t具有活性,否则认为该结点在时间点t不具有活性;将所有时间点的活性的蛋白质组合到一起,对应到原静态蛋白质相互作用网络中形成一个具有12个子网的新的蛋白质相互作用网络,即动态蛋白质相互作用网络;3)对动态蛋白质相互作用网络的边和结点的预处理结点预处理包括计算结点的度、结点的局部平均连通性、在动态网络中结点的局部平均联通性以及结点的亚细胞定位得分;边的预处理包括计算边的聚集系数、边的功能相似性;然后计算得到新的中心性方法和动态网络中新的中心性方法;4)随机初始化果蝇群体的位置随机选取p个蛋白质作为一个果蝇,将p个蛋白质的序列号作为果蝇的位置,EP代表随机选取的p个蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter=100;5)利用嗅觉搜寻食物随机方向和距离将EP与已知关键蛋白质标准库进行对比,令m为EP集合中关键蛋白质的个数,将EP集合之外的n-p个蛋白质的度进行降序排序,然后将EP中不是关键蛋白的p-m个蛋白质在n-p个蛋白质组成的降序排列集合中进行位置更新;6)通过计算得到果蝇个体的味道浓度判定值S(q);7)计算果蝇个体的味道浓度值根据步骤6)求得的味道浓度的判定值S(q),将其带入味道浓度判定函数中,计算当前每个果蝇个体的味道浓度值smell(q);8)找出当前种群中最高气味浓度值根据味道浓度值smell(q),根据公式[bestSmellbestIndex]=max(smellq)找出果蝇群体中味道浓度值中的最大浓度值,式中,bestSmell为最大浓度值,bestIndex为最大浓度值的坐标;9)利用视觉向食物飞去判断当前种群味道浓度值bestSmell是否优于前一次迭代的最大味道浓度bestSmell,若是则保留最佳味道浓度的值和它的位置bestIndex,此时,果蝇利用视觉往该位置飞去;iter迭代加1;10)产生关键蛋白质若iter的值小于等于maxiter,则转向步骤5);否则,将位置bestIndex中的蛋白质作为关键蛋白质输出。2.根据权利要求1所述的采用果蝇优化算法识别关键蛋白质的方法,其特征在于,步骤...

【专利技术属性】
技术研发人员:雷秀娟王思果路铖
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1