一种分析预测癌症突变影响LIR模体功能的方法技术

技术编号:19343064 阅读:60 留言:0更新日期:2018-11-07 14:13
本发明专利技术公开了一种分析预测癌症突变影响LIR模体功能的方法,包括以下步骤:(1)利用LIR模体数据训练预测模型;(2)利用模型对癌症突变前后的肽段数据分别打分;(3)利用模型对候选肽段的肽段数据进行打分,得出打分结果与该候选肽段对应的肽段数据其属于真实LIR模体或非真实LIR模体的贝叶斯概率之间的关系,接着将癌症突变前后对应的肽段分别作为候选肽段,并代入步骤(2)中的打分结果,得到癌症突变前后对应的肽段它们的贝叶斯概率;(4)计算该癌症突变对于LIR功能的可选影响方式的概率。本发明专利技术通过利用LIR模体数据、以及癌症突变前后对应的肽段数据,系统性的研究癌症突变对LIR模体功能的影响,能够预测出癌症突变对于LIR功能的可选影响方式的概率。

A method for analyzing and predicting cancer mutation affecting LIR motif function

The invention discloses a method for analyzing and predicting the effect of cancer mutation on LIR motif function, which includes the following steps: (1) training prediction model by using LIR motif data; (2) scoring peptide segment data before and after cancer mutation by using model; (3) scoring peptide segment data of candidate peptide segment by model, and obtaining scoring result and the result. The data of peptide segments corresponding to candidate peptide segments belong to the relationship between Bayesian probabilities of real LIR motifs and non-real LIR motifs. Then, the corresponding peptide segments before and after cancer mutation are taken as candidate peptide segments respectively and substituted into the scoring results in step (2). The Bayesian probabilities of the corresponding peptide segments before and after cancer mutation are obtained; (4) The calculation of the Bayesian probabilities of the corresponding peptide segments before and after cancer mutation. The probability of this cancer mutation for the optional way of LIR function. By systematically studying the effect of cancer mutation on LIR motif function by using LIR motif data and the corresponding peptide segment data before and after cancer mutation, the probability of the alternative influence mode of cancer mutation on LIR function can be predicted.

【技术实现步骤摘要】
一种分析预测癌症突变影响LIR模体功能的方法
本专利技术属于自噬领域,更具体地,涉及一种分析预测癌症突变影响LIR模体功能的方法,利用该方法可以分析预测已有的癌症突变对LIR模体进而对自噬通路的影响,当然,随着未来新癌症突变的发现,该方法也可以用于判断这些新癌症突变对LIR模体进而对自噬通路的影响。
技术介绍
细胞自噬是细胞内清除损坏组件和蛋白质或在饥饿条件下通过降解自身一部分蛋白质以渡过难关的一种机制。在正常生理条件下,细胞通过自噬清除受损的细胞器或蛋白质聚集物,自噬的受阻会引起多种疾病。在自噬的核心机制中,自噬体的形成一个复杂而保守的过程,其中,LC3(酵母中ATG8的人类同源)对于自噬体的形成起着至关重要的作用,其关系到自噬体膜的弯曲、自噬底物的募集的过程,是自噬过程中唯一一直定位于自噬体膜的蛋白质。除了影响到自噬体膜的弯曲外,LC3决定了需要募集到自噬体内并降解的细胞内容物,其通过一个保守的模体,即LIR(LC3interactionregion,亦称AIM,ATG8interactionmotif)模体来识别和特异性的选择底物。研究表明,几乎所有LIR模体都符合[W/Y/F]XX[L/I/V]的序列模式。这一序列模式的改变或是周围氨基酸微环境的改变,都将有可能影响到LC3与底物的结合进而影响到细胞自噬的过程。影响LIR功能的一大因素是癌症突变。目前,主流提供癌症突变信息的数据库有TCGA,ICGC,ClinVar,COSMIC等等。对于LIR,目前尚缺乏系统性的研究。2014年,IoannaKalvari等人开发了在线服务平台iLIR并于2016年更新(IoannaKalvariet.al.,Autopahgy,Volume10,2014-Issue5)。iLIR使用收集的LIR数据,结合PSSM算法,在八个模式生物中鉴定了潜在的LIR模体。然而,其并没有对鉴定的数据进行进一步分析与验证,并且,PSSM算法的预测准确性有待进一步提高。而系统性的研究癌症突变对LIR模体功能影响的工作更为缺乏。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术的目的在于提供一种分析预测癌症突变影响LIR模体功能的方法,通过利用LIR模体数据、以及癌症突变前后对应的肽段数据,并通过对该分析预测方法的整体流程步骤设置、关键步骤(如预测模型的训练步骤、贝叶斯概率的计算步骤、可选影响方式的概率计算步骤等)的具体数据处理及计算过程等进行改进和进一步优选,系统性的研究癌症突变对LIR模体功能的影响,进而可以预测出癌症突变对于LIR功能的若干种可选影响方式的概率,填补了现有技术的空白;并且由于本专利技术是基于逻辑回归的训练方式对预测模型进行训练,具有训练速度快,分析预测效率高等优点。为实现上述目的,按照本专利技术,提供了一种分析预测癌症突变影响LIR模体功能的方法,其特征在于,包括以下步骤:(1)利用LIR模体数据训练预测模型;该模型用于以LIR模体数据作为参照物评价某一肽段数据与这些参照物之间的相似度分数;(2)利用所述步骤(1)得到的预测模型,基于生物的正常蛋白质序列和该生物的癌症突变的肽段数据,对突变前后的肽段数据与所述LIR模体数据之间的相似度分别打分;(3)利用所述步骤(1)得到的预测模型对候选肽段的肽段数据进行打分,并计算得出打分结果与该候选肽段对应的肽段数据其属于真实LIR模体或非真实LIR模体的贝叶斯概率之间的关系;接着,将癌症突变前后对应的肽段分别作为候选肽段,并将所述步骤(2)得到的对应打分结果代入,从而得到所述癌症突变前后对应的肽段它们的贝叶斯概率;(4)接着,利用所述步骤(3)得出的所述癌症突变前后对应的肽段它们的贝叶斯概率进一步计算该癌症突变对于LIR功能的若干种可选影响方式的概率,进而判断得出该癌症突变对于LIR功能的最终影响方式。作为本专利技术的进一步优选,所述步骤(1)中,所述LIR模体数据为多个LIR模体数据,任意一个LIR模体数据包括14个氨基酸,这14个氨基酸由核心LIR模体的4个氨基酸、以及该核心LIR模体左侧的6个氨基酸和右侧的4个氨基酸构成。作为本专利技术的进一步优选,所述步骤(2)中,所述生物的正常蛋白质序列为人类全蛋白质序列,所述生物的癌症突变的肽段数据为人类癌症突变的肽段数据。作为本专利技术的进一步优选,所述步骤(3)是先以LIR模体数据作为阳性数据,以与所述阳性数据中任意一个LIR模体数据出现在同一条蛋白上且符合[W/Y/F]XX[L/I/V]序列模式但未被所述阳性数据涵盖的肽段数据作为阴性数据,通过对阳性数据打分所得分值、以及阴性数据打分所得分值分别进行拟合正态分布,从而分别得到阳性数据和阴性数据分值分布的概率密度函数pdf_p和pdf_n,从而进一步在所述步骤(3)中基于阳性数据分值分布的概率密度函数pdf_p和阴性数据分值分布的概率密度函数pdf_n得出候选肽段的打分结果与该候选肽段对应的肽段数据其属于真实LIR模体或非真实LIR模体的贝叶斯概率之间的关系;所述步骤(3)中,记所述候选肽段为pep,所述预测模型对该候选肽段的肽段数据进行打分给出的分值为Spep,则该候选肽段其预测结果为真实LIR模体的概率p(True|Spep)满足:该候选肽段其预测结果为非真实LIR模体的概率p(False|Spep)满足:其中,pdf_p(Spep)、pdf_n(Spep)为将Spep分别代入所述概率密度函数pdf_p和所述概率密度函数pdf_n对应得到的值,p(True)和p(False)均为预先设定的值;优选的,所述p(True)为所述步骤(1)得到的预测模型利用留一法检测得到的ROC曲线的曲线下面积,所述p(False)为1。作为本专利技术的进一步优选,所述步骤(4)中,所述LIR功能的若干种可选影响方式包括突变前属于真实LIR模体而突变后属于非真实LIR模体、以及突变前属于非真实LIR模体而突变后属于真实LIR模体两种情况;所述最终影响方式对应为所述若干种可选影响方式中的概率最大值者。作为本专利技术的进一步优选,所述步骤(4)中,记癌症突变前的正常蛋白质序列肽段为W,癌症突变后的癌症突变肽段为M,将W和M分别作为候选肽段为pep得到p(True|SW)、p(False|SW)、p(True|SM)、p(False|SM),则突变前属于真实LIR模体而突变后属于非真实LIR模体的概率p(loss)满足:p(loss)=p(True|SW)*p(False|SM);突变前属于非真实LIR模体而突变后属于真实LIR模体的概率p(gain)满足:p(gain)=p(False|SW)*p(True|SM)。作为本专利技术的进一步优选,所述步骤(1)得到的预测模型利用留一法检测得到的ROC曲线的曲线下面积为0.96。通过本专利技术所构思的以上技术方案,与现有技术相比,由于同时利用LIR模体数据、以及癌症突变前后对应的肽段数据,能够系统性的研究癌症突变对LIR模体功能的影响,进而预测出癌症突变对于LIR功能的若干种可选影响方式的概率。本专利技术通过对阳性数据、阴性数据基于以下原则:同一条蛋白上最多只出现一个LIR模体数据,当一条蛋白上已经存在一个实验验证的LIR模体数据时,其他位于该蛋白上且满足[W/Y/F]XX本文档来自技高网
...

【技术保护点】
1.一种分析预测癌症突变影响LIR模体功能的方法,其特征在于,包括以下步骤:(1)利用LIR模体数据训练预测模型;该模型用于以LIR模体数据作为参照物评价某一肽段数据与这些参照物之间的相似度分数;(2)利用所述步骤(1)得到的预测模型,基于生物的正常蛋白质序列和该生物的癌症突变的肽段数据,对突变前后的肽段数据与所述LIR模体数据之间的相似度分别打分;(3)利用所述步骤(1)得到的预测模型对候选肽段的肽段数据进行打分,并计算得出打分结果与该候选肽段对应的肽段数据其属于真实LIR模体或非真实LIR模体的贝叶斯概率之间的关系;接着,将癌症突变前后对应的肽段分别作为候选肽段,并将所述步骤(2)得到的对应打分结果代入,从而得到所述癌症突变前后对应的肽段它们的贝叶斯概率;(4)接着,利用所述步骤(3)得出的所述癌症突变前后对应的肽段它们的贝叶斯概率进一步计算该癌症突变对于LIR功能的若干种可选影响方式的概率,进而判断得出该癌症突变对于LIR功能的最终影响方式。

【技术特征摘要】
1.一种分析预测癌症突变影响LIR模体功能的方法,其特征在于,包括以下步骤:(1)利用LIR模体数据训练预测模型;该模型用于以LIR模体数据作为参照物评价某一肽段数据与这些参照物之间的相似度分数;(2)利用所述步骤(1)得到的预测模型,基于生物的正常蛋白质序列和该生物的癌症突变的肽段数据,对突变前后的肽段数据与所述LIR模体数据之间的相似度分别打分;(3)利用所述步骤(1)得到的预测模型对候选肽段的肽段数据进行打分,并计算得出打分结果与该候选肽段对应的肽段数据其属于真实LIR模体或非真实LIR模体的贝叶斯概率之间的关系;接着,将癌症突变前后对应的肽段分别作为候选肽段,并将所述步骤(2)得到的对应打分结果代入,从而得到所述癌症突变前后对应的肽段它们的贝叶斯概率;(4)接着,利用所述步骤(3)得出的所述癌症突变前后对应的肽段它们的贝叶斯概率进一步计算该癌症突变对于LIR功能的若干种可选影响方式的概率,进而判断得出该癌症突变对于LIR功能的最终影响方式。2.如权利要求1所述分析预测癌症突变影响LIR模体功能的方法,其特征在于,所述步骤(1)中,所述LIR模体数据为多个LIR模体数据,任意一个LIR模体数据包括14个氨基酸,这14个氨基酸由核心LIR模体的4个氨基酸、以及该核心LIR模体左侧的6个氨基酸和右侧的4个氨基酸构成。3.如权利要求1所述分析预测癌症突变影响LIR模体功能的方法,其特征在于,所述步骤(2)中,所述生物的正常蛋白质序列为人类全蛋白质序列,所述生物的癌症突变的肽段数据为人类癌症突变的肽段数据。4.如权利要求1所述分析预测癌症突变影响LIR模体功能的方法,其特征在于,所述步骤(3)是先以LIR模体数据作为阳性数据,以与所述阳性数据中任意一个LIR模体数据出现在同一条蛋白上且符合[W/Y/F]XX[L/I/V]序列模式但未被所述阳性数据涵盖的肽段数据作为阴性数据,通过对阳性数据打分所得分值、以及阴性数据打分所得分值分别进行拟合正态分布,从而分别得到阳性数据和阴性数据分值分布的概率密度函数pdf_p和pdf_n,从而进一步在所述步骤(3)中基于阳性数据分...

【专利技术属性】
技术研发人员:薛宇邓万锟贾大
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1