一种预测无义突变导致转录本降解的方法技术

技术编号:32118534 阅读:14 留言:0更新日期:2022-01-29 19:04
本发明专利技术涉及基因组测序分析技术领域,具体涉及一种预测无义突变导致转录本降解的方法,所述预测无义突变导致转录本降解的方法从真实数据出发来构建预测模型,同时,在构建预测模型时,纳入多种因素,能够系统、完整、全面的评估NMD的发生,具有更强的真实客观性,能够更为准确、精确地预测NMD的发生。精确地预测NMD的发生。

【技术实现步骤摘要】
一种预测无义突变导致转录本降解的方法


[0001]本专利技术涉及基因组测序分析
,尤其涉及一种预测无义突变导致转录本降解的方法。

技术介绍

[0002]无义突变(nonsense mutation)是指由于某个碱基的改变使代表某种氨基酸的密码子突变为终止密码子,从而使肽链合成提前终止。未成熟的转录本提前出现终止密码子可使转录本的降解,导致基因转录水平的下降,甚至失活,这一现象称为无义介导的mRNA降解途径(nonsense

mediated mRNA decay,NMD)。对于重要基因发生NMD,可导致单基因疾病或肿瘤的发生,甚至导致婴幼儿死亡。因此寻找疾病的致病因素时,判断一个无义突变是否导致NMD尤为重要。
[0003]并不是所有的无义突变都导致NMD,无义突变出现的位置与是否发生转录本的降解密切相关。基于以往经验,判断NMD的发生主要根据以下准则:1)无义突变发生的位置位于最后一个外显子

外显子连接处的位置,如果大于50个碱基以上,那么很大可能发生NMD;2)基因的外显子个数是否大于等于2;3) 无义突变发生的位置距离启动子的距离是否超过200个碱基以上。目前所有判断是否发生NMD的预测软件都是基于上述三项准则,但由于无义突变的周边序列的复杂性,根据上述准则进行预测其准确率目前评估最多只有70%。因此需要更为准确、精确评估导致NMD的发生。

技术实现思路

[0004]为解决上述技术问题,本专利技术的目的在于提供一种预测无义突变导致转录本降解的方法,所述预测无义突变导致转录本降解的方法从真实数据出发,更为准确、精确预测NMD的发生。
[0005]为达到上述技术效果,本专利技术采用了以下技术方案:
[0006]一种预测无义突变导致转录本降解的方法,包括以下步骤:
[0007]S1:选取多组真实样本并对所有突变点进行筛选注释,只获取无义突变;
[0008]S2:判断携带无义突变的基因是否发生NMD;
[0009]S4:对发生NMD的基因进行因素提取,获取至少6个无义突变相关因素:
[0010]S5:根据上述相关因素进行计算,最终形成NM矩阵,其中,N为总的无义突变数量,M为单个无义突变的因素数量;
[0011]S6:纳入上述无义突变相关因素,使用Sklearn中的随机森林模型,对获取的无义突变数据数据进行建模,并获得预测模型,其中因变量为无义突变是否发生NMD,自变量为纳入的所有无义突变相关因素;
[0012]S6:利用上述模型对无义突变是否导致转录本降解进行预测。
[0013]进一步地,所述S2中的判断方法具体为:对获得的无义突变定位至基因,获取所有样本基因的转录表达值RPKM,根据样本是否携带无义突变分为两组,即发生无义突变的样
本和不发生无义突变的样本;对两组分类的RPKM进行检验获取P值,如果P值不大于0.01,说明具有显著性差异,即携带无义突变基因发生NMD;若P值大于0.01,则说明不具有显著性差异,即携带无义突变基因未发生NMD。
[0014]进一步地,所述相关因素包括:无义突变距离最后一个外显子与外显子连接处的距离,该距离从突变位置下一个碱基算起,至最后一个连接处的外显子碱基结束。
[0015]进一步地,所述相关因素包括无义突变距离起始密码子的距离。
[0016]进一步地,所述相关因素包括无义突变所在基因的外显子总数。
[0017]进一步地,所述相关因素包括无义突变所在外显子的GC含量。
[0018]进一步地,所述相关因素包括对无义突变所在外显子进行序列保守性预测,若序列为保守性序列,记为1,否则为0。
[0019]进一步地,所述相关因素包括无义突变的突变频率,所述无义突变的突变频率的计算方法如下:
[0020]无义突变的突变频率=含有突变的read数量/突变位置的总的read数量(包含没有发生突变的read)。
[0021]进一步地,所述建模过程的参数设置为:模型设立树的最大数量为100;使用mse

均方误差作为判定是否需要分离的标准;树的最大深度为3。
[0022]与现有技术相比,本专利技术的有益效果为:
[0023]第一方面,本专利技术提供的一种预测无义突变导致转录本降解的方法不同于直接根据传统的三项准则进行判别是否导致NMD的发生,由于发生NMD会导致基因表达水平的降低,甚至失活,因此采用真实转录组数据并结合无义突变所处的序列复杂度等因素进行模拟建模,并预测是否导致NMD的发生,能实际从生物学水平上直观表明无义突变是否导致NMD的发生,其预测结果更加准确。
[0024]第二方面,本专利技术提供的一种预测无义突变导致转录本降解的方法纳入多种影响NMD的发生因素,包括:无义突变发生的位置与最后外显子

外显子连接处的距离、无义突变发生的位置与起始密码子的距离、无义突变所在基因的外显子个数、无义突变所在的外显子序列的GC含量、无义突变所在外显子的保守性、无义突变的突变频率等因素,并利用上述相关因素使用随机森林逻辑回归建立预测模型,通过该预测模型对是否导致NMD的发生进行预测,能够系统、完整、全面的评估NMD的发生,具有更强的真实客观性,使得预测结果更加准确可信,同时,随着后续的真实样本数据的增加,可获得更稳健、准确的评估模型,便于扩展。
具体实施方式
[0025]以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只作为示例,而不能以此来限制本专利技术的保护范围。
[0026]本实施例提供的一种预测无义突变导致转录本降解的方法,包括以下步骤:
[0027]S1:选取至少400组真实样本进行基因测序,并对所有突变点进行筛选注释,只获取无义突变;
[0028]S2:判断携带无义突变的基因是否发生NMD,具体的判断方法如下:
[0029]对获得的无义突变定位至基因,获取所有样本基因的转录表达值RPKM,根据样本
是否携带无义突变分为两组,即发生无义突变的样本和不发生无义突变的样本;对两组分类的RPKM进行F检验获取P值,如果P值不大于0.01,说明具有显著性差异,即携带无义突变基因发生NMD;若P值大于0.01,则说明不具有显著性差异,即携带无义突变基因未发生NMD,由此判断该携带有无义突变的基因是否导致NMD的发生。
[0030]S4:对发生NMD的基因进行因素提取,获取6个无义突变相关因素,从而高预测的准确性,其中,所述无义突变相关因素包括(1)

(6),具体地:
[0031](1)无义突变距离最后一个外显子与外显子连接处的距离,该距离从突变位置下一个碱基算起,至最后一个连接处的外显子碱基结束,其间的碱基个数;
[0032](2)无义突变距离起始密码子的距离,该无义突变距离起始密码子的距离从突变位置上一个碱基算起,至起始密码子的外显子上结束,其间的碱基个数;
[0033](3)无义突本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预测无义突变导致转录本降解的方法,其特征在于,包括以下步骤:S1:选取多组真实样本并对所有突变点进行筛选注释,只获取无义突变;S2:判断携带无义突变的基因是否发生NMD;S4:对发生NMD的基因进行因素提取,获取至少6个无义突变相关因素:S5:根据上述相关因素进行计算,最终形成NM矩阵,其中,N为总的无义突变数量,M为单个无义突变的因素数量;S6:纳入上述无义突变相关因素,使用Sklearn中的随机森林模型,对获取的无义突变数据数据进行建模,并获得预测模型,其中因变量为无义突变是否发生NMD,自变量为纳入的所有无义突变相关因素;S6:利用上述模型对无义突变是否导致转录本降解进行预测。2.如权利要求1所述的一种预测无义突变导致转录本降解的方法,其特征在于,所述S2中的判断方法具体为:对获得的无义突变定位至基因,获取所有样本基因的转录表达值RPKM,根据样本是否携带无义突变分为两组,即发生无义突变的样本和不发生无义突变的样本;对两组分类的RPKM进行检验获取P值,如果P值不大于0.01,说明具有显著性差异,即携带无义突变基因发生NMD;若P值大于0.01,则说明不具有显著性差异,即携带无义突变基因未发生NMD。3.如权利要求1所述的一种预测无义突变导致转录本降解的方法,其特征在于,所述相关因素包括...

【专利技术属性】
技术研发人员:王海宁刘珍姜玥
申请(专利权)人:哈尔滨因极科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1