一种基于单核苷酸多态性预测开放阅读框的方法及系统技术方案

技术编号:33860373 阅读:19 留言:0更新日期:2022-06-18 10:50
本发明专利技术公开了一种基于单核苷酸多态性预测开放阅读框的方法,以及预测开放阅读框的系统。本发明专利技术利用群体基因组变异数据中编码序列中核苷酸多态性的3碱基周期性,检验和筛选待测基因序列中的开放阅读框,并统计开放阅读框中密码子的使用频率,结合核苷酸多态性的3碱基周期性和密码子使用频率统计结果,统计分析综合评定小开放阅读框的预测概率,从而实现在基因组中对小开放阅读框的准确预测。基因组中对小开放阅读框的准确预测。基因组中对小开放阅读框的准确预测。

【技术实现步骤摘要】
一种基于单核苷酸多态性预测开放阅读框的方法及系统


[0001]本专利技术属于生物
,具体涉及一种基于单核苷酸多态性预测开放阅读框的方法,以及预测开放阅读框的系统。

技术介绍

[0002]开放阅读框(Open reading frame,ORF)是DNA序列中具有编码蛋白质潜能的序列,其在基因组中的注释是下游分析和使用参考基因组所需的最重要的过程之一。目前,人们开发了各种算法来预测基因组中的ORF,但这些基于序列的方法无法预测小开放阅读框(small ORF,sORF)。近年来的研究表明,sORF编码的短于100个氨基酸的多肽在植物对非生物和生物胁迫的响应、人类的致癌作用以及一些与癌症治疗相关的生物过程中发挥着重要作用。长期以来,由于sORF的长度较短,且使用了非标准的起始密码子(CUG,GUG,UUG),其预测一直存在问题。
[0003]现有技术中,核糖体印迹测序技术(Ribo

seq)可以对核糖体保护的mRNA印记(RPFs)进行分析,可以用于精确预测包括酵母、人类、动物和植物在内的许多物种中被翻译的sORF。但这些物种大多是简单的模式生物,通常是二倍体纯合基因组,而Ribo

seq技术在复杂基因组中的应用鲜有报道。一个典型的真核核糖体的印记长度为28个碱基,对于序列的精确定位来说太短了,而这个问题在多倍体复杂基因组中会更加突出。许多植物基因组都是高重复和高杂合的多倍体复杂基因组,这极大地限制了Ribo

seq技术在这些植物中的应用。由于许多重要农作物,如小麦(六倍体)和棉花(四倍体),都是多倍体,因此有必要开发新的方法和工具用于解决多倍体复杂基因组中小编码框的鉴定问题。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,提供一种基于单核苷酸多态性预测开放阅读框的方法及系统。本专利技术利用群体基因组变异数据中编码序列中核苷酸多态性的3碱基周期性,引入密码子的使用频率,通过统计分析综合评定编码框的预测概率值,进而预测复杂基因组中的编码框。
[0005]本专利技术的目的是通过以下技术方案来实现的:一种基于单核苷酸多态性预测开放阅读框的方法,包括以下步骤:
[0006]S1、获取待预测的转录本信息,提取候选长开放阅读框;
[0007]S2、评估待预测的候选长开放阅读框中单核苷酸多态性的变化规律,根据预设的第一筛选条件筛选真实长开放阅读框;
[0008]S3、统计所述真实长开放阅读框中各密码子的使用频率;
[0009]S4、从所述转录本信息中提取候选开放阅读框,评估待预测的候选开放阅读框中单核苷酸多态性的变化规律和密码子使用频率,将符合预设的第二筛选条件的候选开放阅读框作为预测结果。
[0010]进一步的,提取所述候选长开放阅读框和候选开放阅读框的依据为:以起始密码
子AUG开头,以终止密码子UAG、UAA或UGA结尾,且候选长开放阅读框和候选开放阅读框的序列长度为3的整数倍。
[0011]进一步的,所述候选长开放阅读框的长度大于900bp,所述候选开放阅读框的长度大于100bp。
[0012]进一步的,评估待预测的所述候选长开放阅读框中单核苷酸多态性的变化规律包括:
[0013]S21、获取待预测样本的群体变异数据,计算待预测的候选长开放阅读框中各位点的核苷酸多样性值;
[0014]S22、分别检验候选长开放阅读框中第3n个碱基的核苷酸多样性值是否大于第3n

2个碱基和第3n

1的核苷酸多样性值,其中,1≤n≤L/3,L为候选长开放阅读框的长度,得到P1和P2,计算合并后的P值。
[0015]进一步的,所述第一筛选条件为P值小于0.0001。
[0016]进一步的,评估待预测的所述候选开放阅读框中单核苷酸多态性的变化规律和密码子使用频率包括:
[0017]S41、获取待预测样本的群体变异数据,计算待预测的候选开放阅读框中各位点的核苷酸多样性值;
[0018]S42、分别检验候选开放阅读框中第3n个碱基的核苷酸多样性值是否大于第3n

2个碱基和第3n

1的核苷酸多样性值,其中,1≤n≤L'/3,L'为候选开放阅读框的长度,得到P1'和P2',;分别检验候选开放阅读框中以第3n

2个碱基为起点的三联体作为密码子的使用频率是否高于以第3n

1个碱基和第3n个碱基为起点的三联体作为密码子的使用频率,得到P3'和P4',计算P1'、P2'、P3和P4四个值合并后的P'值。
[0019]进一步的,所述第二筛选条件为控制符合预设要求的P'值的错误发现率FDR,控制FDR≤0.0001。
[0020]进一步的,所述预设要求为P'值小于0.05。
[0021]本专利技术的另一个目的是提供一种基于单核苷酸多态性预测开放阅读框的系统,包括处理器和存储介质,所述存储介质存储有所述处理器可执行的机器可读指令,所述机器可读指令执行时执行上述的预测开放阅读框的方法。
[0022]本专利技术的有益效果是:
[0023]1)本专利技术利用基因编码序列在群体基因组变异数据中编码序列中核苷酸多态性的3碱基周期性,基于基因编码序列中密码子第三位碱基通常是简并碱基,更容易发生突变而不受到自然选择,故而密码子第三位碱基在自然群体中表现出更高的多态性。通过分析搜索群体基因组变异多态性数据中存在显著3碱基周期性的序列片段,用以确定开放阅读框的翻译相位,进而判断其起始和终止位点,完成开放阅读框的预测。通过引入密码子的使用频率,统计分析综合评定开放阅读框的预测概率值,进而实现对基因组中的开放阅读框的准确预测。本专利技术的方法也适用于多倍体复杂基因组中对小开放阅读框的预测与鉴定,有利于推进对多倍体复杂基因组的研究和开发。
[0024]2)本专利技术还提供应用本专利技术方法预测开放阅读框的系统,将本专利技术的方法步骤处理过程以计算机程序形式应用于计算机上,使用者在输入待预测样本的群体变异数据、转录本等必要信息后,计算机程序将预测结果输出,有利于提升本专利技术方法的使用效率,促进
本专利技术方法在多倍体复杂基因组研究中的应用。
附图说明
[0025]图1为本专利技术的技术路线原理图。
[0026]图2为本专利技术的方法流程图。
[0027]图3为本专利技术实施例一中预测出的两个开放阅读框的实例。
[0028]图4为本专利技术实施例一的预测效果评估结果,本专利技术方法从棉花SNPs鉴定出来的开放阅读框的表现。
[0029]图5为本专利技术实施例一的小开放阅读框的预测结果。
[0030]图6为本专利技术实施例一的蛋白质质谱数据的支持证据。
[0031]图7为本专利技术实施例二中预测出的两个开放阅读框的实例。
[0032]图8为本专利技术实施例二的预测效果评估结果,本专利技术方法从小麦SNPs鉴定出来的开放阅读框的表现。
[0033本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单核苷酸多态性预测开放阅读框的方法,其特征在于:包括以下步骤:S1、获取待预测的转录本信息,提取候选长开放阅读框;S2、评估待预测的候选长开放阅读框中单核苷酸多态性的变化规律,根据预设的第一筛选条件筛选真实长开放阅读框;S3、统计所述真实长开放阅读框中各密码子的使用频率;S4、从所述转录本信息中提取候选开放阅读框,评估待预测的候选开放阅读框中单核苷酸多态性的变化规律和密码子使用频率,将符合预设的第二筛选条件的候选开放阅读框作为预测结果。2.根据权利要求1所述的一种基于单核苷酸多态性预测开放阅读框的方法,其特征在于:提取所述候选长开放阅读框和候选开放阅读框的依据为:以起始密码子AUG开头,以终止密码子UAG、UAA或UGA结尾,且候选长开放阅读框和候选开放阅读框的序列长度为3的整数倍。3.根据权利要求1所述的一种基于单核苷酸多态性预测开放阅读框的方法,其特征在于:所述候选长开放阅读框的长度大于900bp,所述候选开放阅读框的长度大于100bp。4.根据权利要求1所述的一种基于单核苷酸多态性预测开放阅读框的方法,其特征在于:评估待预测的所述候选长开放阅读框中单核苷酸多态性的变化规律包括:S21、获取待预测样本的群体变异数据,计算待预测的候选长开放阅读框中各位点的核苷酸多样性值;S22、分别检验候选长开放阅读框中第3n个碱基的核苷酸多样性值是否大于第3n

2个碱基和第3n

1的核苷酸多样性值,其中,1≤n≤L/3,L为候选长开放阅读框的长度,得到P1和P2,计算合并后的P值。5.根据权利要求4所述的一种基于单核苷酸...

【专利技术属性】
技术研发人员:宋波姜梦云宁卫东程时锋
申请(专利权)人:中国农业科学院农业基因组研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1