本发明专利技术提供了鉴定SL序列反式剪切所形成的基因编码框的方法,包括:获得基因组所有转录本和已知编码框序列;获取基因组比对文件;基于转录组测序数据,根据比对文件筛选局部比对序列,提取未成功比对上的部分序列;对未成功比对上的序列与指定的SL序列进行比较,若所提取的序列为指定SL序列的末端至少8个碱基序列,确定该序列为SL剪切位点产生的序列;根据比对文件中记录的位置信息推算SL序列的剪切位点,将剪切位点转换成转录组坐标;根据转录组坐标和转录本得到完整的mRNA序列;根据完整的mRNA序列,利用核糖体印迹测序数据,获得完整的mRNA对应的编码框。本发明专利技术解决了现有技术中SL序列的添加引入新的翻译起始位点,使原始基因组注释信息失效的问题。基因组注释信息失效的问题。基因组注释信息失效的问题。
【技术实现步骤摘要】
一种鉴定SL序列反式剪切所形成的基因编码框的方法
[0001]本专利技术涉及生物
,特别是涉及一种鉴定SL序列反式剪切所形成的基因编码框的方法。
技术介绍
[0002]基因编码框(Openreading frame,ORF)在基因组中的注释对于后续的生物学研究和应用至关重要。近年来,研究人员开发了各种算法来预测基因组中的ORF,但是这些算法和工具均是以模式物种的研究为出发点所进行的,虽然在大部分物种的研究中都是适用的,但是一些特殊物种的研究需求则没有被考虑。
[0003]在自然界中,大部分真核生物基因转录后形成信使RNA(mRNA),随后通过顺式剪切去掉内含子(Intron)以后形成最终的成熟mRNA,进行翻译,合成蛋白质。然而,有另外一类真核生物,它们的mRNA成熟过程中除了需要经历内含子的顺式剪切,还需要经历前导(spliced leader,SL)序列的反式剪切。具体来说,在这类生物中,基因转录成mRNA以后,在其5
’
端进行反式剪切,添加上一段特定的SL序列,然后才能形成成熟的mRNA,进行翻译。由于很多物种中SL序列自身带有启始密码子(如“AUG”、“UUG”等),在现有技术存在SL序列的添加将有可能引入新的翻译起始位点,从而改变原有的基因编码框,形成新的蛋白质序列,使得原始的基因组注释信息失效,从而引发一系列的错误分析和结论的问题。
技术实现思路
[0004]为了克服现有技术的不足,本专利技术的目的是提供一种鉴定SL序列反式剪切所形成的基因编码框的方法,本专利技术解决了现有技术存在SL序列的添加将有可能引入新的翻译起始位点,从而改变原有的基因编码框,形成新的蛋白质序列,使得原始的基因组注释信息失效,从而引发一系列的错误分析和结论的问题。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种鉴定SL序列反式剪切所形成的基因编码框的方法,包括:
[0007]获得全部的基因组所有转录本和已知编码框序列;
[0008]根据所述转录本和已知编码框序列获取所述基因组的比对文件;
[0009]基于转录组测序技术,根据所述比对文件筛选局部比对的序列,并提取未成功比对上的序列;
[0010]对所述未成功比对上的序列与指定的SL序列进行比较,若所提取的序列为指定SL序列的末端至少8个碱基序列,则确定该序列为SL剪切位点所产生的序列;
[0011]根据所述比对文件中所记录的位置信息推算SL序列的剪切位点,并将所述剪切位点转换成转录组坐标;
[0012]根据所述转录组坐标和所述转录本得到完整的mRNA序列;
[0013]利用核糖体印迹测序数据,根据所述完整的mRNA序列获得完整的mRNA对应的编码框。
[0014]优选地,所述位置信息包括:
[0015]第3列的比对染色体信息和第4列的比对坐标。
[0016]优选地,所述根据所述转录组坐标和所述转录本得到完整的mRNA序列包括:
[0017]将SL剪切位点以前的序列删除,并替换成指定的SL序列以得到完整的mRNA序列。
[0018]优选地,根据基因组中所有编码框的密码子使用情况,计算每个密码子在整体基因组编码序列中的出现频率,然后计算每个已知编码框中密码子频率的平均值,并将其转化为Z
‑
score。
[0019]优选地,根据所述完整的mRNA序列获得完整的mRNA对应的编码框包括:
[0020]基于核糖体印迹测序技术,获取核糖体印迹数据序列;
[0021]对所述核糖体印迹数据序列筛选,获得满足条件的核糖体印迹数据序列;
[0022]根据所述满足条件的核糖体印迹数据序列获得5
’
端与P
‑
site之间不同距离的出现频率;
[0023]根据每一个碱基位于P
‑
site的概率和所述已知编码框中密码子频率的平均值,对编码框进行预测,得到预测编码框;
[0024]对所述预测编码框进行筛选,满足第一条件的预测编码框,进行输出,得到编码框。
[0025]优选地,所述每一个碱基位于P
‑
site的概率的包括:
[0026]5’
端与P
‑
site之间不同距离的出现频率和所述满足条件的核糖体印迹数据序列比对位置。
[0027]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0028]本专利技术提供了一种鉴定SL序列反式剪切所形成的基因编码框的方法,本专利技术通过确定SL剪切点所产生的序列,通过确定SL剪切点所产生的序列获得完整的mRNA序列,从而确定所对应的基因编码框,本专利技术提升了SL序列添加的准确性,降低了因SL序列添加使得得到编码框不准的可能性。
附图说明
[0029]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0030]图1为本专利技术实施例提供的鉴定SL序列反式剪切所形成的基因编码框的方法流程图;
[0031]图2为本专利技术实施例提供的鉴定SL序列反式剪切所形成的基因编码框的方法原理图;
[0032]图3为本专利技术实施例提供的秀丽隐杆线虫slORF的示意图;
[0033]图4为本专利技术实施例提供的布氏锥虫slORF的示意图。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0036]本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤、过程、方法等没有限定于已列出的步骤,而是可选地还包括没有列出的步骤,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤元。
[0037]本专利技术的目的是提供一种一种鉴定SL序列反式剪切所形成的基因编码框的方法,本专利技术解决了现有技术存在SL序列的添加将有可能引入新的翻译起始位点,从而改变原有的基因编码框,形成新的蛋白质序列,使得原始的基因组注释信息本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种鉴定SL序列反式剪切所形成的基因编码框的方法,其特征在于,包括:获得全部的基因组所有转录本和已知编码框序列;根据所述转录本和已知编码框序列获取所述基因组的比对文件;基于转录组测序数据,根据所述比对文件筛选局部比对的序列,并提取未成功比对上的序列;对所述未成功比对上的序列与指定的SL序列进行比较,若所提取的序列为指定SL序列的末端至少8个碱基序列,则确定该序列为SL剪切位点所产生的序列;根据所述比对文件中所记录的位置信息推算SL序列的剪切位点,并将所述剪切位点转换成转录组坐标;根据所述转录组坐标和所述转录本得到完整的mRNA序列;利用核糖体印迹测序数据,根据所述完整的mRNA序列获得完整的mRNA对应的编码框。2.根据权利要求1所述的一种鉴定SL序列反式剪切所形成的基因编码框的方法,其特征在于,所述位置信息包括:第3列的比对染色体信息和第4列的比对坐标。3.根据权利要求1所述的一种鉴定SL序列反式剪切所形成的基因编码框的方法,其特征在于,所述根据所述转录组坐标和所述转录本得到完整的mRNA序列包括:将SL剪切位点以前的序列删除,并替换成指定的SL序列以得到完整的mRNA序列。4.根据权利要求1所述的一种鉴定SL序列反式剪切所形成的基因编码框的方法,其特征在于,根据基因组中所...
【专利技术属性】
技术研发人员:李午佼,孟青,朱纯青,陈运生,
申请(专利权)人:深圳市儿童医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。