利用三代全长转录组的高原多倍体鱼类基因组注释方法技术

技术编号:24999432 阅读:50 留言:0更新日期:2020-07-24 18:01
本发明专利技术涉及基因组注释技术领域,提供一种利用三代全长转录组的高原多倍体鱼类基因组注释方法,包括:步骤1:将三代全长转录组测序序列比对到基因组,得到初始比对文件;步骤2:采用n种基因组预测方法分别预测可能的蛋白编码基因,得到n个比对文件;步骤3:根据比对文件提取外显子序列并比对到基因组,得到每种方法下各编码基因的结构信息;从初始比对文件中提取内含子剪切位点信息;结合每种方法下各编码基因的结构信息和内含子剪切位点信息,得到改进的蛋白编码序列;整合n种方法下改进的蛋白编码序列得到预测基因集。本发明专利技术能够同时利用三代全长转录组的高准确性及其提供的内含子剪切位点信息,提高了高原多倍体鱼类基因组注释的准确性。

【技术实现步骤摘要】
利用三代全长转录组的高原多倍体鱼类基因组注释方法
本专利技术涉及基因组注释
,涉及一种高原多倍体鱼类基因组注释方法,特别是涉及一种利用三代全长转录组的高原多倍体鱼类基因组注释方法。
技术介绍
随着测序技术的发展,测序一个基因组的成本已经越来越低,大量物种的基因组序列被测定出来。一般基因组测序完成后,需要预测其编码的基因序列,即基因结构注释。通常采用三种方法:从头预测、基于同源序列的预测以及基于基因表达的预测,相应的代表性工具有augustus、genewise和PASA等。以genewise为代表的基于同源的注释方法将近缘物种的蛋白序列与注释物种的基因组序列进行比较确定其编码结构,以PASA为代表的基于表达的方法将转录本直接与注释物种的基因组进行比对以确定结构,以hisat+stringtie为代表的方法则是直接将二代短序列比对到基因组来预测其结构。虽然基因注释的方法很多,但是每种方法适应的情况不同,而且没有一种方法能完美地将基因组所有的编码基因全部预测出来。高原鱼类存在大量同源多倍体物种,由于全基因组加倍产生的ohnologs彼本文档来自技高网...

【技术保护点】
1.一种利用三代全长转录组的高原多倍体鱼类基因组注释方法,其特征在于,包括下述步骤:/n步骤1:将三代全长转录组测序序列比对到待注释高原多倍体鱼的基因组,得到初始比对文件;/n步骤2:采用n种基因组预测方法分别预测待注释高原多倍体鱼可能的蛋白编码基因,得到n个注释文件;/n步骤3:使用GeMoMa结合初始比对文件对n种基因组预测方法的预测结果进行改进,并整合各改进后的预测结果得到最终的预测基因集:/n步骤3.1:提取外显子序列并比对到待注释高原多倍体鱼的基因组:使用GeMoMa从第i∈{1,2,...,n}个注释文件中提取第i种基因组预测方法下的各外显子序列,将第i种基因组预测方法下的各外显子...

【技术特征摘要】
1.一种利用三代全长转录组的高原多倍体鱼类基因组注释方法,其特征在于,包括下述步骤:
步骤1:将三代全长转录组测序序列比对到待注释高原多倍体鱼的基因组,得到初始比对文件;
步骤2:采用n种基因组预测方法分别预测待注释高原多倍体鱼可能的蛋白编码基因,得到n个注释文件;
步骤3:使用GeMoMa结合初始比对文件对n种基因组预测方法的预测结果进行改进,并整合各改进后的预测结果得到最终的预测基因集:
步骤3.1:提取外显子序列并比对到待注释高原多倍体鱼的基因组:使用GeMoMa从第i∈{1,2,...,n}个注释文件中提取第i种基因组预测方法下的各外显子序列,将第i种基因组预测方法下的各外显子序列比对到待注释高原多倍体鱼的基因组,得到第i种基因组预测方法下的比对结果;
步骤3.2:从初始比...

【专利技术属性】
技术研发人员:袁晓辉刘海平肖世俊
申请(专利权)人:武汉古奥基因科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1