一种利用二代和三代转录组测序数据的基因组注释方法技术

技术编号:24583042 阅读:99 留言:0更新日期:2020-06-21 01:23
本发明专利技术涉及基因组注释技术领域,提供一种利用二代和三代转录组测序数据的基因组注释方法。本发明专利技术的方法包括下述步骤:步骤1:将三代全长转录组测序序列比对到目标基因组,得到各编码基因的初始结构信息;步骤2:将二代转录组测序短序列比对到目标基因组,从比对文件中提取内含子剪切位点信息;步骤3:结合各编码基因的初始结构信息和内含子剪切位点信息,获得各编码基因的最终结构信息。本发明专利技术既能充分利用三代转录组无须拼接即可得到全长转录本序列从而准确性高的优点,又能充分考虑二代转录组测序数据能够提供大量的内含子剪切位点证据的优点,大大提高了基因组注释的准确性和效率。

A genome annotation method using second and third generation transcriptome sequencing data

【技术实现步骤摘要】
一种利用二代和三代转录组测序数据的基因组注释方法
本专利技术涉及基因组注释
,涉及一种真核生物全基因组编码基因结构的注释方法,特别是涉及一种利用二代和三代转录组测序数据的基因组注释方法。
技术介绍
一般全基因组序列组装完毕之后,需要对其蛋白编码基因的结构进行预测。预测通常综合采用三种策略:从头预测、基于近缘物种的序列同源性进行预测以及基于转录组数据的预测。由于转录组是一个物种所表达基因的最直接的证据,因此基于转录组数据的预测结果被认为是最可信的,在整合所有策略的预测结果得到最终基因集的时候该策略所给的权重一般也是最高的。基于转录组数据预测编码基因的方法中,比较有代表性的有PASA、tophat+cufflinks、hisat2+stringtie等。二代和三代转录组测序数据都可以作为PASA的输入。三代全长转录组因为无须组装即可得到转录本的全长序列,具有准确可靠的优点。通常三代数据可以直接输入给PASA,二代数据则需先用组装软件如Trinity组装后才能输入。而tophat+cufflinks和hisat2+stringtie则比本文档来自技高网...

【技术保护点】
1.一种利用二代和三代转录组测序数据的基因组注释方法,其特征在于,包括下述步骤:/n步骤1:将三代全长转录组测序序列比对到目标基因组,得到各编码基因的初始结构信息;/n步骤2:将二代转录组测序短序列比对到目标基因组,从比对文件中提取内含子剪切位点信息;/n步骤3:结合各编码基因的初始结构信息和内含子剪切位点信息,获得各编码基因的最终结构信息。/n

【技术特征摘要】
1.一种利用二代和三代转录组测序数据的基因组注释方法,其特征在于,包括下述步骤:
步骤1:将三代全长转录组测序序列比对到目标基因组,得到各编码基因的初始结构信息;
步骤2:将二代转录组测序短序列比对到目标基因组,从比对文件中提取内含子剪切位点信息;
步骤3:结合各编码基因的初始结构信息和内含子剪切位点信息,获得各编码基因的最终结构信息。


2.根据权利要求1所述的利用二代和三代转录组测序数据的基因组注释方法,其特征在于...

【专利技术属性】
技术研发人员:袁晓辉刘海平肖世俊
申请(专利权)人:武汉古奥基因科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1