一种植物线粒体基因组结构注释方法技术

技术编号:28425044 阅读:17 留言:0更新日期:2021-05-11 18:33
本发明专利技术适用于植物线粒体技术领域,提供了一种植物线粒体基因组结构注释方法,包括以下步骤:S1、使用植物线粒体基因组序列和相应软件分别进行编码序列(CDS)、开放阅读框(ORF)、转运RNA(tRNA)和核糖体RNA(rRNA)的注释;S2、编码序列(CDS)同源注释;S3、开放阅读框(ORF)注释;S4、转运RNA(tRNA)注释;S5、核糖体RNA(rRNA)注释;S6、融合S2、S3、S4和S5的注释结果,获取植物线粒体基因组的结构注释和功能注释结果,并生成genbank和tbl格式的植物线粒体基因组结构注释和功能注释文件;该注释方法能够快速地从完整的植物线粒体基因组中获取详细的注释信息,适用于大部分植物线粒体基因组,从而推动基于线粒体数据在相关领域的研究和应用。

【技术实现步骤摘要】
一种植物线粒体基因组结构注释方法
本专利技术属于植物线粒体
,尤其涉及一种植物线粒体基因组结构注释方法。
技术介绍
植物线粒体是植物进行呼吸代谢和生命活动的重要场所,其基因组相对独立于核基因组,表现为半自主遗传特性。所有植物线粒体基因组中都含有一套与线粒体维持自身生长和发育以及行使其特殊功能相关的必需基因。一般在维持线粒体主要功能电子传递和氧化磷酸化方面所需要的基因在不同物种中非常保守。植物线粒体基因不仅具有多拷贝,还具有内含子,且内含子中存在反式剪切。在其它物种如动物的线粒体基因中不存在内含子,这是高等植物线粒体基因的特征之一。在不同的物种中,线粒体自身所能编码的核糖体蛋白基因却不尽相同。它们所编码的tRNA基因在高等植物及低等植物之间,甚至高等植物内部(如单子叶和双子叶)都有很大的差别。然而在高等植物中,线粒体通常丢失编码携带氨基酸Ala,Gly,Leu,Arg,Thr和Val的tRNA基因,tRNA基因在线粒体基因组上丢失功能成为了假基因。而编码序列(CDS)的注释难点在于多外显子的基因(包括反式剪接的基因),软件无法识别其内含子部分和距离较远的外显子。传统注释方法采用编码蛋白序列比对基因组,无法得到较为准确的注释结果。由于以上原因,导致不同植物线粒体基因组的注释方法需要适应性变化,才能获得植物线粒体基因组结构的详细基因注释信息。
技术实现思路
本专利技术提供一种植物线粒体基因组结构注释方法,旨在解决上述
技术介绍
中所提到的问题。本专利技术是这样实现的,一种植物线粒体基因组结构注释方法,包括以下步骤:S1、使用植物线粒体基因组序列和相应软件分别进行编码序列(CDS)、开放阅读框(ORF)、转运RNA(tRNA)和核糖体RNA(rRNA)的注释;S2、编码序列(CDS)同源注释:S21、使用blastn软件和构建好的植物线粒体基因组基因编码序列(CDS)序列库,比对线粒体基因组序列,挑选比对最好且相似度在90%以上的一条序列作为注释结果;S22、对注释上的编码序列(CDS)序列进行启动子和终止子位置校正,并确定在基因组上的位置;S23、确定反式剪切基因和多外显子的基因位置信息;S24、确定物种编码序列(CDS)基因名称和功能产物信息;S25、输出基因和蛋白序列信息;S3、开放阅读框(ORF)注释:S31、使用ORFfinder软件和植物线粒体基因组序列进行开放阅读框(ORF)的从头预测;S32、使用S2中编码序列(CDS)注释位置,去除开放阅读框(ORF)中和编码序列(CDS)注释位置产生交集的信息,剩余的开放阅读框(ORF)作为潜在的编码区信息;S33、得到最终的开放阅读框(ORF)信息;S4、转运RNA(tRNA)注释:使用tRNAscan-SE软件对植物线粒体基因组序列进行转运RNA(tRNA)的预测,确定转运RNA(tRNA)的名称和位置信息;S5、核糖体RNA(rRNA)注释:使用blastn软件和构建好的植物线粒体基因组核糖体RNA(rRNA)基因序列库,比对植物线粒体基因组序列,挑选比对最好且相似度在90%以上的一条序列作为注释结果;S6、融合S2、S3、S4和S5的注释结果,获取植物线粒体基因组的总结构注释结果和功能注释结果,并生成genbank和tbl格式的植物线粒体基因组结构和功能注释文件。优选的,在S2中,S21中blastn软件所使用的版本型号为v2.10.1。优选的,在S3中,S31中ORFfinder软件所使用的版本型号为v0.4.3。优选的,在S4中,tRNAscan-SE软件所使用的版本型号为v2.0.5。优选的,在S5中,blastn软件所使用的版本型号为v2.10.1。与现有技术相比,本专利技术的有益效果是:该注释方法能够快速地从完整的植物线粒体基因组中获取详细的注释信息,适用于大部分植物线粒体基因组,已经成功的物种包括铃铛子、小麦、老芒麦。从而推动基于线粒体数据在相关领域的研究和应用,例如检验检疫,水生和农业生态系统的监测。附图说明图1为本专利技术的功能流程图;图2为本专利技术的分析图;图3为本专利技术的Genebank格式铃铛子线粒体基因组结构注释和功能注释文件图;图4为本专利技术的tbl格式铃铛子线粒体基因组结构注释和功能注释文件图;具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1,本专利技术提供一种技术方案:一种植物线粒体基因组结构注释方法,包括以下步骤:S1、使用植物线粒体基因组序列和相应软件分别进行编码序列(CDS)、开放阅读框(ORF)、转运RNA(tRNA)和核糖体RNA(rRNA)的注释;S2、编码序列(CDS)同源注释:S21、使用blastn(v2.10.1)软件和构建好的植物线粒体基因组基因编码序列(CDS)序列库,比对线粒体基因组序列,挑选比对最好且相似度在90%以上的一条序列作为注释结果;S22、对注释上的编码序列(CDS)进行启动子和终止子位置校正,并确定在基因组上的位置;S23、确定反式剪切基因和多外显子的基因位置信息;S24、确定物种编码序列(CDS)基因名称和功能产物信息;S25、输出基因和蛋白序列信息;S3、开放阅读框(ORF)注释:S31、使用ORFfinder(v0.4.3)软件和植物线粒体基因组序列进行开放阅读框(ORF)的从头预测;S32、使用S2中编码序列(CDS)注释位置,去除开放阅读框(ORF)中和编码序列(CDS)注释位置产生交集的信息,剩余的开放阅读框(ORF)作为潜在的编码区信息;S33、得到最终的开放阅读框(ORF)信息;S4、转运RNA(tRNA)注释:使用tRNAscan-SE(v2.0.5)软件对植物线粒体基因组序列进行转运RNA(tRNA)的预测,确定转运RNA(tRNA)的名称和位置信息;S5、核糖体RNA(rRNA)注释:使用blastn(v2.10.1)软件和构建好的植物线粒体基因组核糖体RNA(rRNA)基因序列库,比对植物线粒体基因组序列,挑选比对最好且相似度在90%以上的一条序列作为注释结果;S6、融合步骤S2、S3、S4和S5的注释结果,获取植物线粒体基因组的总结构注释s和功能注释结果,并生成genbank和tbl格式的植物线粒体基因组结构注释文件。在本专利技术中,CDS:是编码序列(Codingsequence)的缩写。ORF:是openreadingframe(开放阅读框)的缩写。tRNA:转运RNA(TransferRNA),又称传送核糖核酸、转移核糖核酸,通常简称为tRNA。rRNA:一般指核糖体RNA本文档来自技高网...

【技术保护点】
1.一种植物线粒体基因组结构注释方法,其特征在于,包括以下步骤:/nS1、使用植物线粒体基因组序列和相应软件分别进行编码序列(CDS)、开放阅读框(ORF)、转运RNA(tRNA)和核糖体RNA(rRNA)的注释;/nS2、编码序列(CDS)同源注释:/nS21、使用blastn软件和构建好的植物线粒体基因组基因编码序列(CDS)序列库,比对线粒体基因组序列,挑选比对最好且相似度在90%以上的一条序列作为注释结果;/nS22、对注释上的编码序列(CDS)进行启动子和终止子位置校正,并确定在基因组上的位置;/nS23、确定反式剪切基因和多外显子的基因位置信息;/nS24、确定物种编码序列(CDS)基因名称和功能信息;/nS25、输出基因和蛋白序列信息;/nS3、开放阅读框(ORF)注释:/nS31、使用ORFfinder软件和植物线粒体基因组序列进行开放阅读框(ORF)的从头预测;/nS32、使用S2中编码序列(CDS)注释位置,去除开放阅读框(ORF)中和编码序列(CDS)注释位置产生交集的信息,剩余的开放阅读框(ORF)作为潜在的编码区信息;/nS33、得到最终的开放阅读框(ORF)信息;/nS4、转运RNA(tRNA)注释:使用tRNAscan-SE软件对植物线粒体基因组序列进行转运RNA(tRNA)的预测,确定转运RNA(tRNA)的名称和位置信息;/nS5、核糖体RNA(rRNA)注释:使用blastn软件和构建好的植物线粒体基因组核糖体RNA(rRNA)基因序列库,比对植物线粒体基因组序列,挑选比对最好且相似度在90%以上的一条序列作为注释结果;/nS6、融合S2、S3、S4和S5的注释结果,获取植物线粒体基因组的总结构注释和功能注释结果,并生成genbank和tbl格式的植物线粒体基因组结构注释文件。/n...

【技术特征摘要】
1.一种植物线粒体基因组结构注释方法,其特征在于,包括以下步骤:
S1、使用植物线粒体基因组序列和相应软件分别进行编码序列(CDS)、开放阅读框(ORF)、转运RNA(tRNA)和核糖体RNA(rRNA)的注释;
S2、编码序列(CDS)同源注释:
S21、使用blastn软件和构建好的植物线粒体基因组基因编码序列(CDS)序列库,比对线粒体基因组序列,挑选比对最好且相似度在90%以上的一条序列作为注释结果;
S22、对注释上的编码序列(CDS)进行启动子和终止子位置校正,并确定在基因组上的位置;
S23、确定反式剪切基因和多外显子的基因位置信息;
S24、确定物种编码序列(CDS)基因名称和功能信息;
S25、输出基因和蛋白序列信息;
S3、开放阅读框(ORF)注释:
S31、使用ORFfinder软件和植物线粒体基因组序列进行开放阅读框(ORF)的从头预测;
S32、使用S2中编码序列(CDS)注释位置,去除开放阅读框(ORF)中和编码序列(CDS)注释位置产生交集的信息,剩余的开放阅读框(ORF)作为潜在的编码区信息;
S33、得到最终的开放阅读框(ORF)信息;
S4、转运RNA(tRNA)注释:使用tRNAscan-...

【专利技术属性】
技术研发人员:高海东周向阳徐雷
申请(专利权)人:南京集思慧远生物科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1