一种快速预测真核生物基因结构的方法和系统技术方案

技术编号:37121446 阅读:27 留言:0更新日期:2023-04-01 05:16
本发明专利技术公开了一种快速预测真核生物基因结构的方法和系统,所述方法包括数据的输入和预处理,基因结构的预测处理和预测结果整合等步骤。本发明专利技术提供的方法极大的减少了计算资源和计算时间的消耗,而且可以在不依赖转录组数据的情况下获得相对可靠的注释结果,运行效率高,可以实现工业化的快速分析和注释。可以实现工业化的快速分析和注释。可以实现工业化的快速分析和注释。

【技术实现步骤摘要】
一种快速预测真核生物基因结构的方法和系统


[0001]本专利技术属于基因预测
,具体涉及一种快速预测真核生物基因结构的方法和系统。

技术介绍

[0002]随着测序技术的发展,测序的成本不断降低、测序技术变得越来越普及。利用测序技术可以获得基因组序列,为研究物种的起源、进化和变异等提供便捷。但通过基因组测序和组装获得基因组序列之后,需要利用软件预测获得基因的结构和序列信息才能进行后续的分析和研究。近年来单细胞全基因组测序、泛基因组测序和T2T基因组测序等技术的发展和运用,产生大量的基因组数据,对基因组进行快速批量的基因注释变的越来越重要。
[0003]由于真核生物的基因结构相对比较复杂,目前预测需要分为蛋白质的同源预测、转录组的辅助预测和从头预测三个部分,然后再利用EvidenceModeler(EVM)软件将三种方法预测的结果进行整合才能获得比较准确的基因信息。同源预测早期主要使用BLAST和GeneWise将近源物种的蛋白质序列比对到基因组上进行基因结果的预测,现在主要使用GeneMoMa进行预测。BLAST和GeneWise比本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种快速预测真核生物基因结构的方法,其特征在于,包括以下步骤:(1)数据的输入和预处理:(1.1)获取待注释物种的基因组数据,过滤掉长度小于500bp的序列,再将基因组数据按单条序列进行切分,每条序列构建一个文件;(1.2)获取待注释物种的近源物种的蛋白质序列数据,聚类后构建非冗余蛋白质数据库;(1.3)获取待注释物种或与其近源物种的转录组注释数据,对所述转录组注释数据进行过滤,去除CDS序列信息并保留外显子信息,再以基因为单位输出信息;获取基因的外显子、内含子和基因间隔区的信息,并依据所述信息训练获得马尔可夫从头预测模型;或直接获取现有的其他物种训练的模型;(2)基因结构的预测处理:(2.1)针对步骤(1.1)中构建的文件,分别使用无监督的马尔科夫模型根据每个文件中所述序列的起始密码子、终止密码子和终止子信息预测基因结构,合并所有文件的预测结果;(2.2)利用MetaEuk的6帧翻译片段快速搜索算法将所述非冗余蛋白质数据库分别比对至步骤(1.1)所述每条序列,获取预测结果,并将其转换为GFF文件;(2.3)使用有监督的马尔可夫模型根据训练的模型对步骤(1.1)所述每条序列进行基因结构的从头预测,合并所有文件的预测结果;(3)通过EvidenceModeler整合步骤(2)中的预测结果,得到基因注释的GFF文件;其中步骤(2.2)所述预测结果的权重设置为6~10,步骤(2.1)所述预测结果的权重为2~4,步骤(2.3)所述预测结果的权重为2~4。2.根据权利要求1所述快速预测真核生物基因结构的方法,其特征在于,步骤(1.1)所述获取的基因组数据为屏蔽了重复序列的基因组数据中。3.根据权利要求1所述快速预测真核生物基因结构的方法,其特征在于,所述聚类的方法为:将相似度>95%且覆盖度>90%的蛋白质序列聚为一类并保留每一类最长的序列,再以保留下来的所有蛋白质序列构建非冗余蛋白质数据库。4.根据权利要求1所述快速预测真核生物基因结构的方法,其特征在于,步骤(1.2)获取的蛋白质序列数据中有效序列≥10000条。5.根据权...

【专利技术属性】
技术研发人员:张兴国程圣启李三
申请(专利权)人:武汉百易汇能生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1