批量更新基因组组装和注释文件ID的方法和装置制造方法及图纸

技术编号:37819556 阅读:17 留言:0更新日期:2023-06-09 09:52
本发明专利技术提供了一种批量更新基因组组装和注释文件ID的方法和装置。该方法包括:S1,使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID;S2,利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。本申请的方法批量更新方式简单快速、且更新后的ID格式统一,易于后续分析。易于后续分析。易于后续分析。

【技术实现步骤摘要】
批量更新基因组组装和注释文件ID的方法和装置


[0001]本专利技术涉基因组组装与注释领域,具体而言,涉及一种批量更新基因组组装和注释文件ID的方法和装置。

技术介绍

[0002]基因组组装与注释是生物信息学领域的核心,基因组组装就是把测序产生的片段(reads)经过序列拼接组装,生成基因组碱基序列。基因组组装首先根据测序序列之间的重叠(overlap)构建出重叠群(contig),再利用allhic等软件对contig进行聚类、排序和调整方向,得到最终染色体级别的基因组。基因组的格式为fasta格式,fasta格式文件中的每个序列信息由两个部分组成,分为描述行和序列行,描述行由一个大于号(>)开头,内容可以随意填写,没有重复,一般存放序列的ID或者名称。序列行为一行或者多行核酸或者蛋白序列,核酸使用碱基(ATCG)表示,蛋白使用氨基酸的字母缩写表示。
[0003]基因组组装完后需要对基因组序列进行注释。基因组注释主要包括四个方面:重复序列(repeat)注释、非编码RNA注释(ncRNA)、基因结构注释和基因功能注释。注释前首先构建基因模型,有三种策略:1)同源预测(homology

based prediction):有一些基因的蛋白在相近物种间的保守性高,所以可以使用已有的高质量近缘物种注释信息通过序列比对的方式确定外显子边界和剪切位点;2)基于转录组预测(transcriptome

based prediction):通过物种的RNA
‑<br/>seq数据辅助注释,能够较为准确的确定外显子区域和剪切位点;3)从头注释(de novo prediction):通过已有的概率模型来预测基因结构。每一种方法都有各自的优缺点,所以最后需要用Evidence Modeler(EVM)工具进行整合,合并成完整的基因结构。基于可靠的基因结构,后续可进行功能注释。注释的结果一般是gff(通用特征格式)文件,gff文件一共有9列,分别是:(1)序列ID;(2)序列来源;(3)序列类型;(4)序列开始位置;(5)序列结束位置;(6)得分值;(7)正负链信息;(8)相位信息;(9)序列的属性。根据gff文件会生成CDS(编码序列)文件和蛋白pep(蛋白)文件,这两个文件为fasta格式。
[0004]基因组组装和注释完成后,基因组的序列名称和注释的序列名称会根据组装和注释的软件选择,以固定的id进行命名。例如使用allhic软件对基因组挂载完成之后,挂载的染色体id为Hic_asm_01、Hic_asm_02等,使用evm对基因组注释完成之后,基因序列id为evm.TU.Hic_asm_01.1、evm.TU.Hic_asm_01.2等。在后续的基因组比较分析中,不同的id命名方式会使读取混乱,不能直观表示,因此需要转化成统一规则的命名格式。
[0005]但如何提供一种简单易读且格式统一的基因组组装和注释文件,目前尚未有效的解决方案。

技术实现思路

[0006]本专利技术的主要目的在于提供一种批量更新基因组组装和注释文件ID的方法和装置,以解决现有技术中不同软件命名格式不统一难以准确读取的问题。
[0007]为了实现上述目的,根据本专利技术的一个方面,提供了一种批量更新基因组组装和
注释文件ID的方法,该方法包括:S1,使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID;S2,利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。
[0008]进一步地,S1包括:使用mummer软件将基因组与已知的近源物种的参考基因组进行比对,将基因组上的染色体的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID,获得染色体新ID与原ID的对应关系文件;根据染色体新ID与原ID的对应关系文件,对基因组上各染色体的ID进行更新替换。
[0009]进一步地,根据染色体新ID与原ID的对应关系文件,对基因组上各染色体的原ID进行更新替换的原则包括:如果染色体的方向是反向的,则输出反向互补序列,如果是正向的,则序列则不做任何处理。
[0010]进一步地,S2包括:预设注释文件中基因ID的命名格式;根据各基因在染色体上的位置排序,获得各基因新ID与原ID的对应关系文件;根据各基因新ID与原ID的对应关系文件,对注释文件中的原ID进行替换,从而获得具有各基因新ID的注释文件。
[0011]进一步地,按如下顺序预设注释文件中基因ID的命名格式:物种拉丁名称简写、染色体ID以及基因在染色体上的位置排序。
[0012]进一步地,根据各基因在染色体上的位置排序,获得基因新ID与原ID的对应关系文件包括:根据染色体的方向为正向还是反向,若染色体为正向,则按照参考基因组上各基因的排序,顺序排列各基因原ID,并从小到大输出基因新ID与原ID的对应关系文件;若染色体是反向,则按照参考基因组上各基因的排序,逆序排列各基因原ID,并从小到大排序输出基因新ID与原ID的对应关系文件。
[0013]进一步地,注释文件包括结构注释文件和功能注释文件,在获得具有基因新ID的注释文件后,方法还包括如下至少之一:1)将注释文件中的转录本ID列替换为对应基因的新ID;2)提取基因新ID的CDS序列并翻译为蛋白序列。
[0014]进一步地,注释文件包括重复序列注释文件和/或ncRNA注释文件,在获得染色体新ID与原ID的对应关系文件后,方法还包括:将重复序列注释文件和ncRNA注释文件中的染色体的原ID替换为新ID。
[0015]根据本申请的第二个方面,提供了一种批量更新基因组组装和注释文件ID的装置,该装置包括:染色体ID更新模块和基因ID更新模块,染色体ID更新模块被设置为使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组上各染色体的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID;基因ID更新模块被设置为利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。
[0016]进一步地,染色体ID更新模块包括:比对更新单元,被设置为使用mummer软件将基因组与已知的近源物种的参考基因组进行比对,将基因组上的染色体的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID,获得染色体新ID与原ID的对应关系文件;染色体ID更新单元,被设置为根据染色体新ID与原ID的对应关系文件,对基因组上各染色体的ID进行更新替换。
[0017]进一步地,染色体ID更新模单元包括:输出子单元,被设置为当染色体的方向是反
向时,输出反向互补序列,当染色体的方向是正向是,则序列则不做任何处理直接输出。
[0018]进一步地,基因ID更新模块包括:预设模块,被设置为预设注释文件中基因ID的命名格式;对应模块,被设置为根据各基因在染色体上的位置排序,获得各基因新I本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种批量更新基因组组装和注释文件ID的方法,其特征在于,所述方法包括:S1,使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID;S2,利用预设的基因命名格式对各基因在相应染色体上的位置进行排序,从而获得各基因新ID的注释文件。2.根据权利要求1所述的方法,其特征在于,所述S1包括:使用mummer软件将所述基因组与已知的近源物种的所述参考基因组进行比对,将所述基因组上的染色体的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID,获得染色体新ID与原ID的对应关系文件;根据所述染色体新ID与原ID的对应关系文件,对所述基因组上各染色体的ID进行更新替换。3.根据权利要求2所述的方法,其特征在于,根据所述染色体新ID与原ID的对应关系文件,对所述基因组上各染色体的原ID进行更新替换的原则包括:如果染色体的方向是反向的,则输出反向互补序列,如果是正向的,则序列则不做任何处理。4.根据权利要求1所述的方法,其特征在于,所述S2包括:预设注释文件中基因ID的命名格式;根据各所述基因在染色体上的位置排序,获得各基因新ID与原ID的对应关系文件;根据各所述基因新ID与原ID的对应关系文件,对注释文件中的原ID进行替换,从而获得具有各所述基因新ID的注释文件。5.根据权利要求4所述的方法,其特征在于,按如下顺序预设所述注释文件中基因ID的命名格式:物种拉丁名称简写、染色体ID以及基因在染色体上的位置排序。6.根据权利要求5所述的方法,其特征在于,根据各所述基因在染色体上的位置排序,获得基因新ID与原ID的对应关系文件包括:根据染色体的方向为正向还是反向,若所述染色体为正向,则按照所述参考基因组上各基因的排序,顺序排列各基因原ID,并从小到大输出基因新ID与原ID的对应关系文件;若所述染色体是反向,则按照所述参考基因组上各基因的排序,逆序排列各基因原ID,并从小到大排序输出基因新ID与原ID的对应关系文件。7.根据权利要求4至6中任一项所述的方法,其特征在于,所述注释文件包括结构注释文件和功能注释文件,在获得具有基因新ID的注释文件后,所述方法还包括如下至少之一:1)将所述注释文件中的转录本ID列替换为对应基因的新ID;2)提取基因新ID的CDS序列并翻译为蛋白序列。8.根据权利要求2或3所述的方法,其特征在于,所述注释文件包括重复序列注释文件和/或ncRNA注释文件,在获得染色体新ID与原ID的对应关系文件后,所述方法还包括:将所述重复序列注释文件和ncRNA注释文件中的染色体的原ID替换为新ID。9.一种批量更新基因组组装和注释文件ID的装置,其特征在于,所述装置包括:染色体ID更新模块,被设置为使用mummer软件与已知的近源物种的参考基因组进行比对,将基因组上各染色体的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID;
基因ID更新模块,被设置为利用预设的基因命名格式对各基因在相应染色体上的位置...

【专利技术属性】
技术研发人员:康玲周勋彭珍赵勇王龙陶琳娜马策
申请(专利权)人:北京诺禾致源科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1