批量更新基因组组装和注释文件ID的方法和装置制造方法及图纸

技术编号：37819556 阅读：17 留言：0更新日期：2023-06-09 09:52

本发明专利技术提供了一种批量更新基因组组装和注释文件ID的方法和装置。该方法包括：S1，使用mummer软件与已知的近源物种的参考基因组进行比对，将基因组的原ID更新为与参考基因组上染色体顺序及方向顺序一致的新ID；S2，利用预设的基因命名格式对各基因在相应染色体上的位置进行排序，从而获得各基因新ID的注释文件。本申请的方法批量更新方式简单快速、且更新后的ID格式统一，易于后续分析。易于后续分析。易于后续分析。

全部详细技术资料下载

【技术实现步骤摘要】
批量更新基因组组装和注释文件ID的方法和装置

[0001]本专利技术涉基因组组装与注释领域，具体而言，涉及一种批量更新基因组组装和注释文件ID的方法和装置。

技术介绍

[0002]基因组组装与注释是生物信息学领域的核心，基因组组装就是把测序产生的片段(reads)经过序列拼接组装，生成基因组碱基序列。基因组组装首先根据测序序列之间的重叠(overlap)构建出重叠群(contig)，再利用allhic等软件对contig进行聚类、排序和调整方向，得到最终染色体级别的基因组。基因组的格式为fasta格式，fasta格式文件中的每个序列信息由两个部分组成，分为描述行和序列行，描述行由一个大于号(>)开头，内容可以随意填写，没有重复，一般存放序列的ID或者名称。序列行为一行或者多行核酸或者蛋白序列，核酸使用碱基(ATCG)表示，蛋白使用氨基酸的字母缩写表示。
[0003]基因组组装完后需要对基因组序列进行注释。基因组注释主要包括四个方面：重复序列(repeat)注释、非编码RNA注释(ncRNA)、基因结构注释和基因功能注释。注释前首先构建基因模型，有三种策略：1)同源预测(homology
‑
based prediction)：有一些基因的蛋白在相近物种间的保守性高，所以可以使用已有的高质量近缘物种注释信息通过序列比对的方式确定外显子边界和剪切位点；2)基于转录组预测(transcriptome
‑
based prediction)：通过物种的RNA
‑<...

【技术保护点】

【技术特征摘要】
1.一种批量更新基因组组装和注释文件ID的方法，其特征在于，所述方法包括：S1，使用mummer软件与已知的近源物种的参考基因组进行比对，将基因组的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID；S2，利用预设的基因命名格式对各基因在相应染色体上的位置进行排序，从而获得各基因新ID的注释文件。2.根据权利要求1所述的方法，其特征在于，所述S1包括：使用mummer软件将所述基因组与已知的近源物种的所述参考基因组进行比对，将所述基因组上的染色体的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID，获得染色体新ID与原ID的对应关系文件；根据所述染色体新ID与原ID的对应关系文件，对所述基因组上各染色体的ID进行更新替换。3.根据权利要求2所述的方法，其特征在于，根据所述染色体新ID与原ID的对应关系文件，对所述基因组上各染色体的原ID进行更新替换的原则包括：如果染色体的方向是反向的，则输出反向互补序列，如果是正向的，则序列则不做任何处理。4.根据权利要求1所述的方法，其特征在于，所述S2包括：预设注释文件中基因ID的命名格式；根据各所述基因在染色体上的位置排序，获得各基因新ID与原ID的对应关系文件；根据各所述基因新ID与原ID的对应关系文件，对注释文件中的原ID进行替换，从而获得具有各所述基因新ID的注释文件。5.根据权利要求4所述的方法，其特征在于，按如下顺序预设所述注释文件中基因ID的命名格式：物种拉丁名称简写、染色体ID以及基因在染色体上的位置排序。6.根据权利要求5所述的方法，其特征在于，根据各所述基因在染色体上的位置排序，获得基因新ID与原ID的对应关系文件包括：根据染色体的方向为正向还是反向，若所述染色体为正向，则按照所述参考基因组上各基因的排序，顺序排列各基因原ID，并从小到大输出基因新ID与原ID的对应关系文件；若所述染色体是反向，则按照所述参考基因组上各基因的排序，逆序排列各基因原ID，并从小到大排序输出基因新ID与原ID的对应关系文件。7.根据权利要求4至6中任一项所述的方法，其特征在于，所述注释文件包括结构注释文件和功能注释文件，在获得具有基因新ID的注释文件后，所述方法还包括如下至少之一：1)将所述注释文件中的转录本ID列替换为对应基因的新ID；2)提取基因新ID的CDS序列并翻译为蛋白序列。8.根据权利要求2或3所述的方法，其特征在于，所述注释文件包括重复序列注释文件和/或ncRNA注释文件，在获得染色体新ID与原ID的对应关系文件后，所述方法还包括：将所述重复序列注释文件和ncRNA注释文件中的染色体的原ID替换为新ID。9.一种批量更新基因组组装和注释文件ID的装置，其特征在于，所述装置包括：染色体ID更新模块，被设置为使用mummer软件与已知的近源物种的参考基因组进行比对，将基因组上各染色体的原ID更新为与所述参考基因组上染色体顺序及方向顺序一致的新ID；
基因ID更新模块，被设置为利用预设的基因命名格式对各基因在相应染色体上的位置...

【专利技术属性】
技术研发人员：康玲，周勋，彭珍，赵勇，王龙，陶琳娜，马策，
申请(专利权)人：北京诺禾致源科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人