用于构建微生物基因组数据库的方法、设备和介质技术

技术编号:35742607 阅读:16 留言:0更新日期:2022-11-26 18:46
本公开的实施例涉及用于构建微生物基因组数据库的方法、设备和介质。根据该方法,获取来自多个公共数据库的关于具有文献支持的微生物物种的基因组数据;基于微生物类别对所获取的基因组数据进行初步筛选;基于每一基因组的组装水平,将经初步筛选的基因组数据分组成第一基因组数据分组和多个第二基因组数据分组;从多个第二基因组数据分组中的至少一个中标识出病原微生物物种的基因组数据,以便确定经最终筛选的基因组数据;以及对经最终筛选的基因组数据进行去冗余处理,以便得到用于构建微生物基因组数据库的基因组数据。由此,使得所构建的微生物基因组数据库能够同时具有较高的比对率和比对效率。高的比对率和比对效率。高的比对率和比对效率。

【技术实现步骤摘要】
用于构建微生物基因组数据库的方法、设备和介质


[0001]本公开的实施例总体涉及生物信息学领域,并且更具体地涉及一种用于构建微生物基因组数据库的方法、设备和介质。

技术介绍

[0002]目前,在需要进行微生物物种鉴定时,通常是基于公共数据库来进行比对的。然而,由于一般的公共数据库均仅包括有限的微生物物种,而且存在数据量大并且数据质量参差不齐的问题,因此微生物物种鉴定的比对率一般,准确性较低,而且比对效率也非常低。
[0003]另外,现有的私有微生物基因组数据库通常都是基于筛选出的高质量的基因组来构建的,因此存在物种缺失的问题,从而使得在基于这样的私有微生物基因组数据库进行微生物物种鉴定时,容易造成假阴性的问题,因此微生物物种鉴定的比对率也较低。

技术实现思路

[0004]针对上述问题,本公开提供了一种用于构建微生物基因组数据库的方法、设备和介质,使得所构建的微生物基因组数据库能够同时具有较高的比对率和比对效率,也就是说所构建的微生物基因组数据库质量高、数据量小、并且数据覆盖范围全面,进而有助于提高微生物物种鉴定的准确性,并且提升比对性能。
[0005]根据本公开的第一方面,提供了一种用于构建微生物基因组数据库的方法,包括:获取来自多个公共数据库的关于具有文献支持的微生物物种的基因组数据,所述基因组数据包括每一基因组所属的微生物物种、所述微生物物种所属的微生物类别、所述基因组的组装水平、所述基因组的序列数据;基于所获取的基因组数据所涉及的多个微生物类别,对所获取的基因组数据进行初步筛选;基于每一基因组的组装水平,将经初步筛选的基因组数据分组成与第一组装水平相关联的第一基因组数据分组以及分别与多个第二组装水平相关联的多个第二基因组数据分组,所述第一组装水平的级别高于所述多个第二组装水平;从所述多个第二基因组数据分组中的至少一个中标识出病原微生物物种的基因组数据,以便基于所标识出的基因组数据以及所述第一基因组数据分组确定经最终筛选的基因组数据;以及对经最终筛选的基因组数据进行去冗余处理,以便得到用于构建微生物基因组数据库的基因组数据。
[0006]根据本公开的第二方面,提供了一种计算设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的第一方面的方法。
[0007]在本公开的第三方面中,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中所述计算机指令用于使计算机执行本公开的第一方面的方法。
[0008]在一些实施例中,对经筛选的基因组数据进行去冗余处理包括:对于任一微生物
物种,如果在经最终筛选的基因组数据中包括与所述微生物物种的两个或更多个基因组相关联的基因组数据,则从所述两个或更多个基因组中确定所述微生物物种的基础基因组;基于所述两个或更多个基因组中除所述基础基因组以外的每一基因组的片段序列,根据预定长度和预定步长将相应基因组打断成多个片段序列,其中每一片段序列的长度等于所述预定长度;将分割得到的每一片段序列与所述基础基因组进行比对,以便确定所述片段序列是否为与所述基础基因组的相似度小于预定阈值的特异性序列;基于为所述微生物物种确定的特异性序列以及所述基础基因组,确定所述微生物物种的完整基因组;以及将与所述完整基因组相关联的基因组数据保存到所述微生物基因组数据库中,作为所述微生物物种的基因组数据。
[0009]在一些实施例中,基于为所述微生物物种确定的特异性序列以及所述基础基因组,确定所述微生物物种的完整基因组包括:将为所述微生物物种确定的所有特异性序列中具有连续性特征的多个特异性序列进行组装,以便得到多个经组装的特异性序列;将所述多个经组装的特异性序列根据长度进行排序,以便将所述多个经组装的特异性序列中排名靠后的一个或多个经组装的特异性序列丢弃,其中被丢弃的多个经组装的特异性序列的长度之和小于或等于所有特异性序列的总长度的预定比例;以任意顺序将剩下的经组装的特异性序列和所述基础基因组整合成所述微生物物种的完整基因组。
[0010]在一些实施例中,以任意顺序将剩余的经组装的特异性序列和所述基础基因组整合成所述微生物物种的完整基因组包括:通过将剩余的经组装的特异性序列全部置于所述基础基因组的最前面或者全部至于所述基础基因组的最后面来得到所述完整基因组。
[0011]在一些实施例中,从所述两个或更多个基因组中确定所述微生物物种的基础基因组包括:确定所述两个或更多个基因组中的每一基因组的组装水平;从所述两个或更多个基因组中标识出组装水平的级别最高的一个或多个基因组;确定所标识的一个或多个基因组的文献支持数量;将所标识的一个或多个基因组中具有最大文献支持数量的基因组确定为所述微生物物种的基础基因组。
[0012]在一些实施例中,所述预定长度大于等于10bp并且小于等于300bp,并且所述预定步长大于等于1bp。
[0013]在一些实施例中,在对经筛选的基因组数据进行去冗余处理之前,还包括从所述经筛选的基因组数据中去除包括与质粒序列相关联的基因组数据。
[0014]在一些实施例中,基于所获取的基因组数据所涉及的多个微生物类别,对所获取的基因组数据进行初步筛选包括:从所获取的基因组数据所涉及的所述多个微生物类别中标识出在物种分类系统中被错误分类的一个或多个微生物类别;以及从所获取的基因组数据中移除与所标识出的一个或多个微生物类别相关联的基因组数据,以便得到所述经初步筛选的基因组数据。
[0015]在一些实施例中,从所述多个第二基因组数据分组中的至少一个中标识出病原微生物物种的基因组数据包括:从所述多个第二基因组数据分组中与级别相对最高的组装水平相关联的一个第二基因组数据分组中标识出病原微生物物种的基因组数据。
[0016]在一些实施例中,具有文献支持的微生物物种指示所述微生物物种在大于或等于阈值数量的文献中具有相应的记录。
[0017]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特
征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0018]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
[0019]图1示出了用于实现根据本专利技术的实施例的用于构建微生物基因组数据库的方法的示例性系统100的示意图。
[0020]图2示出了根据本公开的实施例的用于构建微生物基因组数据库的方法200的流程图。
[0021]图3示出了根据本公开的实施例的用于对所获取的基因组数据进行初步筛选的方法300的流程图。
[0022]图4示出了根据本公开的实施例的用于对经筛选的基因组数据进行去冗余处理的方法400的流程图。
[0023]图5示出了根据本公开的实施例的用于从两个或更多个基因组中确定微生物本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于构建微生物基因组数据库的方法,包括:获取来自多个公共数据库的关于具有文献支持的微生物物种的基因组数据,所述基因组数据包括每一基因组所属的微生物物种的名称、所述微生物物种所属的微生物类别、所述基因组的组装水平、所述基因组的序列数据;基于所获取的基因组数据所涉及的多个微生物类别,对所获取的基因组数据进行初步筛选;基于每一基因组的组装水平,将经初步筛选的基因组数据分组成与第一组装水平相关联的第一基因组数据分组以及分别与多个第二组装水平相关联的多个第二基因组数据分组,所述第一组装水平的级别高于所述多个第二组装水平;从所述多个第二基因组数据分组中的至少一个中标识出病原微生物物种的基因组数据,以便基于所标识出的基因组数据以及所述第一基因组数据分组确定经最终筛选的基因组数据;以及对经最终筛选的基因组数据进行去冗余处理,以便得到用于构建微生物基因组数据库的基因组数据。2.根据权利要求1所述的方法,其中对经筛选的基因组数据进行去冗余处理包括:对于任一微生物物种,如果在经最终筛选的基因组数据中包括与所述微生物物种的两个或更多个基因组相关联的基因组数据,则从所述两个或更多个基因组中确定所述微生物物种的基础基因组;基于所述两个或更多个基因组中除所述基础基因组以外的每一基因组的片段序列,根据预定长度和预定步长将相应基因组打断成多个片段序列,其中每一片段序列的长度等于所述预定长度;将分割得到的每一片段序列与所述基础基因组进行比对,以便确定所述片段序列是否为与所述基础基因组的相似度小于预定阈值的特异性序列;基于为所述微生物物种确定的特异性序列以及所述基础基因组,确定所述微生物物种的完整基因组;以及将与所述完整基因组相关联的基因组数据保存到所述微生物基因组数据库中,作为所述微生物物种的基因组数据。3.根据权利要求2所述的方法,其中基于为所述微生物物种确定的特异性序列以及所述基础基因组,确定所述微生物物种的完整基因组包括:将为所述微生物物种确定的所有特异性序列中具有连续性特征的多个特异性序列进行组装,以便得到多个经组装的特异性序列;将所述多个经组装的特异性序列根据长度进行排序,以便将所述多个经组装的特异性序列中排名靠后的一个或多个经组装的特异性序列丢弃,其中被丢弃的多个经组装的特异性序列的长度之和小于或等于所有特异性序列的总长度的预定比例;以任意顺序将剩下的经组装的特异性序列和所述基础基因组整合成所...

【专利技术属性】
技术研发人员:王晶房柯池
申请(专利权)人:中国科学院心理研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1