一种微生物基因组数据库构建方法及其应用技术

技术编号:28945331 阅读:15 留言:0更新日期:2021-06-18 21:57
本发明专利技术提供了一种微生物基因组数据库构建方法及其应用。本发明专利技术的微生物基因组数据库构建方法使用基因组打断后加标签方式构建数据库,同时对多物种共有序列和特异序列标签化,并构建物种特异序列间比对分值矩阵,实现快速准确的获知序列来源。

【技术实现步骤摘要】
一种微生物基因组数据库构建方法及其应用
本专利技术涉及生物信息学领域,特别是涉及一种微生物基因组数据库构建方法及其在微生物鉴定中的应用。
技术介绍
宏基因组测序(metagenomicsnextgenerationsequencing,mNGS)不依赖于传统的微生物培养,直接对临床样本中的核酸进行高通量测序,能够快速、客观的检测临床样本中的多种病原微生物(包括病毒、细菌、真菌、寄生虫)。随着mNGS技术平台的完善和临床研究的增多,mNGS在临床上的运用也越来越广泛。宏基因组测序分析中两个重要的部分,一部分是微生物基因组数据库的构建,一部分是比对结果的分析筛选,而微生物基因组数据库的构建方式又影响和决定着比对结果筛选的准确度和特异度。微生物基因组数据库即收录了多种微生物基因组,一般都是通过NCBI公共数据库的基因组数据的下载筛选加工完成。在公共数据库中,每个物种可能有多个不同的菌株基因组,一般会选择其中一株作为该物种的代表基因组,但由于微生物菌株间基因组的突变率较高,而宏基因组测序的覆盖率较低,这时会造成假阴性现象。而如果将全部菌株纳入到数据库中,则会使数据库的量变的很大,需要更多的计算和存储资源,且会延长分析时间。此外,相同科下各属内微生物各物种的基因组序列之间,存在很多共有序列。近缘物种间共有序列比例则会更高,在仅有某一物种出现时,由于共有序列的比对,可能会导致判断同时出现另一物种的假阳性现象。因此,构建一种既可以覆盖物种内大部分菌株序列,又可以覆盖物种内或物种间共有序列的数据库是一种优选方案。r>鉴于此,提出本专利技术。
技术实现思路
本专利技术的目的是寻求一种既可以覆盖物种内大部分菌株序列,又可以覆盖物种内或物种间共有序列的数据库及其构建方法。本专利技术同时寻求通过对reads比对结果的分析,获得准确的物种鉴定结果。为实现上述目的,本专利技术提出如下技术方案:本专利技术首先提供了一种微生物基因组数据库构建方法,包括如下步骤:1)数据获取:获取不同微生物物种的基因组数据;2)共有序列集和特异序列集鉴定:将不同物种基因组序列分别打断,得到各物种短片段序列集;将所有物种基因组序列合并,一起进行基因组打断,得到所有物种的短片段序列集;将所有物种短片段序列集与各物种短片段序列集进行序列比较,仅在一个物种短片段序列集中出现的序列为该一个物种的特异序列,出现在大于一个物种序列集的序列为多物种共有序列;3)数据集合并制备数据库:将上述多物种共有序列集和各物种特异序列集分别标签化处理,并汇总得到数据库。在一些实施方式中,步骤1)中还包括质粒序列去除。在一些实施方式中,步骤2)中所述打断是通过切kmer方式打断;在一些实施方式中,所述打断为长度n移步步长为k的打断方式,其中n取值其中n取值为76~1000,k取值为1~n的自然数,优选的n取值为76~300,k取值为1。进一步的,所述方法还包括如下步骤:4)构建比对分值稀疏矩阵:对其中一个物种的特异序列与其它任一物种的特异序列进行两两比对,获得两两物种序列间的比对分值,存储为稀疏矩阵。在一些具体的实施方式中,所述构建比对分值稀疏矩阵的方法为:使用makeblastdb对其中一个物种的特异序列进行建库,使用其它任一物种的特异序列与此数据库进行比对,将两两物种序列编号,以及两物种间的bitscore值存储为稀疏矩阵。由此,构建存储两两物种间的特异序列,以及特异序列间bitscore值的多个稀疏矩阵。本专利技术还提供一种微生物基因组数据库,其特征在于:由上述方法制备。本专利技术还提供一种微生物基因组数据库,所述数据库包含不同物种基因序列,其中所述不同物种基因序列为打断后标签化的物种共有序列和标签化的物种特异序列;所述标签化为数据库中存储序列来源信息的字段或文件;在一些优选的实施方式中,所述打断为长度n移步步长为k的打断方式,更优选的使用jellyfish软件进行打断。在一些优选的实施方式中,所述打断后还包括去冗余步骤。进一步的,所述数据库还包括比对分值稀疏矩阵,所述比对分值稀疏矩阵为存储物种特异序列间比对分值的矩阵或表格。本专利技术还提供一种微生物鉴定方法,包括如下步骤:1)数据比对:将测序下机reads比对至上述微生物基因组数据库,得到初步比对结果;2)比对结果筛选:在各reads的比对结果中,以最大比对分值为基准,将比对分值低于最大比对分值的90-95%的比对结果去除;优选的,将比对分值低于最大比对分值的95%的比对结果去除。3)比对结果统计。进一步的,所述比对结果统计步骤为:每条reads的比对结果有如下几种可能,分别按照如下原则,对reads所属物种进行鉴定,本专利技术还提供一种上述数据库在微生物物种鉴定中的应用本专利技术有益的技术效果:1)本专利技术通过区分物种内以及物种间共有和特异序列,并加标签方式构建数据库,可以预先获得物种的基因组序列间的相似或特异区段,为后续鉴定提供参考信息。2)本专利技术对于比对到两物种的共有序列的reads,按照唯一比对到特异序列的reads的比例进行拆分,相比以往鉴定方法,如每个reads按照1/2拆分给各个物种,出现假阳性的可能性更低。3)对于物种基因组与数据库中序列有差异的物种有较好的兼容性。本专利技术使用物种特异序列间的bitscore值作为特异序列的物种区分指标,如果出现了超出此数据库判断范围的序列,则会进行拆分处理。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为实施例2和3中各方法分析模拟测序数据集得到的大肠杆菌reads条数结果。图2为实施例2和3中各方法分析模拟测序数据集得到的志贺氏菌reads条数结果。具体实施方式下面将结合实施例对本专利技术的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本专利技术,而不应视为限制本专利技术的范围,并且所述实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。部分术语定义除非在下文中另有定义,本专利技术具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本专利技术。如本专利技术中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施本文档来自技高网...

【技术保护点】
1.一种微生物基因组数据库构建方法,其特征在于,包括如下步骤:/n1)数据获取:获取不同微生物物种的基因组数据;/n2)共有序列集和特异序列集鉴定:将不同物种基因组序列分别打断,得到各物种短片段序列集;将所有物种基因组序列合并,一起进行基因组打断,得到所有物种的短片段序列集;将所有物种短片段序列集与各物种短片段序列集进行序列比较,仅在一个物种短片段序列集中出现的序列为该一个物种的特异序列,出现在大于一个物种序列集的序列为多物种共有序列;/n3)数据集合并制备数据库:将上述多物种共有序列集和各物种特异序列集分别标签化处理,并汇总得到数据库。/n

【技术特征摘要】
1.一种微生物基因组数据库构建方法,其特征在于,包括如下步骤:
1)数据获取:获取不同微生物物种的基因组数据;
2)共有序列集和特异序列集鉴定:将不同物种基因组序列分别打断,得到各物种短片段序列集;将所有物种基因组序列合并,一起进行基因组打断,得到所有物种的短片段序列集;将所有物种短片段序列集与各物种短片段序列集进行序列比较,仅在一个物种短片段序列集中出现的序列为该一个物种的特异序列,出现在大于一个物种序列集的序列为多物种共有序列;
3)数据集合并制备数据库:将上述多物种共有序列集和各物种特异序列集分别标签化处理,并汇总得到数据库。


2.权利要求1所述的微生物基因组数据库构建方法,其特征在于,步骤2)中所述打断是通过切kmer方式打断;优选的,所述打断为长度n移步步长为k的打断方式,其中n取值为76~1000,k取值为1~n,优选的n取值为76~300,k取值为1。


3.权利要求1-2任一所述的微生物基因组数据库构建方法,其特征在于,进一步包括:4)构建比对分值稀疏矩阵:对其中一个物种的特异序列与其它任一物种的特异序列进行两两比对,获得两两物种序列间的比对分值,存储为稀疏矩阵。


4.权利要求1-3任一所述的微生物基因组数据库构建方法,其特征在于,步骤1)中还包括质粒序列去除;优选的,步骤2)打断后还包括去冗余步骤。

【专利技术属性】
技术研发人员:陈莉张岩李振中戴岩梁相志郭昊张林李诗濛任用
申请(专利权)人:南京先声医学检验有限公司江苏先声诊断技术有限公司南京先声诊断技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1