一种构建病原生物基因组数据库的方法及装置制造方法及图纸

技术编号:35591628 阅读:11 留言:0更新日期:2022-11-16 15:09
一种构建病原生物基因组数据库的方法及装置,该方法包括:获取基因组数据步骤,包括从数据库获取选定的病原生物的基因组数据;同源区域屏蔽步骤,包括对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;融合基因组构建步骤,包括对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;组库步骤,包括重复所述获取基因组数据步骤、同源区域屏蔽步骤、融合基因组构建步骤,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。该方法构建的数据库具有准确度高,分析时间短的优点。分析时间短的优点。分析时间短的优点。

【技术实现步骤摘要】
一种构建病原生物基因组数据库的方法及装置


[0001]本专利技术涉及生物信息学领域,具体涉及一种构建病原生物基因组数据库的方法及装置。

技术介绍

[0002]mNGS是一种可以应用于临床检测病原微生物的一项新技术,在不需要先验知识的情况下可以很好地检测罕见的、新的和共感染的病原体,并且在耐药性预测方面具有优势,从而为危重病或免疫缺陷患者的难诊断感染提供了新的诊断线索。而mNGS的微生物数据库是其技术核心之一,数据库直接影响了mNGS检测的物种数和准确度。
[0003]构建病原生物数据库中的数据大部分来自公共数据库,而公共数据库中每个物种都可能有多个组装版本或者菌株,并且公共数据库中对于细菌、病毒等类型的物种,增加新的组装版本和新菌株的速度非常快,以肺炎克雷伯菌为例,仅2021年就增加了4732个肺炎克雷伯菌的基因组,占总数的16.5%。所以如何构建一个全面、时效性高的病原生物数据库是一个很大的难题。

技术实现思路

[0004]根据第一方面,一种实施例中提供一种构建病原生物基因组数据库的方法,包括:
[0005]获取基因组数据步骤,包括从数据库获取选定的病原生物的基因组数据;
[0006]同源区域屏蔽步骤,包括对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;
[0007]融合基因组构建步骤,包括对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;
[0008]组库步骤,包括重复所述获取基因组数据步骤、同源区域屏蔽步骤、融合基因组构建步骤,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。
[0009]根据第二方面,在一实施例中,提供第一方面任意一项的方法构建得到的数据库。
[0010]根据第三方面,在一实施例中,提供一种构建病原生物基因组数据库的装置,包括:
[0011]获取基因组数据模块,用于从数据库获取选定的病原生物的基因组数据;
[0012]同源区域屏蔽模块,用于对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;
[0013]融合基因组构建模块,用于对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;
[0014]组库模块,用于重复所述获取基因组数据模块、同源区域屏蔽模块、融合基因组构建模块的方法,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。
[0015]根据第四方面,在一实施例中,提供一种构建生物基因组数据库的装置,包括:
[0016]存储器,用于存储程序;
[0017]处理器,用于通过执行所述存储器存储的程序以实现如第一方面任意一项的方法。
[0018]根据第五方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面任意一项的方法。
[0019]依据上述实施例的一种构建病原生物基因组数据库的方法及装置,该方法构建的数据库具有准确度高,分析时间短的优点。
附图说明
[0020]图1为5个高质量基因组库挑选基因组的模拟测试数据的比对率结果图;
[0021]图2为5个不在高质量基因组库的基因组的模拟测试数据的比对率结果图;
[0022]图3为一种实施例的分析时间结果图。
具体实施方式
[0023]下面通过具体实施方式结合附图对本专利技术作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
[0024]另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
[0025]本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
[0026]本文中,“mNGS”(metagenomics next generation sequencing)是指对样本(主要是临床样本)中的核酸进行高通量测序,检测样本中至少一种病原生物(例如病原微生物)的方法。可用于危急重症、疑难感染等疾病的诊断。
[0027]本文中,“病原生物”是指可造成人或动植物感染疾病的微生物(包括细菌、病毒、立克次氏体、真菌)、寄生虫或其他媒介(例如微生物重组体,包括杂交体或突变体)。
[0028]本文中,“病原微生物”是指可以侵犯人体,引起感染甚至传染病的微生物,或称病原体。病原体中,以细菌和病毒的危害性最大。病原微生物包括但不限于朊毒体、真菌、细菌、螺旋体、支原体、立克次体、衣原体、病毒。
[0029]本文中,“细菌”(英文:germs;学名:bacteria)是生物的主要类群之一,属于细菌域。广义的细菌即为原核生物,是指一大类细胞核无核膜包裹,只存在拟核区(nuclear region)或拟核的裸露DNA的原始单细胞生物,包括真细菌(eubacteria)和古生菌
(archaea)两大类群。其中除少数属古生菌外,多数的原核生物都是真细菌。本文的细菌包括古生菌、真细菌。
[0030]本文中,“病毒”(Biological virus)是一种个体微小,结构简单,只含一种核酸(DNA或RNA),必须在活细胞内寄生并以复制方式增殖的非细胞型生物。
[0031]本文中,“寄生虫”(parasite)指具有致病性的低等真核生物,可作为病原体,也可作为媒介传播疾病。寄生虫包括在宿主或寄主(host)体内或附着于体外以获取维持其生存、发育或者繁殖所需的营养或者庇护的一切生物。许多小动物以寄生的方式生存,依附在比它们更大的动物身上。
[0032]对于病原微生物,目前大多数宏基因组的数据库构建流程仅挑选一个微生物代表的基因组,或者把一个物种高质量菌株全部纳入到数据库中,或者通过将选定的物种基因组打断重新组装的方法纳入到数据库中,前述三种方法各有优缺点。
[0033]只选取一株代表的基因组优点是数据库小和分析时间快,但是由于微生物等病原生物基因组进化较快,部分进化较快的物种基因组差异可达3%以上,并且根据临床实际应用的情况,大部分病原微生物等病原生物检出的序列数在几十或者是几百之间,如果仅选取一个代表基因组的方法常常会出现漏检的情况。
[0034]而将一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建病原生物基因组数据库的方法,其特征在于,包括:获取基因组数据步骤,包括从数据库获取选定的病原生物的基因组数据;同源区域屏蔽步骤,包括对基因组数据进行质粒同源区域屏蔽、宿主源同源区域屏蔽,获得屏蔽同源区域后的基因组数据;融合基因组构建步骤,包括对屏蔽同源区域序列后的基因组数据中的各个基因组构建融合基因组;组库步骤,包括重复所述获取基因组数据步骤、同源区域屏蔽步骤、融合基因组构建步骤,遍历所选定的所有病原生物的基因组数据,汇总所有融合基因组,得到病原生物基因组数据库。2.如权利要求1所述的方法,其特征在于,所述质粒同源区域屏蔽步骤中,包括将基因组数据中含有“Plasmid”或“plasmid”关键词的序列去掉,获得除去质粒后的基因组序列;将所述除去质粒的基因组序列打断,获得序列集,将所述序列集中每条序列与质粒数据库比较,如果100%匹配,则将该序列在融合基因组上的相应位置的碱基用N进行替换,获得屏蔽质粒同源区域后的基因组数据;或,质粒同源区域屏蔽步骤中,打断后获得的序列集中,序列长度为31~50bp;或,质粒同源区域屏蔽步骤中,打断后获得的序列集中,序列的移步步长≤10bp;或,所述宿主源同源区域屏蔽步骤中,包括将基因组打断,获得打断的序列集,将所述序列集中每条序列与宿主参考基因组比较,如果100%匹配,则将该序列在基因组上的相应位置的碱基用N进行替换,获得屏蔽宿主源同源区域后的序列集;或,所述宿主源同源区域屏蔽步骤中,所述打断的序列集中,序列长度为31~50bp;或,所述宿主源同源区域屏蔽步骤中,所述打断的序列集中,序列的移步步长≤10bp,优选为1bp。3.如权利要求1所述的方法,其特征在于,融合基因组构建步骤中,从屏蔽同源区域后的基因组数据中选取一基因组作为代表基因组,对屏蔽同源区域序列后的基因组数据中的其他基因组依次进行如下步骤:1)基因组打断;2)序列集比对;3)过滤同源区域;4)获取特异区域序列;5)构建融合基因组,将得到的融合基因组作为代表基因组,重复进行前述步骤1)至5),直至遍历屏蔽同源区域后的基因组数据中的所有基因组。4.如权利要求3所述的方法,其特征在于,所述步骤1)中,将基因组打断成长度为第一预设长度且不重叠的序列集,并在序列ID上记录序列集里每条序列在基因组上的起始位置与结束位置;或,所述第一预设长度包括500bp;或,所述步骤2)中,对序列集与代表基因组进行比对,得到序列集中每条序列与代表基因组的比对结果,并根据位置信息,将比对结果的位置修改成原基因组的位置;或,所述步骤3)中,将相似性≥第一预设值,且比对长度大于第二预设值的比对结果区域对应的序列碱基用碱基N替代,得到新基因组序列,所述新基因组序列与代表基因组同源的区域都用N表示;或,所述步骤3)中,第一预设值为97%;或,所述步骤3)中,第二预设值为50bp。5.如权利要求4所述的方法,其特征在于,所述步骤4)中,将所述步骤3)获得的新基因
组...

【专利技术属性】
技术研发人员:黄毅杨振宇刘久成黄靖传易鑫杨玲
申请(专利权)人:深圳吉因加医学检验实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1