宏基因组病原微生物基因组数据库及其构建方法技术

技术编号:34743804 阅读:87 留言:0更新日期:2022-08-31 18:36
本发明专利技术涉及宏基因组技术领域,特别是涉及宏基因组病原微生物基因组数据库及其构建方法,该方法包含数据获取、基因组过滤、基因组分类、基因组去冗余等步骤,即得病原微生物基因组数据库。该数据库的构建方案和目前市场上存在的方案存在较大差异,首先在保证物种的丰富度的前提下,去除污染序列,低重复序列;并且挑选了物种具有代表性的质量高的Assembly序列作为参考基因组,将剩余基因组进行重新分类,剔除了分类错误的序列。然后在参考基因组的基础上对剩余基因组进行去冗余,保留了各个物种的特异性序列。这样即保留了物种基因组的丰富度,又保证了基因组的准确性。又保证了基因组的准确性。又保证了基因组的准确性。

【技术实现步骤摘要】
宏基因组病原微生物基因组数据库及其构建方法


[0001]本专利技术涉及宏基因组
,特别是涉及宏基因组病原微生物基因组数据库及其构建方法。

技术介绍

[0002]病原微生物检测是利用宏基因组(mNGS)检测技术,是一种非培养的检测方法,对临床样本直接进行核酸提取检测,广泛分析其中的微生物组信息;通过高通量测序、生物信息算法与数据库比对,病原宏基因组(mNGS)可以无差别鉴别细菌、真菌、病毒和寄生虫等多种病原,成为了临床一线病原感染检测的必要手段。而病原微生物宏基因组技术的核心之一就是病原微生物的基因组数据库,数据库的质量直接影响着病原宏基因组检测的准确度。
[0003]病原微生物的数据库是由细菌,真菌,病毒,寄生虫等病原体的多个物种的基因组构成的,其中大部分都是从NCBI等公共数据库中进行收集,筛选,加工构建而成。在公共数据库中,每个物种都会存在不同菌株的基因组;如果将这些菌株的基因组全部都添加到病原微生物的数据库中,虽然数据库中的物种的基因组比较全面,不会出现漏检,但是公共数据库的基因组质量良莠不齐,部分菌株存在污染序列,极可能导致检出假阳物种,误导临床医生。而且数据库的容量也会非常大,占用更多的资源,减低分析速度。如果每个物种只挑选一株菌的基因组为代表物种,从而构建病原微生物数据库,那么数据库的资源占据较小,分析速度也会比较快,但是由于菌株之间的差异和变异,测到某些菌株的特异性序列的时候,数据库就会检测不到,从而出现漏检。

技术实现思路

[0004]本专利技术提供一种宏基因组病原微生物基因组数据库的构建方法,提高病原微生物数据库的丰富度,准确性,同时又减小数据库容量,降低分析速度。
[0005]本专利技术提供的宏基因组病原微生物基因组数据库的构建方法,包括如下步骤:1. 数据获取:获取病原微生物的基因组数据。
[0006]2. 按照过滤规则,过滤掉命名模糊,基因组长度小于100bp及低重复的的基因组序列,去除掉人源污染序列。
[0007]3. 从Assembly中挑选每个物种的参考基因组,如果物种在Assembly中有基因组,那么依次挑选Assembly level 为Complete genome, Chromosome,Scaffold, Contig状态的基因组,择优挑选;如果物种在Assembly中没有基因组,择优挑一条核酸序列为代表基因组序列。
[0008]4. 对参考基因组进行质控,如果物种的参考基因组为Scaffold, Contig水平,那么根据过滤原则,过滤掉长度在N50之下的序列,保留优质的基因组序列。
[0009]5.对物种内基因组进行分类,剔除和代表基因组有明显差异且和别的物种相似度较高的序列。
[0010]6.物种的基因组序列去冗余,将每个物种的每条基因组序列和代表基因组进行Blat比对,相似度高的部分当成低重复区域进行mask;然后将mask好的基因组和参考基因组组成新的参考基因组对下一条基因组进行同样的操作。
[0011]作为优选,步骤6中,mask序列要保证大于100bp,且无论相似序列多长均用100个N进行mask;且保留的特异序列的长度保证大于100bp,否则左右延申至100bp。
[0012]作为优选,步骤6中,相似度高的部分是指相似度高达99%的部分。
[0013]作为优选,所述病原微生物基因组数据来源于PATRIC数据库和/或NCBI的RefSeq和Genbank数据库的基因组数据。上述数据库中的病原微生物基因组数据具有较高的数据质量,上述数据既包括基因组序列,也包括描述该序列的说明性文件。
[0014]在本专利技术中,所述目标微生物可以是任一微生物,包括但不限于细菌、真菌、病毒,均适用于本专利技术的方法。在本专利技术的一些具体实施方案中,所述目标微生物为细菌,在本专利技术的一些更具体实施方案中,所述目标微生物为可用于食品的细菌。
[0015]上述数据库的建立方法,通过下载微生物基因组,去除人源污染序列,去除命名模糊,分类错误的基因组,过滤低质量或者污染片段,种间通过去冗余的方法去除冗余序列后得到病原微生物基因组数据库。
[0016]本专利技术还提供宏基因组病原微生物基因组数据库,采用上述的构建方法构建所得。上述病原微生物基因组数据库,既整合了物种可靠性最高的参考基因组,以及物种的其它特异序列,又合理的减小了基因组的大小,减少了数据库占用的资源,分析速度也会大幅度提高。
[0017]本专利技术涉及宏基因组病原微生物基因组数据库的构建方法,获得的基因组数据库既占用较少的资源,又尽可能的包含了物种比较全的准确基因组信息。能够大大降低分析成本和时间。该数据库的构建方案和目前市场上存在的方案存在较大差异,首先在保证物种的丰富度的前提下,去除污染序列,低重复序列;并且挑选了物种具有代表性的质量高的Assembly序列作为参考基因组,将剩余基因组进行重新分类,剔除了分类错误的序列。然后在参考基因组的基础上对剩余基因组进行去冗余,保留了各个物种的特异性序列。这样即保留了物种基因组的丰富度,又保证了基因组的准确性。
附图说明
[0018]图1为实施例中10株模拟测序集数据比对到三种方法构建的数据库的准确率箱型图;图2为实施例中10株模拟测序集数据比对到三种方法构建的数据库分析时间箱体图。
具体实施方式
[0019]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。提供这些实施例的目的是使对本专利技术的理解更加透彻全面。
[0020]除非另有定义,本文所使用的所有的技术和科学术语都属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本专利技术。
[0021]实施例1一种病原微生物基因组数据库,通过以下方式构建:一、数据获取从NCBI下载链球菌属基因组数据库,具体如下:NCBI(National Center For Biotechnology Information),美国国家生物技术信息中心,分子生物学,生物化学及遗传学领域常用数据库。从https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/ 中下载NT的基因组。然后从NT的基因组中挑选出来所有链球菌属的序列。
[0022]然后从https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/ 中的assembly_summary_refseq.txt 中挑选链球菌属的各个种的参考基因组。链球菌属一共有131个种。
[0023]二、菌株的基因组筛选根据assembly_summary_refseq.txt文件,每个物种择优选取assembly_level为Complete genome, Chromosome的基因组,如果没有,则挑选assembly_level 为 Scaffold, Contig 的基因组。
[0024]三、去除NT数据库中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.宏基因组病原微生物基因组数据库的构建方法,其特征在于,包括如下步骤:S

1. 数据获取:获取病原微生物的基因组数据;S

2. 过滤;S

3. 从Assembly中挑选每个物种的参考基因组;S

4. 对参考基因组进行质控,如果物种的参考基因组为Scaffold, Contig水平,那么根据过滤原则,过滤掉长度在N50之下的序列,保留优质的基因组序列;S

5.对物种内基因组进行分类,剔除和代表基因组有明显差异且和别的物种相似度较高的序列;S

6.物种的基因组序列去冗余,将每个物种的每条基因组序列和代表基因组进行Blat比对,相似度高的部分当成低重复区域进行mask;然后将mask好的基因组和参考基因组组成新的参考基因组对下一条基因组进行同样的操作,最终汇总,获得病原微生物基因组数据库。2.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法,其特征在于,步骤S

6中,mask序列要保证大于100bp,且无论相似序列多长均用100个N进行mask;且保留的特异序列的长度保证大于100bp,...

【专利技术属性】
技术研发人员:丁文超刘紫丹周逸文王江浩王珺
申请(专利权)人:杭州杰毅医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1