一种微生物群测序分析方法技术

技术编号:38660473 阅读:7 留言:0更新日期:2023-09-02 22:44
本发明专利技术公开了一种微生物群测序分析方法。本发明专利技术公开的微生物群测序分析方法是采用宏基因组共标记测序(metagenomics co

【技术实现步骤摘要】
一种微生物群测序分析方法


[0001]本专利技术属于临床微生物菌群基因组测序分析领域,涉及一种微生物群测序分析方法。

技术介绍

[0002]宏基因组测序(Metagenomics Sequencing)是指对微生物群体进行高通量测序,分析特定环境中微生物群体基因组成及功能、微生物群体的多样性与丰度,进而分析微生物与环境、微生物与宿主之间的关系,发现具有特定功能的基因。
[0003]现有的用于微生物菌群的测序分析技术主要有以下几种:
[0004](1)基于16S rDNA的基因组测序分析技术。基于16S基因分析的微生物菌群基因组测序分析技术指:16S rDNA基因存在于所有细菌的基因组中,具有高度的保守性。该序列包含9个高变区和10个保守区,通过对某一段高变区序列(V4区或V3

V4区)进行PCR扩增后进行测序,得到1500bp左右的序列。通过与现有数据库中细菌序列进行比对,来确定菌群中微生物构成信息。
[0005]但该技术用于微生物菌群分析的不足之处在于由于分析的片段短小,导致物种分析精确度不高,仅可分析至种的水平,很多测序数据可能无法注释至种的水平,更无法区分不同株型。同时因为不是全基因组测序,导致无法获得其他的相关重要基因信息(如耐药相关基因信息),也无法获得菌群内物种间相互作用的网络信息。
[0006](2)二代高通量宏基因组测序技术。二代高通量宏基因组测序技术指:通过将待检测的物种DNA进行片段准备、扩增、拼接、比对分析几个步骤,最终对样本中的物种实现全基因组测序分析。
[0007]但是二代高通量测序技术用于微生物菌群测序分析的不足之处在于:1)测序的精度与样本中微生物的丰度高度相关,如果某种微生物丰度低于检测限时将无法检测到该物种;2)测序分析需要高质量基因组,临床样本中死亡菌群的破碎核酸片段可影响物种分析的精度;3)临床样本中存在的大量宿主核酸容易对测序分析造成干扰;4)二代测序由于读长较短,导致测序分析中的序列群“拼接”困难,导致测序分析错误率较高。如果测序物种为没有大量参考数据库的物种,会导致菌株无法分析到不同株型。
[0008](3)三代单分子测序技术。三代单分子测序技术主要包括:1)单分子荧光测序,通过荧光标记脱氧核苷酸,对待测基因组进行序列分析;2)纳米孔测序法,采用电泳技术,借助电泳驱动单个核酸聚合物分子逐一通过纳米孔,通过分析不同碱基的电信号差异实现测序。
[0009]但该技术在实际应用中的缺陷为:1)单次测序分析价格高昂;2)测序分析时对所需要的核酸质量与重量要求高,临床样本直接提取核酸往往不能满足测序要求;3)宿主核酸污染对测序会造成较大干扰。
Barcode10;Barcode 42。
[0024]在一些实施方案中,上述任一所述的方法的步骤(4)中,所述分析包括数据预处理、基于共编码标签进行序列组装、序列分箱为拼接基因组的步骤。
[0025]在一些实施方案中,上述方法的所述数据预处理包括:过滤去除低质量的读段,在过滤后的读段中去除人类宿主序列,然后去除标记为无效标签的序列,并将序列根据标签进行排序,得到处理后的读段;
[0026]所述低质量的碱基阈值为10;
[0027]所述去除人类宿主序列可以包括将过滤后的读段用Bowtie2(2.2.5版,参数选择
‑‑
very

sensitive)通过与hg38数据库比较去除人类宿主序列的步骤;
[0028]所述无效标签是指该标签序列不存在于读段标签列表,例如https://github.com/BGI

Qingdao/stLFR_barcode_split给出的读段标签列表。
[0029]在一些实施方案中,上述方法的所述基于共编码标签进行序列组装包括:用IDBA

UD(1.1.3版)进行初步组装后,用BWA 软件(0.7.15版)将短序列与组装后的序列进行对齐比对;然后通过Samtools软件(1.9版)根据序列标签进行比对文件的排序,联合处理后读段,输入Athena(1.2版)软件,使用默认参数,联合序列的标签信息,修正拼接组装结果,得到长片段组装结果(重叠群或序列群),过滤去除小于1000bp的序列。其中,组装(Assemble)是指根据短序列使用图算法从头组装长片段,不依赖于参考基因组。重叠群(Contig)是指拼接软件基于序列读长之间的重叠区,拼接获得的序列称为重叠群。
[0030]在一些实施方案中,上述方法的所述序列分箱为拼接基因组包括:长片段组装结果使用BWA 软件(0.7.15版)再次比对,根据组装结果的四核苷酸比例和测序深度的一致性,使用MetaBAT2(2.12.1版本)进行分箱,形成基因组草图;用CheckM(版本1.2.0)评估基因组草图的完整性和污染程度,将高质量或中等质量基因组(HMG)定义为完整性为>50%,污染<5%的基因组。宏基因组分箱(Binning)是指将宏基因组测序得到的混合了不同生物的序列或序列组装得到的contigs按物种分开归类的过程。
[0031]在一些实施方案中,上述任一所述的方法的步骤(4)中,还包括物种分类注释步骤,以及任选的构建进化树的步骤;
[0032]优选地,所述物种分类注释包括:将HMG在GTDB

tk(版本1.7.0)中进行物种分类注释,用于基因组分类数据库(r202)的分类学鉴定;
[0033]优选地,所述构建进化树包括:使用HMMER程序检测是否存在120个细菌的单拷贝标记基因(bac120),并从中推断系统发育分析,然后用FastTree(版本2.1.10)推断bac120参考树;通过使用pplacer进行“分类”步骤,找到GTDB

Tk参考树中每个基因组的最大似然位置。
[0034]在一些实施方案中,上述任一所述的方法的步骤(4)中,还包括草图基因组的功能注释步骤;
[0035]优选地,所述草图基因组的功能注释包括:得到HMG后,使用Prokka进行编码基因预测和rRNA、tRNA注释,以及任选的联合直系同源蛋白分组比对(eggNOG)数据库进行包括同源基因簇(COG)、基因本体功能注释(GO)、通路注释(KEGG)、功能模块注释(BiGG)和碳水化合物酶(CAZy)基因功能的注释。
[0036]在一些实施方案中,上述任一所述的方法的步骤(4)中,还包括物种识别步骤;
[0037]优选地,所述物种识别包括基于序列群的物种识别和/或基于读长的物种识别;
[0038]优选地,所述基于序列群的物种识别包括:将NT数据库(ftp://ftp.ncbi.nlm.nih.gov/blast/db)中所有的微生物序列(包括所有细菌、真菌、古细菌、病毒)提取出来构建参比序列数据库,然后使用Blast+(2.12.0版,参数:

subject_besthit...

【技术保护点】

【技术特征摘要】
1.一种微生物群测序分析方法,是采用宏基因组共标记测序(metagenomics co

barcoding sequencing,MECOS)对微生物进行宏基因组测序分析,包括如下步骤:(1)提取待测样本的基因组DNA,DNA浓度≥1ng/μL,片段长度≥10kb;(2)将待测样本的基因组DNA构建MECOS文库,该文库中同一来源的片段具有同一编码标签,DNA浓度≥2.6ng/μL,片段长度为200

2000bp;(3)使用联合探针锚定聚合技术(cPAS)和改进的DNA纳米球(DNB)核心测序技术进行测序;(4)对测序数据进行分析。2.根据权利要求1所述的方法,其特征在于:步骤(1)中,提取待测样本的基因组DNA包括在待测样本中加入溶菌酶,再按照长片段核酸提取方法提取待测样本基因组DNA的步骤。3.根据权利要求1或2所述的方法,其特征在于:步骤(2)中,使用stLFR技术构建MECOS文库。4.根据权利要求1

3任一项所述的方法,其特征在于:步骤(3)中,采用MGI 2000测序仪测序,程序使用自定义模式,参数设定为:一链读长100;二链读长100;DualBarcode10;Barcode 42。5.根据权利要求1

4任一项所述的方法,其特征在于:步骤(4)中,所述分析包括数据预处理、基于共编码标签进行序列组装、序列分箱为拼接基因组的步骤。6.根据权利要求5所述的方法,其特征在于:所述数据预处理包括:过滤去除低质量的读段,在过滤后的读段中去除人类宿主序列,然后去除标记为无效标签的序列,并将序列根据标签进行排序,得到处理后的读段;和/或所述基于共编码标签进行序列组装包括:用IDBA

UD进行初步组装后,用BWA 软件将短序列与组装后的序列进行对齐比对;然后通过Samtools软件根据序列标签进行比对文件的排序,联合处理后读段,输入Athena软件,使用默认参数,联合序列的标签信息,修正拼接组装结果,得到长片段组装结果,过滤去除小于1000bp的序列;和/或所述序列分箱为拼接基因组包括:长片段组装结果使用BWA软件再次比对,根据组装结果的四核苷酸比例和测序深度的一致性,使用MetaBAT2进行分箱,形成基因组草图。7.根据权利要求1

6任一项所述的方法,其特征在于:步骤(4)中,还包括物种分类注释步骤,以及任选的构建进化树的步骤;优选地,所述物种分类注释包括:将高质量或中等质量基因组HMG在GTDB

tk中进行物种分类注释,用于基因组分类数据库(r202)的分类学鉴定;优选地,所述构建进化树包括:使用HMMER程序检测是否存在120个细菌的单拷贝标记基因(bac120),并从中推断系统发育分析,然后用FastTree推断bac120参考树;通过使用pplacer进行“分类”步骤,找到对比于GTDB

Tk参考树中基因组的最大似然位置。8.根据权利要求1

7任一项所述的方法,其特征在于:步骤(4)中,还包括草图基因组的功能注释步骤;优选地,所述草图基因组的功能注...

【专利技术属性】
技术研发人员:陈晨李佳瑞韩凯曾辉杨朵
申请(专利权)人:首都医科大学附属北京世纪坛医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1