微生物操作分类单元确定和序列辅助分离的方法和系统技术方案

技术编号:13913489 阅读:52 留言:0更新日期:2016-10-27 09:39
基于样品中微生物的系统发生信息基因的DNA序列定义样品中的微生物操作分类单元(OTU)的方法,其通过处理原始序列读出以获得合格序列片段,根据其各自的相对丰度值对其进行排序,并且仅使用具有高丰度值的合格序列获得暂定OTU来进行。重新划归具有低丰度的合格序列,并且只有当所述合格序列与OTU序列具有至少97%的序列相似性时才将所述合格序列分别分配到合适的暂定OTU。本发明专利技术还提供了序列辅助的微生物分离方法。

【技术实现步骤摘要】

技术介绍
基于序列相似性或同源性将扩增的DNA序列(例如,16S rRNA扩增子序列)分配到操作分类单元(operational taxonomic unit,OTU)中是微生物群落研究中的基础方案。OTU划分(OTU delineation)对于揭示微生物群落的结构和鉴定关键物种是关键性的1,2,其可以在下游分析中指导对重要功能细菌的分离和表征3,4。OTU划分方法当作为软件包执行时被称为“流程(pipeline)”。三种常用的流程是QIIME9、MOTHUR8和USEARCH7。它们在用经454Illumina测序生成的相同短标签测序数据估计OTU数目方面显示出不同的结果。Chen等示出,10种已评估的OTU划分方法(Mothur、Muscle+Mothur、ESPRIT、ESPRIT-Tree、SLP、Uclust、CD-HIT、DNAClust、GramCluster和CROP)通常过高估计了包括43个物种的模拟数据中OTU的数目(1708.5±1386.9)。不同方法也显示出宽范围的不同:ESPRIT给出了的最大估计OTU数目(4397),是期望的102.3倍高;而CROP产生最小的估计OTU数目(133),仍然是真实数目的3.1倍5。Bonder等在OTU划分方法(Qiime Blast、CD-HIT、ESPRIT-Tree、Mothur furthest、Mothur average、Uclust、Uclust ref和Uclust ref optimal)之前对序列进行了去噪和嵌合体检查,但是最低的OTU数目(25,通过CD-HIT、ESPRIT-Tree和Uclust获得)仍然比具有15个物种的模拟数据中所期望的高出66.6%6。Edgar等提出,UPARSE可得到与具有22个物种的模拟数据中的真实计数非常接近的OTU,而其他方法(AmpliconNoise、Mothur和Qiime)将具有1.1±0.8、2.1±1.7和103.0±36.1倍高的OTU7。但是Uparse仍然多出1个OTU,该OTU与模拟参照的同一性<97%。来自相同短标签测序数据的OTU数目的过高估计也存在于Illumina测序中。当通过模拟样品的三个子区域扩增子测序进行评估时,MOTHUR产生了20个物种之期望值的2.0±0.1、2.5±0.1和10.1±3.4倍8。通过对具有22个物种的模拟数据的正向末端读出进行OTU划分,QIIME得到高8.4倍的OTU(206与22),而USEARCH给出2个假OTU(与模拟参 照的同一性<97%)。此外,当通过Usearch分析经合并的双末端读出时,出现了4.3±1.3个假OTU7。因此,所有的三种常用流程QIIME9、MOTHUR8和USEARCH7都过高估计了OTU的数目。OTU过高估计产生了许多假OTU,这使微生物群落的组成分布进一步扭曲。在后续实验中阻碍了重要功能细菌的分离和鉴定。因此,找出这些流程为何产生高数目的假OTU并开发解决该问题的解决方案很重要。
技术实现思路
本申请公开了使虚假(pseudo)OTU减到最少的改进方法。在该研究中,构建了具有22种不同16S rRNA基因克隆的7组模拟群落,每个群落的克隆成员浓度不同。在Illumina Miseq平台上对这些群落的16S rRNA基因V3V4高变区10的扩增子进行三次独立批次的测序,进行批次内重复和批次间重复。先前的研究揭示了原始读出的错误类型11,12,而我们集中于经过质量过滤(quality filtration)的“合格序列”,这是OTU划分准确度的直接原因。然后应用并评估这三种常用的流程:QIIME9、MOTHUR8和USEARCH7。追踪每个OTU的详细来源以推断这些流程为何不同程度地过高估计OTU的数目,并且设计了改进方法以使这些虚假OTU减到最少。另外,利用具有不同目标区域(V4或V3V4)和测序长度(150bp、200bp、250bp或300bp)的四个实际数据集,通过测量OTU数目以及alpha和beta多样性的改善证实了该改进方法。在一个实施方案中,本专利技术提供了定义样品中的微生物操作分类单元(OTU)的方法,所述方法包括:获得样品,所述样品包含各自含有系统发生信息基因的微生物;使用基于PCR的高通量测序技术获得样品中微生物的系统发生信息基因的原始序列读出;处理原始序列读出以获得合格序列片段;通过处理器获得每条合格序列的相对丰度值,其中所有合格序列的总相对丰度为100%;通过处理器根据合格序列各自的相对丰度值对所有合格序列从高到低进行排序,并将合格序列分成高丰度组和低丰度组,其中所述高丰度组由丰度值高于低丰度组中合格序列的丰度值并且总体占总丰度约75%的合格序列组成,所述低丰度组由占总丰度约25%的剩余的合格序列组成;通过处理器仅使用高丰度组中的合格序列划分样品中的OTU从而获得暂定(Tentative)OTU;以及通过处理器重新划归(re-map)低丰度组中的合格序列到暂定OTU,并且只有当合格序列与OTU序列具有至少97%的序列相似性时才将所述合格序列分别分配到合 适的暂定OTU,以实现对OTU的最终定义。在一个实施方案中,系统发生信息基因选自16s rRNA基因或18s rRNA基因。在一个实施方案中,系统发生信息基因是16s rRNA基因的一个或更多个可变区,例如其V3、V3-V4、V4、V5-V6、V9高变区。在一个实施方案中,通过过滤(filtering)、质量修剪(quality-trimming)、去重复(de-replicating)和去除PCR引物来获得原始序列读出,从而获得合格序列。在一个实施方案中,通过流程对OTU进行划分,所述流程选自VAMPS、USEARCH(例如v4、v5、v6、v7和v8,如v8.1.1861)、QIIME(例如v1.0、v1.1、v1.8和v1.9,如v1.9.1)和MOTHUR(例如v1.0、v1.1、v1.8和v1.9,如v1.29.0)。可使用例如IlluminaTM测序仪通过Illumina测序法来测定DNA序列,并且从样品中分离总核酸,然后测序。本专利技术还提供了用于从环境样品中分离微生物的方法,其中所述微生物包含系统发生信息基因,所述方法包括:如上所述确定环境样品中的OTU;选择具有其唯一系统发生信息基因序列的OTU作为待分离微生物;培养样品中的微生物;测定每种经培养微生物的系统发生信息基因的DNA序列;以及分离其系统发生信息基因的序列与待分离微生物的系统发生信息基因序列同源的微生物。优选地,使用常规的微生物学、生理学或生物化学参数验证所分离的微生物。通常,其系统发生信息基因的序列与待分离微生物的系统发生信息基因序列具有99%或甚至95%或甚至更小同一性的分离物是满意的且被分离出来。附图说明图1示出了通过四种方法获得的“合格序列”根据其与最接近模拟参照的同一性水平的分布。在质量过滤后修剪对应于PCR引物的序列区域。S+BH+P:与错误校正(BayesHammer)组合的质量修剪(Sickle),然后进行读出重叠(PANDAseq)。图2示出了“合格序列”的错误类型分布。根据单因素ANOVA检验,标在上方的字母本文档来自技高网
...

【技术保护点】
定义样品中的微生物操作分类单元(OTU)的方法,所述方法包括:1)获得样品,所述样品包含各自含有系统发生信息基因的微生物;2)使用基于PCR的高通量测序技术获得所述样品中所述微生物的所述系统发生信息基因的原始序列读出;3)处理所述原始序列读出以获得合格序列片段;4)获得每条所述合格序列的相对丰度值,其中所有合格序列的总相对丰度为100%;5)根据所述合格序列各自的相对丰度值对所有合格序列从高到低进行排序,并将所述合格序列分成高丰度组和低丰度组,其中所述高丰度组由丰度值高于所述低丰度组中合格序列的丰度值并且总体占总丰度约70%至80%的合格序列组成;所述低丰度组由占总丰度约20%至30%的剩余的合格序列组成;6)仅使用所述高丰度组中的合格序列划分所述样品中的OTU从而获得暂定OTU;以及7)重新划归所述低丰度组中的合格序列至所述暂定OTU,并且只有当所述合格序列与OTU序列具有至少90%的序列相似性时才将所述合格序列分别分配到合适的暂定OTU,从而实现对OTU的最终定义。

【技术特征摘要】
1.定义样品中的微生物操作分类单元(OTU)的方法,所述方法包括:1)获得样品,所述样品包含各自含有系统发生信息基因的微生物;2)使用基于PCR的高通量测序技术获得所述样品中所述微生物的所述系统发生信息基因的原始序列读出;3)处理所述原始序列读出以获得合格序列片段;4)获得每条所述合格序列的相对丰度值,其中所有合格序列的总相对丰度为100%;5)根据所述合格序列各自的相对丰度值对所有合格序列从高到低进行排序,并将所述合格序列分成高丰度组和低丰度组,其中所述高丰度组由丰度值高于所述低丰度组中合格序列的丰度值并且总体占总丰度约70%至80%的合格序列组成;所述低丰度组由占总丰度约20%至30%的剩余的合格序列组成;6)仅使用所述高丰度组中的合格序列划分所述样品中的OTU从而获得暂定OTU;以及7)重新划归所述低丰度组中的合格序列至所述暂定OTU,并且只有当所述合格序列与OTU序列具有至少90%的序列相似性时才将所述合格序列分别分配到合适的暂定OTU,从而实现对OTU的最终定义。2.根据权利要求1所述的方法,其中所述系统发生信息基因选自16s rRNA基因或18s rRNA基因。3.根据权利要求2所述的方法,其中所述系统发生信息基因是16s rRNA基因。4.根据权利要求3所述的方法,其中所述系统发生信息基因是16s rRNA基因的一个或更多个可变区。5.根据权利要求4所述的方法,其中16s rRNA基因的所述一个或更多个可变区选自V3、V3-V4、V4、V5-V6、V9高变区。6.根据权利要求1所述的方法,其中通过过滤、质量修剪、去重复和去除PCR引物来获得所述原始序列读出,从而获得合格序列。7.根据权利要求1所述的方法,其中通过公开的流程进行OTU划分,所述公开的流程选自USEARCH、QIIME和MOTHUR。8.根据权利要求1所述的方法,其中使用IlluminaTM测序仪通过Illumina测序法测定DNA序列。9.根据权利要求1所述的方法,其中从所述样品中分离总核酸,然后测序。10.根据权利要求1所述的方法,其中步骤4)、5)、6)和/或7)通过处理器进行。11.根据权利要求1所述的方法,其中在步骤5)中,所述高丰度组由丰度值高于所述低丰度组中合格序列的丰度值并且总体占总丰度约71%至79%、72%至78%、73%至77%、74至76%、74.5%至75.5%、74.6%至75.4%、74.7%至75.3%、74.8%至75.2%、74.9%至75.1%的合格序列组成;所述低丰度组由占总丰度约21%至29%、22%至28%、23%至27%、24至26%、24.5%至25.5%、24.6%至25.5%、24.7%至25.3%、24.8%至25.2%、24.9%至25.1%的剩余的合格序列组成。12.根据权利要求1所述的方法,其中在步骤5)中,所述高丰度组由丰度值高于所述低丰度组中合格序列的丰度值并且总体占总丰度约75%的合格序列组成;所述低丰度组由占总丰度约25%的剩余的合格序列组成。13.根据权利要求1所述的方法,其中在步骤7)中,只有当所述合格序列与OTU序列具有至少91%、92%、93%、94%、95%、96%、97%、98%或99%的序列相似性时才将所述合格序列分配到合适的暂定OTU。14.用于从环境样品中分离微生物的方法,其中所述微生物包含系统发生信息基因,所述方法包括:根据权利要求1确定所述环境样品中的OTU;选择具有其唯一系统发生信息基因序列的OTU作为待分离微生物;培养所述样品中的微生物;测定每种经培养微生物的系统发生信息基因的DNA序列;以及分离其系统发生信息基因的序列与所述待分离微生物的系统发生信息基因序列同源的微生物。15.根据权利要求14所述的方法,其中所述微生物是细菌。16.根据权利要求14所述的方法,其中分离其系统发生信息基因的序列与所述待分离微生物的系统发生信息基因序列具有至少95%同一性的微生物。17.根据权利要求16所述的方法,其中分离其系统发生信息基因的序列与所述待分离微生物的系统发...

【专利技术属性】
技术研发人员:赵立平王景张梦晖
申请(专利权)人:完美中国有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1