一种基于高通量测序的微生物群落组成的方法和装置制造方法及图纸

技术编号:16456824 阅读:32 留言:0更新日期:2017-10-25 21:05
本发明专利技术公开一种基于16S rRNA基因高可变区V1/V2的微生物群落组成的方法和装置。该方法包括:提取微生物样品中的DNA,对样品中DNA的16S rRNA的高可变区V1/V2分别进行进行PCR扩增;对扩增产物进行Solexa建库,同时在建库过程中通过加上带有标签序列的接头,对每个样品进行标记;将带有标签序列的不同样品进行混合,混合后使用Solexa测序工具进行测序,得到按照标签区分的原始的测序序列读长(reads);利用读长的重叠关系组装得到高可变区V1/V2或V6的全长序列全长序列(unique reads);对全长读长进行序列相似度的比较分析,以实现对样品中微生物的分类及相对丰度的计算。本发明专利技术的方法和装置,对微生物群落的组成分析准确。

A method and device for microbial community composition based on high-throughput sequencing

The invention discloses a composition of microbial community V1/V2 hypervariable region 16S rRNA gene based method and apparatus. The method comprises the following steps: extraction of microbial DNA in the sample, the sample DNA 16S rRNA hypervariable region V1/V2 were amplified by PCR; the results of Solexa database, and through the joint with a label sequence and in the construction process, for each sample mark; mixed with different samples tag sequence, mixed use Solexa after sequencing tools were sequenced, got the original sequences according to the label to distinguish long read (reads); the overlapping relationship read length of assembly sequence of the full-length sequence of the hypervariable region of V1/V2 or V6 (unique reads); comparative analysis of full-length sequence similarity to read long. In order to realize the calculation of classification samples and relative abundance of microorganisms. The method and apparatus of the present invention are accurate in analyzing the composition of microbial communities.

【技术实现步骤摘要】
一种基于高通量测序的微生物群落组成的方法和装置
本专利技术涉及生物信息学分析
,尤其涉及一种微生物基因组16SrRNA高可变区V6区域的分类方法和装置。
技术介绍
为了微生物群体的种类及丰度的传统方法包括:直接对微生物进行培养,变性梯度凝胶电泳、末端限制性内切酶片段长度多态性、焚光原位杂交、对可能的微生物种类进行PCR(聚合酶链式反应);但这些方式都只能揭露环境中很小一部分微生物种类。如果能进行宏基因组的分析,通过直接对环境中的微生物群体进行基因组研究,得到一个比较全面的微生物种类目录,将有助于对微生物群体的后续研究和应用。原核生物中16SrRNA(核蛋白核糖核酸,ribosomalRNA)的序列一方面在整体上高度保守,同时含有种间差异的高变异区(V1-V7),因此该基因医疗可精确指示细菌之间的亲缘关系及其进化关系,易操作,适用于各级分类单元;所以在微生物基因组的研究中,16SrRNA测序是最常用的聚类和分类方法。但传统的基因测序是通过Sanger技术测定16SrRNA基因序列,这个技术一般得到至少500bp的读长,能帮助我们去精准地研究每一条序列的物种来源,但它容易产生嵌合体,而且测序成本比较高,费时又费力。随着新开发出的测序技术以及测序成本的逐步降低,基因组的研究变得越来越实用,所涉及的技术包括Pyrosequencing、Solexa等。对于这些革命性的技术的一个主要挑战就是读长太短,无法对每个个体的16SrRNA进行测序,因而它的测序信息不足以让我们去精准地对微生物进行分类。但测定16SrRNA的变异区可用来来对微生物进行分类,通过设计特定的通用引物对16S可变区进行特定的PCR(聚合酶链式反应,PolymeraseChainReaction),然后用测序仪测序,建立在这种方法上的系统树显示了很好的生物多样性,但它的测序成本高,虽然是传统毛细管测序法费用的1/10,但却是其他新一代测序仪测序费用的10倍左右。综上所述,提供一种更加准确地对微生物进行聚类分析的方法且方便快捷、成本低廉成为本领域亟待解决的技术问题。
技术实现思路
本专利技术要解决的一个技术问题是提供一种基于16SrRNA基因高可变区V6的微生物分类方法和装置,通过对16SrRNA的高可变区V6区进行Solexa测序,并通过对这些16SrRNA可变区的短序列进行系统分类,可以在成本低廉的基础上准确反映物种的丰度信息。本专利技术的第一方面提供了一种基于16SrRNA基因高可变区V6的分类方法,该方法包括:提取微生物样品中的脱氧核糖核酸(DNA);对提取DNA的宏基因组16SrRNA核糖体核糖核酸(rRNA)的高可变区(V6)进行扩增,得到作为扩增产物的DNA片段;对DNA片段进行PCR-FreeSolexa建库,建库过程中在DNA片段上加上标签序列以对每个样品进行标记;将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的DNA片段进行测序,得到按照标签区分的测序读长;利用读长的重叠关系组装得到高可变区V6的全长序列;对全长序列进行分类分析,以实现对微生物群体的分类。优选地,该方法还包括:在步骤“提取微生物样品中的脱氧核糖核酸DNA”之前,执行微生物群体的取样。优选地,所述对全长序列进行分类分析包括:计算全长序列序列差异度;根据序列差异度执行操作分类学单元OTU的分类,将全长序列(Uniquereads)分配到OTU中;将每一个OTU分类中的全长序列比对到16SrRNA的V6数据库中,将比对结果根据众数原则对OTU进行物种注释。优选地,根据序列差异度执行操作分类学单元(OTU)的分类是指根据本领域公知的OTU分类中“种”水平之间的差异度将全长序列分配到相应的OTU中。在本专利技术的一个实施方案中,将序列差异度在3%以内的全长序列(uniquereads)分配到一个OTU中。优选地,将比对结果根据众数原则对OTU进行物种注释是指如果一个OTU中66%以上的比对结果均为同一个物种,则将该OTU注释为该物种;如果未达到该比例,则将物种分类信息上移一个水平(例如从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。优选地,该方法还包括:在步骤“对全长序列进行分类分析”之后,基于分类分析结果,进行种群多样性分析和/或统计得到微生物群体的相对丰度值。优选地,步骤“对宏基因组16SrRNA的高可变区V6进行扩增”是指利用本领域公知的方法扩增DNA序列,在本专利技术的一个实施方案中,采用聚合酶链式反应(PCR)扩增16SrRNA的高可变区V1/V2,所述PCR反应的引物为引物27F:AGAGTTTGATCMTGGCTCAG和337R:GCTGCCTCCCGTAGGAGT。优选地,步骤“对DNA片段进行PCR-FreeSolexa建库,建库过程中在DNA片段上加上标签序列,对每个样品进行标记”进一步包括:将所述DNA片段进行纯化,对纯化后的DNA片段进行浓度定量,定量后不同样品取等浓度的量分别进行末端修复,在3’端加上碱基A,然后加上标签序列,再进一步加上PCR-Free的接头,最后对样品进行纯化。优选地,在得到按照标签区分的原始的测序读长(reads)后,还包括对所述测序序列进行筛选的步骤,以过滤掉低质量的测序序列;所述低质量的测序序列选自以下序列中的任意一种或数种:接头污染序列,含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的N的序列;优选地,步骤“利用读长的重叠关系组装得到高可变区V1/V2的全长序列(uniquereads)是指按照本领域公知的条件进行序列的拼接,例如运用拼接软件,根据序列两端的重叠关系对读长进行拼接,将其组装成V1/V2的全长序列。在本专利技术的一个实施方案中,拼接的条件是最小匹配长度为S3P,重叠区域不允许错配,重叠区域N所占最大百分比是0.4%;为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次,最终产生的就是V1/V2的序列,如果最终的拼接结果小于50bp也不用于后续分析。本专利技术的第二方面提供了一种基于宏基因组16SrRNA高可变区V1/V2的分类装置,所述装置包括:脱氧核糖核酸DNA提取设备,用于提取微生物样品中的脱氧核糖核酸DNA;扩增设备,用于对宏基因组16SrRNA的高可变区V1/V2进行扩增,得到作为扩增产物的DNA片段;Solexa建库设备,用于对DNA片段进行PCR-FreeSolexa建库,建库过程中在DNA片段上加上标签序列,对每个样品进行标记;Solexa测序设备,将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的DNA片段进行测序,得到按照标签区分的原始的测序读长(reads);全长序列组装设备,用于利用读长r的重叠关系组装得到高可变区V1/V2的全长序列(uniquereads);分类设备,用于对全长序列进行分类分析,以实现对微生物群体的分类。优选地,该装置还包括取样设备,用于执行微生物群体的取样。优选地,分类设备包括:序列差异度计算单元,用于计算全长序列之间的序列差异度;OTU分类单元,用于根据序列差异度执行操作分类学单元OTU的分类,将全长序列(uniquereads本文档来自技高网
...

【技术保护点】
一种对微生物16S rRNA基因高可变区V1/V2进行高通量测序聚类分析的方法,其特征在于,该方法包括:提取微生物样品中的脱氧核糖核酸(DNA);对提取DNA的宏基因组16S核糖体核糖核酸(rRNA)的高可变区V6进行扩增,得到作为扩增产物的DNA片段;对DNA片段进行PCR‑Free Solexa建库,建库过程中在DNA片段上加上标签序列以对每个样品进行标记;将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的DNA片段进行测序,得到按照标签区分的测序读长(reads);利用测序序列的重叠关系组装得到高可变区V6的全长序列(unique reads);对全长序列进行分类分析,以实现对微生物群体的分类。

【技术特征摘要】
1.一种对微生物16SrRNA基因高可变区V1/V2进行高通量测序聚类分析的方法,其特征在于,该方法包括:提取微生物样品中的脱氧核糖核酸(DNA);对提取DNA的宏基因组16S核糖体核糖核酸(rRNA)的高可变区V6进行扩增,得到作为扩增产物的DNA片段;对DNA片段进行PCR-FreeSolexa建库,建库过程中在DNA片段上加上标签序列以对每个样品进行标记;将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的DNA片段进行测序,得到按照标签区分的测序读长(reads);利用测序序列的重叠关系组装得到高可变区V6的全长序列(uniquereads);对全长序列进行分类分析,以实现对微生物群体的分类。2.根据权利要求1所述的方法,其特征在于,所述对全长序列进行分类分析包括:计算全长序列之间的序列差异度;根据序列差异度执行操作分类学单元(OTU)的分类,将全长序列分配到OTU中;将每一个OTU分类中的全长序列比对到16SrRNA的V6数据库中,将比对结果根据众数原则对OTU进行物种注释。3.根据权利要求1所述的方法,其特征在于,该方法还包括:在对测序序列进行分类分析之后,基于分类分析结果,进行种群多样性分析和/或统计得到微生物群体的相对丰度值。4.根据权利要求1所述的方法,其特征在于,所述对DNA片段进行PCR-FreeSolexa建库进一步包括:将所述DNA片段进行纯化;对纯化后的DNA片段进行浓度定量;定量后不同样品取等浓度的量分别进行末端修复,在3’端加上碱基A,然后加上标签序列,再进一步加上PCR-Free的接头;对得到的样品进行纯化。5.根据权利要求1所述的方法,其特征在于,该方法还包括:在得到按照标签区分的测序序列后,对所述测序序列进行筛选,以过滤掉低质量的测序序列;所述低质量的测序序列选自以下序列中的任意一种或数种:接头污染序列,含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的未确定核苷酸(N)的序列。6.根据权利要求1所述的方法,其特征在于,所述的利用测序序列的重叠关系组装得到高可变区V6的全长序列进一步包括:运用拼接软件,根据序列两端的重叠关系对读长进行拼接,将其组装成V6的全长序列;拼接的条件是最小匹配长度为S3P,重叠区域不允许错配,N所占最大百分比是0.4%;不满足以上结果的序列将各切除5bp继续组装,如此重复多次;如果最终的拼接结果小于50bp也不用于后续分析。7.一种基于16SrRNA基因高可变区V6的分类装置,所述装置包括:DNA提取设备,用于提取微生物...

【专利技术属性】
技术研发人员:朱永亮
申请(专利权)人:苏州普瑞森基因科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1