一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法技术

技术编号:15617903 阅读:1393 留言:0更新日期:2017-06-14 03:51
本发明专利技术公开的一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法,其提供的16S rRNA测序数据分析流程以测序原始序列数据作为输入,调用业界标准的分析工具(如:Mothur、QIIME等),最终对数据进行可视化,并得到易于解读的分析结果。本发明专利技术包含了目前流行的主流分析项目,同时分析内容实现模块化,数据挖掘分析的方法更多样、更深入,可以根据不同的需要结合不同的分析模块内容,先后顺序的流程安排也更合理;此外,消除了测序深度不一导致的分析误差,使分析结果更全面、准确、可靠。

【技术实现步骤摘要】
一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法
:本专利技术一般有关于分子生物学
,特别涉及高通量测序数据分析
,并且更具体地说,涉及一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法。
技术介绍
:新一代高通量测序技术大幅度降低了测序的时间和成本,使得大规模测序逐渐成为常规的研究和检测手段,测序产生的数据量急剧增加。如何高效地分析这些数据,已成为迫切需要解决的问题。目前高通量测序数据分析工具很多,进行分析序列信息的生物信息学工具纷繁复杂,对于分析菌群微生态的大规模测序数据,也已开发产生多种成熟的分析工具可供使用。其中,针对于菌群多样性和组成谱检测这一广泛应用的研究策略,绝大多数基于微生物核糖体RNA(rRNA)基因的序列分析工具并不能一次性满足研究人员的大部分分析需求,往往需要多次调用不同的分析工具(甚至不同的计算机平台系统)以完成所有相关分析。当前用于rRNA基因序列分析的工具分为两大类:基于Web的工具和本地安装的工具。基于Web的工具托管在服务器上,为用户提供Web界面。例如RibosomalDatabaseProject(RDP)的分类鉴定工具等;研究人员可以通过互联网上传测得的序列数据,并使用Web界面配置可选参数进行分析。但是对于一次上传的数据量存在限制,并受网络环境所约束,不适合大规模数据分析,并且远程用户无法根据自己的需求来自定义后端分析软件,并不方便。本地化的16SrRNA基因分析工具包括Mothur和QIIME等。使用这些本地工具时,不需要将数据上传到远程服务器,只需在Linux服务器/工作站合理配置安装即能投入使用。这些工具大多是开源形式,允许研究人员根据需要自定义软件。然而,很多情况下,根据不同的分析需求,实现一个完整的分析流程仍需要对众多工具进行整合。如何能正确高效地选择并整合这些工具已成为迫切需求。现有的16SrRNA基因的细菌群落组成和多样性分析流程中,分析内容较为基础和简单,未包含目前流行的多项主流分析项目:Specaccum物种累积曲线、LEfSe分析、Wilcoxon秩和检验等。在一些情况下,无法满足研究人员的分析需求。此外,原有分析流程在进行后续PCA、PCoA等比较分析时,未对数据进行拉平处理,由此将会引入测序深度不一导致的分析误差。
技术实现思路
本专利技术的一个目的是为了克服现有工具中固有的弱点并结合其优势,提供一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法,该方法具有可靠的流程,已确保分析结果的准确。并满足多种分析需求。本专利技术的另一个目的是为了提供一种16SrRNA测序数据分析流程,实现各个环节的高效自动化管理和分析,从而节省时间成本,减轻研究人员的数据分析负担。为了实现上述目的,本专利技术所采用的技术方案如下:一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法,其提供的16SrRNA测序数据分析流程以测序原始序列数据作为输入,调用业界标准的分析工具(如:Mothur、QIIME等),最终对数据进行可视化,并得到易于解读的分析结果,具体包括以下步骤:1)通过原始序列的测序质量值、模糊碱基数目、序列长度、引物序列和barcode序列的匹配度信息,对原始序列进行过滤和质量控制,并检查和剔除嵌合体,获得高质量序列;2)对步骤1)获得的高质量序列的长度分布进行统计;3)对步骤1)获得的高质量序列按97%的序列相似度进行归并和OTU划分,并选取每个OTU中丰度最高的序列作为该OTU的代表序列,随后,根据每个OTU在每个样本中所包含的序列数,构建OTU在各样本中丰度的矩阵文件;4)通过将OTU代表序列与对应数据库的模板序列相比对,获取每个OTU所对应的分类学信息;5)将丰度值低于全体样本测序总量0.001%(十万分之一)的OTU去除,并将去除了稀有OTU的此丰度矩阵用于后续的一系列分析;6)根据获得的OTU丰度矩阵,计算各样本组共有OTU的数量,并通过Venn图直观地呈现各样本组所共有和独有OTU所占的比例;7)对OTU丰度矩阵中每个样本的序列总数在不同测序深度下依次随机抽样,以每个深度下抽取到的序列数及其对应的OTU数绘制稀疏曲线;8)对OTU丰度矩阵中每个样本所对应的OTU总数绘制Specaccum物种累积曲线;9)对OTU及其对应的丰度值经Log2对数转换绘制各样本的丰度等级曲线;对OTU丰度矩阵中的全体样本根据最低测序深度统一进行随机重抽样(即序列拉平处理),随后,分别对每个样本计算四种多样性指数;10)根据OTU划分和分类地位鉴定结果,可以获得每个样本在各分类水平(界/门/纲/目/科/属/种等)的具体组成;11)获取各样本在指定分类水平上的组成和丰度分布表,并通过饼图、柱状图或面积图呈现分析结果,根据研究对象是单个或多个群落样本,绘图结果可能会以不同方式进行展示;12)获取各样本在指定分类水平上的组成和绝对丰度分布表,调用Metastats的统计学算法,对指定分类水平的各个分类单元在样本组之间的序列量即绝对丰度差异进行两两比较检验;13)获取各样本在指定分类水平上的组成和相对丰度分布表,进行LEfSe分析,筛选关键的生物标记物;14)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两组样本中的丰度分布差异进行Wilcoxon秩和检验或Welch’st检验,从而获得在两组中存在显著性差异的分类单元;15)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两个样本中的丰度分布差异进行Fisher’s检验,从而获得在两个样本中存在显著性差异的分类单元;16)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在多组样本中的丰度分布差异进行ANOVA方差分析/Kruskal-WallisH检验,从而获得在多组样本中存在显著性差异的分类单元;18)对前述OTU代表序列,通过PyNAST和MAFFT等工具进行多序列比对,之后通过FastTree工具构建OTU代表序列的系统发育树,该文件以Newick格式保存;19)根据前述OTU丰度矩阵和OTU划分和分类地位鉴定结果,将每个样本所含有的OTU的丰度信息和分类学组成数据映射至NCBITaxonomy所提供的微生物分类等级树,统一呈现所有样本在各分类水平的具体组成;20)获取各样本在指定分类水平上的组成和相对丰度分布表,对样本总体在各分类水平的组成构建等级树,同时以不同颜色区分各分类单元,并通过节点大小反映它们的丰度分布;21)获取各样本在指定分类水平上的组成和丰度分布表,通过Krona软件进行群落分类学组成的交互展示;22)根据前述OTU丰度矩阵和OTU划分和分类地位鉴定结果,构建交互式OTU热图;23)获取各样本在指定分类水平上的组成和相对丰度分布表,对丰度前50位的分类单元进行聚类分析并绘制热图;24)获取各样本在指定分类水平上的组成和相对丰度分布表,对指定分类水平的群落组成结构进行PCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;25)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201611187576.html" title="一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法原文来自X技术">用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法</a>

【技术保护点】
一种用于16S rRNA基因的细菌群落组成和多样性分析的自动化方法,其提供的16S rRNA测序数据分析流程以测序原始序列数据作为输入,调用业界标准的分析工具,最终对数据进行可视化,并得到易于解读的分析结果,其特征在于,具体包括以下步骤:1)通过原始序列的测序质量值、模糊碱基数目、序列长度、引物序列和barcode序列的匹配度信息,对原始序列进行过滤和质量控制,并检查和剔除嵌合体,获得高质量序列;2)对步骤1)获得的高质量序列的长度分布进行统计;3)对步骤1)获得的高质量序列按97%的序列相似度进行归并和OTU划分,并选取每个OTU中丰度最高的序列作为该OTU的代表序列,随后,根据每个OTU在每个样本中所包含的序列数,构建OTU在各样本中丰度的矩阵文件;4)通过将OTU代表序列与对应数据库的模板序列相比对,获取每个OTU所对应的分类学信息;5)将丰度值低于全体样本测序总量0.001%的OTU去除,并将去除了稀有OTU的此丰度矩阵用于后续的一系列分析;6)根据获得的OTU丰度矩阵,计算各样本组共有OTU的数量,并通过Venn图直观地呈现各样本组所共有和独有OTU所占的比例;7)对OTU丰度矩阵中每个样本的序列总数在不同测序深度下依次随机抽样,以每个深度下抽取到的序列数及其对应的OTU数绘制稀疏曲线;8)对OTU丰度矩阵中每个样本所对应的OTU总数绘制Specaccum物种累积曲线;9)对OTU及其对应的丰度值经Log2对数转换绘制各样本的丰度等级曲线;对OTU丰度矩阵中的全体样本根据最低测序深度统一进行随机重抽样(即序列拉平处理),随后,分别对每个样本计算四种多样性指数;10)根据OTU划分和分类地位鉴定结果,可以获得每个样本在各分类水平的具体组成;11)获取各样本在指定分类水平上的组成和丰度分布表,并通过饼图、柱状图或面积图呈现分析结果,根据研究对象是单个或多个群落样本,绘图结果可能会以不同方式进行展示;12)获取各样本在指定分类水平上的组成和绝对丰度分布表,调用Metastats的统计学算法,对指定分类水平的各个分类单元在样本组之间的序列量即绝对丰度差异进行两两比较检验;13)获取各样本在指定分类水平上的组成和相对丰度分布表,进行LEfSe分析,筛选关键的生物标记物;14)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两组样本中的丰度分布差异进行Wilcoxon秩和检验或Welch’s t检验,从而获得在两组中存在显著性差异的分类单元;15)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两个样本中的丰度分布差异进行Fisher’s检验,从而获得在两个样本中存在显著性差异的分类单元;16)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在多组样本中的丰度分布差异进行ANOVA方差分析/Kruskal‑Wallis H检验,从而获得在多组样本中存在显著性差异的分类单元;18)对前述OTU代表序列,通过PyNAST和MAFFT等工具进行多序列比对,之后通过FastTree工具构建OTU代表序列的系统发育树,该文件以Newick格式保存;19)根据前述OTU丰度矩阵和OTU划分和分类地位鉴定结果,将每个样本所含有的OTU的丰度信息和分类学组成数据映射至NCBI Taxonomy所提供的微生物分类等级树,统一呈现所有样本在各分类水平的具体组成;20)获取各样本在指定分类水平上的组成和相对丰度分布表,对样本总体在各分类水平的组成构建等级树,同时以不同颜色区分各分类单元,并通过节点大小反映它们的丰度分布;21)获取各样本在指定分类水平上的组成和丰度分布表,通过Krona软件进行群落分类学组成的交互展示;22)根据前述OTU丰度矩阵和OTU划分和分类地位鉴定结果,构建交互式OTU热图;23)获取各样本在指定分类水平上的组成和相对丰度分布表,对丰度前50位的分类单元进行聚类分析并绘制热图;24)获取各样本在指定分类水平上的组成和相对丰度分布表,对指定分类水平的群落组成结构进行PCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;25)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;26)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS非度量多维尺度分析,通过二维或三维排序图描述群落样本的结构分布;27)根据前述OTU丰度矩阵和OTU代表序列的系统发育树,基于Unifrac距离计算样本间的距离矩阵,对加权及非加权距离矩阵分别进行UPG...

【技术特征摘要】
1.一种用于16SrRNA基因的细菌群落组成和多样性分析的自动化方法,其提供的16SrRNA测序数据分析流程以测序原始序列数据作为输入,调用业界标准的分析工具,最终对数据进行可视化,并得到易于解读的分析结果,其特征在于,具体包括以下步骤:1)通过原始序列的测序质量值、模糊碱基数目、序列长度、引物序列和barcode序列的匹配度信息,对原始序列进行过滤和质量控制,并检查和剔除嵌合体,获得高质量序列;2)对步骤1)获得的高质量序列的长度分布进行统计;3)对步骤1)获得的高质量序列按97%的序列相似度进行归并和OTU划分,并选取每个OTU中丰度最高的序列作为该OTU的代表序列,随后,根据每个OTU在每个样本中所包含的序列数,构建OTU在各样本中丰度的矩阵文件;4)通过将OTU代表序列与对应数据库的模板序列相比对,获取每个OTU所对应的分类学信息;5)将丰度值低于全体样本测序总量0.001%的OTU去除,并将去除了稀有OTU的此丰度矩阵用于后续的一系列分析;6)根据获得的OTU丰度矩阵,计算各样本组共有OTU的数量,并通过Venn图直观地呈现各样本组所共有和独有OTU所占的比例;7)对OTU丰度矩阵中每个样本的序列总数在不同测序深度下依次随机抽样,以每个深度下抽取到的序列数及其对应的OTU数绘制稀疏曲线;8)对OTU丰度矩阵中每个样本所对应的OTU总数绘制Specaccum物种累积曲线;9)对OTU及其对应的丰度值经Log2对数转换绘制各样本的丰度等级曲线;对OTU丰度矩阵中的全体样本根据最低测序深度统一进行随机重抽样(即序列拉平处理),随后,分别对每个样本计算四种多样性指数;10)根据OTU划分和分类地位鉴定结果,可以获得每个样本在各分类水平的具体组成;11)获取各样本在指定分类水平上的组成和丰度分布表,并通过饼图、柱状图或面积图呈现分析结果,根据研究对象是单个或多个群落样本,绘图结果可能会以不同方式进行展示;12)获取各样本在指定分类水平上的组成和绝对丰度分布表,调用Metastats的统计学算法,对指定分类水平的各个分类单元在样本组之间的序列量即绝对丰度差异进行两两比较检验;13)获取各样本在指定分类水平上的组成和相对丰度分布表,进行LEfSe分析,筛选关键的生物标记物;14)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两组样本中的丰度分布差异进行Wilcoxon秩和检验或Welch’st检验,从而获得在两组中存在显著性差异的分类单元;15)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在两个样本中的丰度分布差异进行Fisher’s检验,从而获得在两个样本中存在显著性差异的分类单元;16)获取各样本在指定分类水平上的组成和相对丰度分布表,对各分类单元在多组样本中的丰度分布差异进行ANOVA方差分析/Kruskal-WallisH检验,从而获得在多组样本中存在显著性差异的分类单元;18)对前述OTU代表序列,通过PyNAST和MAFFT等工具进行多序列比对,之后通过FastTree工具构建OTU代表序列的系统发育树,该文件以Newick格式保存;19)根据前述OTU丰度矩阵和OTU划分和分类地位鉴定结果,将每个样本所含有的OTU的丰度信息和分类学组成数据映射至NCBITaxonomy所提供的微生物分类等级树,统一呈现所有样本在各分类水平的具体组成;20)获取各样本在指定分类水平上的组成和相对丰度分布表,对样本总体在各分类水平的组成构建等级树,同时以不同颜色区分各分类单元,并通过节点大小反映它们的丰度分布;21)获取各样本在指定分类水平上的组成和丰度分布表,通过Krona软件进行群落分类学组成的交互展示;22)根据前述OTU丰度矩阵和OTU划分和分类地...

【专利技术属性】
技术研发人员:薛正晟寇文伯王慧娟姜丽荣孙子奎
申请(专利权)人:上海派森诺生物科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1