本发明专利技术公开了一种基于二代测序技术的宏基因组数据分析方法,包括以下步骤:1)对原始测序数据进行质量控制,得到clean reads;2)对质量控制后的clean reads进行物种注释;3)基于物种丰度矩阵对样本多样性进行统计分析;4)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;5)对clean reads拼接组装得到contigs序列;6)对拼接组装得到的contigs分箱,得到bins;7)对分箱后的bins进行基因注释;8)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;9)基于基因注释结果,对序列进行功能及物种注释;提供了从宏基因组二代测序数据处理到物种组成分析、基因组成分析与功能注释的全部流程,为研究人员提供准确的分析结果、全面解析宏基因组学问题。
【技术实现步骤摘要】
一种基于二代测序技术的宏基因组数据分析方法
本专利技术一般有关二代测序
,具体为一种基于二代测序技术的宏基因组数据分析方法。
技术介绍
1977年,FrederickSanger和WalterGilbert专利技术了第一台测序仪,并应用其测定了第一个基因组序列,噬菌体X174,全长5375个碱基,由此开始,人类获得了探索生命遗传本质的能力,生命科学的研究进入了基因组学的时代。Sanger所专利技术的测序方法被称为第一代测序技术,该技术直到现在依然被广泛使用,但是其一次只能获得一条长度在700-1000bp的序列,通量太低,导致在很多情况下成本太高,无法满足现代科学发展对生物基因序列获取的迫切需求。高通量测序是对传统Sanger测序的革命性变革,其解决了一代测序技术一次只能测一条序列的限制,一次运行即可同时得到几十万到几百万条核酸分子的序列,因此被称为第二代测序技术。第二代测序技术虽然测序的通量大大增加,但是其获得单条序列长度太短,只有200-500bp,想要得到准确的基因序列信息,依赖于较高的测序覆盖度和准确的拼接技术。宏基因组是基因组学一个新兴的科学研究方向,宏基因组学的研究对象是整个微生物群落,宏基因组学是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,宏基因组学的兴起填补了无法在传统实验室中培养的微生物研究的空白。DNA测序技术的不断进步以及测序通量和分析方法的改进使得人们得以一窥未知的基因组科学领域。此外,微生物通常是以群落方式共生与某一环境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此宏基因组学相比于做单个个体的研究更能发现其特性。由于测序技术原理的有限性,二代测序原始序列通常有较短、可能存在污染等缺点,如何有效处理原始测序数据进而得到完整准确的基因组序列,以及如何将测序数据与生物学原理相联系是生物信息领域的一直关注也一直在尽力解决的问题。随着宏基因组学的发展,越来越多针对微生物测序数据的分析工具层出不穷,但能同时完成物种分析、功能分析以及多样性分析的工具并不多见,因此整合现有的这些工具,完成上述分析模块以及使分析尽量高效准确已经成为迫切需求。
技术实现思路
本专利技术的目的在于提供一种基于二代测序技术的宏基因组数据分析方法,以解决上述
技术介绍
中提出的需求。为实现上述目的,本专利技术提供如下技术方案:一种基于二代测序技术的宏基因组数据分析方法,包括以下步骤:1)对原始测序数据进行质量控制,得到cleanreads;2)对经过质量控制的序列cleanreads进行物种注释;3)基于物种丰度矩阵对样本多样性进行统计分析;4)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;5)对经过质量控制的cleanreads进行拼接组装得到contigs序列;6)对拼接组装得到的contigs进行分箱,得到bins;7)对分箱得到的bins进行基因注释;8)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;9)基于基因注释的结果,对序列进行功能注释以及物种注释。优选的,所述步骤1)具体过程如下:a、根据测序实验信息与碱基质量信息对原始测序数据进行过滤,去除接头序列与低质量碱基序列以及读长太短的测序序列;b、对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过序列比对,对非微生物DNA进行过滤筛除,得到cleanreads。优选的,所述步骤2)具体过程如下:a、使用基于kmer的参考数据库比对算法进行物种注释并得出物种丰度;b、对物种丰度进行热图可视化;c、基于物种丰度矩阵,可视化物种相对丰度柱状图;d、将物种进化分支树进行可视化。优选的,所述步骤3)具体过程如下:a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征。d、根据各样本的丰度矩阵绘制Specaccum物种累积曲线;优选的,所述步骤4)具体过程如下:a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。优选的,所述步骤5)具体过程如下:a、将cleanreads打断成一定长度的kmer;b、使用基于deBruiju图的组装算法进行组装得到contigs。优选的,所述步骤6)具体过程如下:a、将cleanreads比对到组装得到的contigs上,统计contigs的丰度,根据contigs的丰度及其GC含量进行分箱;b、对上述步骤a分箱结果根据完成度与污染度进行过滤;c、将上述步骤b的过滤进过进行重组装,得到最终分箱结果bins。优选的,所述步骤7)具体过程如下:a、基于动态规划算法对bins进行基因结构预测;b、计算基因丰度矩阵。优选的,所述步骤8)具体过程如下:a、在多组样本间采用非参数因子Kruskal-Wallis秩和检验检测不同分组建丰度差异显著的物种;b、利用Wilcoxon秩和检验检查对显著差异物种类中的所有亚种比较;c、使用线性判别分析(LDA)对数据进行降维和评估差异显著的物种并将每个物种的影响程度进行量化,并提供可视化结果。优选的,所述步骤9)具体过程如下:a、对上述基因结构预测得到的编码基因序列进行去冗余;b、将得到的非冗余的编码基因序列与功能蛋白数据库进行比对,对编码基因序列进行功能注释以及物种注释。c、根据功能注释的结果,统计针对每个功能的丰度,并进行柱状图可视化。与现有技术相比,本专利技术的有益效果是:分析流程更加合理、全面,分析结果也更加准确,解决了当前分析工具内容不全面的问题,为研究人员提供便利。附图说明图1为本专利技术流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得本文档来自技高网...
【技术保护点】
1.一种基于二代测序技术的宏基因组数据分析方法,其特征在于,包括以下步骤:/n1) 对原始测序数据进行质量控制,得到clean reads;/n2) 对经过质量控制的序列clean reads进行物种注释;/n3) 基于物种丰度矩阵对样本多样性进行统计分析;/n4) 基于物种丰度矩阵对样本组间差异显著物种进行统计分析;/n5) 对经过质量控制的clean reads进行拼接组装得到contigs序列;/n6) 对拼接组装得到的contigs进行分箱,得到bins;/n7) 对分箱得到的bins进行基因注释;/n8) 基于基因丰度矩阵对样本组间差异显著基因进行统计分析;/n9) 基于基因注释的结果,对序列进行功能注释以及物种注释。/n
【技术特征摘要】
1.一种基于二代测序技术的宏基因组数据分析方法,其特征在于,包括以下步骤:
1)对原始测序数据进行质量控制,得到cleanreads;
2)对经过质量控制的序列cleanreads进行物种注释;
3)基于物种丰度矩阵对样本多样性进行统计分析;
4)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
5)对经过质量控制的cleanreads进行拼接组装得到contigs序列;
6)对拼接组装得到的contigs进行分箱,得到bins;
7)对分箱得到的bins进行基因注释;
8)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
9)基于基因注释的结果,对序列进行功能注释以及物种注释。
2.根据权利要求1所述的一种基于二代测序技术的宏基组数据分析方法,其特征在于:所述步骤1)具体过程如下:
a、根据测序实验信息与碱基质量信息对原始测序数据进行过滤,去除接头序列与低质量碱基序列以及读长太短的测序序列;
b、对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过序列比对,对非微生物DNA进行过滤筛除,得到cleanreads。
3.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法,其特征在于,所述步骤2)具体过程如下:
a、使用基于kmer的参考数据库比对算法进行物种注释并得出物种丰度;
b、对物种丰度进行热图可视化;
c、基于物种丰度矩阵,可视化物种相对丰度柱状图;
d、将物种进化分支树进行可视化。
4.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法,其特征在于,所述步骤3)具体过程如下:
a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;
b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
d、根据各样本的丰度矩阵绘制Specaccum...
【专利技术属性】
技术研发人员:刘健,田妹,陈娇,
申请(专利权)人:南开大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。