【技术实现步骤摘要】
一种基于二代测序技术的宏基因组数据分析方法
本专利技术一般有关二代测序
,具体为一种基于二代测序技术的宏基因组数据分析方法。
技术介绍
1977年,FrederickSanger和WalterGilbert专利技术了第一台测序仪,并应用其测定了第一个基因组序列,噬菌体X174,全长5375个碱基,由此开始,人类获得了探索生命遗传本质的能力,生命科学的研究进入了基因组学的时代。Sanger所专利技术的测序方法被称为第一代测序技术,该技术直到现在依然被广泛使用,但是其一次只能获得一条长度在700-1000bp的序列,通量太低,导致在很多情况下成本太高,无法满足现代科学发展对生物基因序列获取的迫切需求。高通量测序是对传统Sanger测序的革命性变革,其解决了一代测序技术一次只能测一条序列的限制,一次运行即可同时得到几十万到几百万条核酸分子的序列,因此被称为第二代测序技术。第二代测序技术虽然测序的通量大大增加,但是其获得单条序列长度太短,只有200-500bp,想要得到准确的基因序列信息,依赖于较高的测序覆盖度和准确的拼接技术 ...
【技术保护点】
1.一种基于二代测序技术的宏基因组数据分析方法,其特征在于,包括以下步骤:/n1) 对原始测序数据进行质量控制,得到clean reads;/n2) 对经过质量控制的序列clean reads进行物种注释;/n3) 基于物种丰度矩阵对样本多样性进行统计分析;/n4) 基于物种丰度矩阵对样本组间差异显著物种进行统计分析;/n5) 对经过质量控制的clean reads进行拼接组装得到contigs序列;/n6) 对拼接组装得到的contigs进行分箱,得到bins;/n7) 对分箱得到的bins进行基因注释;/n8) 基于基因丰度矩阵对样本组间差异显著基因进行统计分析;/n9 ...
【技术特征摘要】
1.一种基于二代测序技术的宏基因组数据分析方法,其特征在于,包括以下步骤:
1)对原始测序数据进行质量控制,得到cleanreads;
2)对经过质量控制的序列cleanreads进行物种注释;
3)基于物种丰度矩阵对样本多样性进行统计分析;
4)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;
5)对经过质量控制的cleanreads进行拼接组装得到contigs序列;
6)对拼接组装得到的contigs进行分箱,得到bins;
7)对分箱得到的bins进行基因注释;
8)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;
9)基于基因注释的结果,对序列进行功能注释以及物种注释。
2.根据权利要求1所述的一种基于二代测序技术的宏基组数据分析方法,其特征在于:所述步骤1)具体过程如下:
a、根据测序实验信息与碱基质量信息对原始测序数据进行过滤,去除接头序列与低质量碱基序列以及读长太短的测序序列;
b、对上述经过质量过滤的序列,以环境中可能存在的污染源的序列作为参考序列,通过序列比对,对非微生物DNA进行过滤筛除,得到cleanreads。
3.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法,其特征在于,所述步骤2)具体过程如下:
a、使用基于kmer的参考数据库比对算法进行物种注释并得出物种丰度;
b、对物种丰度进行热图可视化;
c、基于物种丰度矩阵,可视化物种相对丰度柱状图;
d、将物种进化分支树进行可视化。
4.根据权利要求1所述的一种基于二代测序技术的宏基因组数据分析方法,其特征在于,所述步骤3)具体过程如下:
a、根据各样本的物种丰度矩阵,对指定分类水平的群落组成结构进行CCA主成分分析,并且以二维和三维图像描述样本间的自然分布特征;
b、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行PcoA主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
c、根据各样本的物种丰度与群落物种的群落发育树,基于Unifrac距离计算样本间的距离矩阵,由加权及非加权距离矩阵分别进行NMDS主坐标分析,并且以二维和三维图像描述样本间基于微生物系统发育关系的群落空间分布特征;
d、根据各样本的丰度矩阵绘制Specaccum...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。