一种用于宏基因组测序数据的微生物物种与功能组成分析方法技术

技术编号:27940222 阅读:86 留言:0更新日期:2021-04-02 14:21
本发明专利技术公开了一种用于宏基因组测序数据的微生物物种与功能组成分析方法,包括下列步骤:1)切除原始数据中的接头序列片段、低质量片段,滤除过短序列、含模糊碱基序列;2)使用上述获得的数据进行物种注释,3)对剔除非目物种后的序列进行拼接,4)对叠连群序列进行相似性聚类,5)使用blastn算法,6)预测非冗余的叠连群序列中的基因区域,7)将非冗余蛋白序列集与各类蛋白注释数据库进行比对,8)计算基因序列丰度,本发明专利技术满足了拼接产生的叠连群序列的进一步分析,避免了结果假阳性高,依赖于专用数据库的构建,适用面窄的问题;灵敏度高,提高了准确性。

【技术实现步骤摘要】
一种用于宏基因组测序数据的微生物物种与功能组成分析方法
本专利技术涉及微生物基因分析领域,尤其涉及一种用于宏基因组测序数据的微生物物种与功能组成分析方法。
技术介绍
随着下一代高通量测序技术(NextGenerationSequencing,NGS)的不断发展,人们对于微生物群落方面的研究也越来越全面和深入。区别于常见的靶向微生物核糖体RNA基因的扩增子测序技术,宏基因组学是将整个群落系统中全体微生物的基因组作为研究对象,基于鸟枪法测序技术,全面展现整个群落的物种组成和功能潜能组成,进而阐明微生物群落的作用机制。然而,由于测序样本类型的多样,样本量规模、测序深度的多变,以及宿主、污染基因组的多少等因素,以及分析本身的复杂性,研究者们发开出了数量庞大的各类软件,以及配套的更为复杂的各种分析模式、参数和数据库。目前,只有少数几个流程软件或分析网站提供了自动化的宏基因组分析方法或服务。其中,以MG-RAST(https://www.mg-rast.org/)和IMG/M(https://img.jgi.doe.gov/cgi-bin/m/ma本文档来自技高网...

【技术保护点】
1.一种用于宏基因组测序数据的微生物物种与功能组成分析方法,其特征在于,包括下列步骤:/n1)切除原始数据中的接头序列片段、低质量片段,滤除过短序列、含模糊碱基序列;若已知宿主基因组,则将宿主序列剔除;/n2)使用上述获得的数据进行物种注释,并统计物种序列数即为丰度,再基于注释结果剔除注释到非目的物种的序列;/n3)对剔除非目物种后的序列进行拼接,获得叠连群序列;/n4)对叠连群序列进行相似性聚类,并计算各样本非冗余的叠连群序列丰度,并去掉总丰度为零的序列;/n5)使用blastn算法,对非冗余的叠连群序列进行核酸数据库比对,并采用共同祖先算法获取拼接序列的物种注释信息,再基于注释信息,将步骤...

【技术特征摘要】
1.一种用于宏基因组测序数据的微生物物种与功能组成分析方法,其特征在于,包括下列步骤:
1)切除原始数据中的接头序列片段、低质量片段,滤除过短序列、含模糊碱基序列;若已知宿主基因组,则将宿主序列剔除;
2)使用上述获得的数据进行物种注释,并统计物种序列数即为丰度,再基于注释结果剔除注释到非目的物种的序列;
3)对剔除非目物种后的序列进行拼接,获得叠连群序列;
4)对叠连群序列进行相似性聚类,并计算各样本非冗余的叠连群序列丰度,并去掉总丰度为零的序列;
5)使用blastn算法,对非冗余的叠连群序列进行核酸数据库比对,并采用共同祖先算法获取拼接序列的物种注释信息,再基于注释信息,将步骤2)中注释得到的物种分为已验证存在的物种与疑似存在物种;
6)预测非冗余的叠连群序列中的基因区域,获得基因序列及其翻译的蛋白序列,再对蛋白序列进行相似性聚类,获得非冗余蛋白序列集;
7)将非冗余蛋白序列集与各类蛋白注释数据库进行比对,获得基因序列和蛋白序列的功能注释信息;
8)计算基因序列丰度,再通过基因/蛋白对应功能信息,获得功能丰度表。


2.如权利要求1所述的一种用于宏基因组测序数据的微生物物种与功能组成分析方法,其特征在于:步骤1)中使用FastQC检查原始数据的测序质量情况;使用fastp或trimmomatic软件其中一种将原始数据中低质量片段切割,并滤除接头序列和过短序列,获得高质量序列;使用bowtie2或bmtagger其中一种软件,去除比对到宿主基因组上的序列。


3.如权利要求1所述的一种用于宏基因组测序数据的微生物物种与功能组成分析方法,其特征在于:步骤2)中进行物种注释为进行非拼接序列的物种注释,将质控后的序列基于物种注释数据库进行k-mer检索或局部相似性比对,获取序列的物种注释信息以及物种丰度表一,其中使用kraken2及核酸序列数据库进行k-mer检索或使用kaiju及蛋白序列数据库进行局部相似性比对;使用bracken计算物种组成丰度表;非目的序列默认为注释到后生动物及绿色植物的序列或者注释到自定义的物种的序列。


4.如权利要求1所述的一种用于宏基因组测序数据的微生物物...

【专利技术属性】
技术研发人员:李鸿毅曲昊淼寇文伯薛正晟孙子奎
申请(专利权)人:上海派森诺生物科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1