一种肠道微生物16SrRNA的NGS数据分析方法技术

技术编号:27539887 阅读:35 留言:0更新日期:2021-03-03 11:33
本发明专利技术公开一种肠道微生物16 S rRNA的NGS数据分析方法,包括以下步骤:1)数据库准备:首先从SILVA132和Dreengene13

【技术实现步骤摘要】
一种肠道微生物16SrRNA的NGS数据分析方法


[0001]本专利技术涉及生物
,特别涉及一种肠道微生物16 S rRNA的NGS数据分析方法。

技术介绍

[0002]肠道不仅仅是人体消化吸收的场所,同时也是人体最大的免疫器官,在维持人体正常免疫防御功能中发挥极其重要的作用。人体肠道为微生物栖息提供了良好的场所,成人肠道内的微生物数量庞大,重量达1.2kg,2010年欧盟Meta HIT项目组在Nature发表了人体肠道微生物军菌落的基因目录,其包含的基因数目约是人体自身的150倍。从而估计人体肠道中至少存在1000~1150种细菌。16SrDNA是细菌的系统分类研究中最有用的和最常用的分子钟,其种类少,含量大(约占细菌DNA含量的80%),分子大小适中,存在于所有的生物中,其进化具有良好的时钟性质,在结构与功能上具有高度的保守性,素有“细菌化石”之称。16S基因也是每种细菌的个性标签,通过检测这个基因,相当于对细菌进行“人口普查”。采用16S基因扩增结合二代高通量测序技术,可以获得肠道菌群的组成和多样性信息。然而使用 16S rRNA 作为分子标志物时也存在诸多问题,比如方法依赖性较大,特别是数据分析的过程中。数据分析的方法是目前亟需解决的问题。在对16S V4区域,双向150bp的测序时,由于测序质量随着测序长度的延长而下降,导致双向测序数据无法拼接,造成只能利用单向测序数据进行分析,浪费一半的测序数据。

技术实现思路

[0003]为解决上述问题,本专利技术公开了一种肠道微生物16 S rRNA的NGS数据分析方法,本专利技术要解决的技术问题是以极低的成本实现以前高成本才能实现16S数据分析问题,克服数据分析的不够精确和数据利用率低的问题,所述方法包括以下步骤:1)数据库准备:首先从SILVA132和Dreengene13-8-16S数据库中找出能用V4通用引物扩出的序列,允许两个错配,把序列切去V4通用引物,获得254bp的序列,从正反两个方向分别截取125bp的序列,以适应测序序列的实际情况,然后将双向125bp的序列进行连接,获得一个长度均为250bp的序列;2)特征分类训练器训练:通过使用qiime2(一个16S数据分析开源软件包)的朴素贝叶斯分类器对1)中的序列以及序列对应的分类信息进行训练并获得更准确的特征分类器,最大限度地提高识别每个分类组中大多数序列的敏感性、特异性、精密度和阴性预测值;3) 准确性评估:使用一个模拟的微生物群落,使用DADA2对混合测序样品进行推断,并且和真正的注释信息进行比较;4)多样性分析:使用mafft(一个多序列比对开源程序)程序执行对代表序列进行多序列比对,流程屏蔽对齐的的高度可变区,应用FastTree基于过滤后的比对结果生成系统发育树;5)应用core-metrics-phylogenetic(生物多样性计算算法)方法,该方法将特征表抽
平到指定的最小合格样本测序深度,然后计算α和β多样性指数,并使用Emperor(一个开源作图软件)为每个β多样性指数生成主坐标分析图;6)导出分析结果至一个文本文档,以用于生成报告,使用R语言,查询微生物样本数据库,获得各样本用于生成报告的数据和指标,生成报告。
[0004]作为本专利技术的一种改进,所述采用150PE的建库方式对16V4区进行扩增建库,获得原始下机数据。
[0005]作为本专利技术的一种改进,原始下机数据通过index(标签)序列进行样本的数据拆分,切去接头序列,使用fastqc(一个开源质量控制软件)、multiqc(一个开源质量控制汇总软件)软件进行质控,去除质量不合格(检查得到的序列里是否有简并碱基,>20个以上的序列质量较差,去掉引物)的序列以进行下一步分析。
[0006]作为本专利技术的一种改进,使用trimmomatic软件将序列统一截短到正反向各125bp,以保证数据的统一性。
[0007]作为本专利技术的一种改进,使用python脚本将正反向125bp的序列连接成250bp的序列。
[0008]作为本专利技术的一种改进,将完成的fastq(测序仪测得的原始数据格式)序列导入qiime2,进行qiime2标准流程分析,使用机器学习算法DADA2构建参数误差模型,通过交替估计错误率和对参考样本序列学习错误模型,直到学习模型同真实错误率收敛于一致。
[0009]作为本专利技术的一种改进,针对序列信息进行去重、去噪、去除嵌合体以及序列物种评估,所述去重操作仅仅保留重复序列中的一条序列,保留去重序列的质量信息,这些质量信息取自重复序列的均值,这一信息文件将作为参考错误模型用于后续序列处理,以提高了DADA2算法准确性,所述序列物种评估采用朴素贝叶斯特征分类器,并把输出的注释文件通过bootstrap(非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法)检验。
[0010]作为本专利技术的一种改进,所述5)中,包括:1)α多样性包括:a.香农(Shannon

s)多样性指数(群落丰富度的定量度量,即包括丰富度richness和均匀度evenness两个层面),b.可观测的OTU(Observed OTUs,群落丰富度的定性度量,只包括丰富度),c.Faith

s系统发育多样性(包含特征之间的系统发育关系的群落丰富度的定性度量),d.均匀度Evenness(或 Pielou

s均匀度;群落均匀度的度量);2) β多样性包括:a.Jaccard距离(群落差异的定性度量,即只考虑种类,不考虑丰度),b.Bray-Curtis距离(群落差异的定量度量,较常用),c.非加权UniFrac距离(包含特征之间的系统发育关系的群落差异定性度量),d.加权UniFrac距离(包含特征之间的系统发育关系的群落差异定量度量)。
[0011]作为本专利技术的一种改进,所述4)中FastTree程序创建的是一个无根树,应用根中点法将树的根放置在无根树中最长端到端距离的中点,从而形成有根树。
[0012]本专利技术的有益效果是:本专利技术提供的一种肠道微生物16S rRNA的NGS数据分析方法本方法实施简单,节约成本,将序列和数据库进行相同处理后,提高了数据利用率,结果更加准确,可以实现更长读长测序的检测效果。
附图说明
[0013]图1为本专利技术所述的序列处理示意图。
具体实施方式
[0014]下面结合附图和具体实施方式,进一步阐明本专利技术,应理解下述具体实施方式仅用于说明本专利技术而不用于限制本专利技术的范围。
[0015]实施例:所述方法包括以下步骤:1) 数据库准备:首先从SILVA132和Dreengene13-8-16S数据库中找出能用V4通用引物扩出的序列,允许两个错配,把序列切去V4通用引物,获得254bp的序列,从正反两个方向分别截取125bp的序列,以适应测序序列的实际情况,然后将双向125bp的序列进行连接,获得一个长度均为250bp的序列;2) 特征分类训练器训练:通过使用qiime本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种肠道微生物16 S rRNA的NGS数据分析方法,其特征在于,所述方法包括以下步骤:数据库准备:首先从SILVA132和Dreengene13-8-16S数据库中找出能用V4通用引物扩出的序列,把序列切去V4通用引物,获得254bp的序列,从正反两个方向分别截取125bp的序列,然后将双向125bp的序列进行连接,获得一个长度均为250bp的序列;特征分类训练器训练:通过使用qiime2的朴素贝叶斯分类器对1)中的序列以及序列对应的分类信息进行训练并获得更准确的特征分类器;准确性评估:使用一个模拟的微生物群落,使用DADA2对混合测序样品进行推断,并且和真正的注释信息进行比较;多样性分析:使用mafft程序执行对代表序列进行多序列比对,流程屏蔽对齐的的高度可变区,应用FastTree基于过滤后的比对结果生成系统发育树;应用core-metrics-phylogenetic方法,该方法将特征表抽平到指定的最小合格样本测序深度,然后计算α和β多样性指数,并使用Emperor为每个β多样性指数生成主坐标分析图;导出分析结果至一个文本文档,以用于生成报告,使用R语言,查询微生物样本数据库,获得各样本用于生成报告的数据和指标,生成报告。2.根据权利1所述的肠道微生物16SrRNA的NGS数据分析方法,其特征在于,所述采用150PE的建库方式对16V4区进行扩增建库,获得原始下机数据。3.根据权利1所述的肠道微生物16SrRNA的NGS数据分析方法,其特征在于,原始下机数据通过index序列进行样本的数据拆分,切去接头序列,使用fastqc、multiqc软件进行质控。4.根据权利1所述的肠道...

【专利技术属性】
技术研发人员:董辉赵加栋金维荣秦红友周蓉
申请(专利权)人:申友基因组研究院南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1