一种16S和宏基因组测序数据关联分析方法、系统及设备技术方案

技术编号:28127989 阅读:31 留言:0更新日期:2021-04-19 11:45
本发明专利技术是关于一种16S和宏基因组测序数据关联分析方法、系统及设备。该方案包括对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据;根据所述16S组学数据进行microPITA分析,获得代表性样本;根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有统计物种/功能统计,并图示化展示;进行物种/功能分布分析,获得两组学所有样本中物种/功能丰度变化和主要物种/功能类型;根据所述16S组学数据和所述宏基因组学数据进行相关性分析和环境因子关联分析。该方案提供16S与宏基因组测序数据关联分析方法,利用宏基因组扩展数据研究深度,利用16S验证宏基因组数据分析准确性,实现两组学数据的相互补充和验证。补充和验证。补充和验证。

【技术实现步骤摘要】
一种16S和宏基因组测序数据关联分析方法、系统及设备


[0001]本专利技术涉及数据处理和分析领域,尤其涉及一种16S和宏基因组测序数据关联分析方法、系统及设备。

技术介绍

[0002]微生物与生物,环境,生产等方方面面息息相关,扮演着重要的作用,其中人体微生物更是被认为人类第二基因组学。随着科技技术的发展,高通量测序也在不断普及。16S测序技术和宏基因组测序技术是两种重要的高通量测序手段。16S测序技术一般仅侧重研究群落的多样性变化,宏基因组测序侧重挖掘微生物群落的功能结构。
[0003]现有技术存在如下缺陷:虽可通过软件根据数据进行16S测序数据进行通路功能分析,但分析准确性有限,且受引物特异性、扩增偏好性、分辨率等影响;虽已有分析可以挖掘宏基因组中多样性研究,但数据量不足和组装效果不理想等因素制约着数据分析。

技术实现思路

[0004]为克服相关技术中存在的问题,本专利技术提供一种16S和宏基因组测序数据关联分析方法、系统及设备,从而解决单一16S测序数据和单一宏基因组测序数据分析中的缺陷。
[0005]根据本专利技术实施例的第一方面,提供一种16S和宏基因组测序数据关联分析方法。该方法包括:
[0006]对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据;其中,所述16S组学数据包括16S物种丰度表和16S功能丰度表,所述宏基因组学数据包括宏基因物种丰度表和宏基因功能丰度表;
[0007]根据所述16S组学数据进行microPITA分析,获得代表性样本;
[0008]根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示;
[0009]根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型;
[0010]根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pea rson相关系数、mantel test分析、procrustes test分析;
[0011]根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析。
[0012]优选地,所述对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据,具体包括:
[0013]对所述样本进行16S rDNA测序,获得所述16S物种丰度表,利用PICR USt2软件预测,获得所述16S功能丰度表;
[0014]对所述样本进行宏基因组测序,获得所述宏基因物种丰度表和所述宏基因功能丰度表;
[0015]其中,所述宏基因功能丰度表和所述16S功能丰度表都包括KEGG功能的level B丰
度表和level C丰度表。
[0016]优选地,所述根据所述16S组学数据进行microPITA分析,获得代表性样本,具体包括:
[0017]根据所述16S组学数据,利用筛选指标挑选代表性样本,其中,所述筛选指标包括diverse,extreme,representative,distinct,discriminant;
[0018]利用microPITA软件在所述16S组学数据中获取所述代表性样本的样本信息;
[0019]利用R语言vegan包对16S OTU丰度表进行bray

curtis距离PCoA分析,获得所有样本在二维空间的分布特征,同时在图形中可标记MicroPITA筛选出的代表性样本。
[0020]优选地,所述根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示,具体包括:
[0021]基于各物种分类水平和KEGG功能的level B丰度表和level C丰度表,使用R语言的VennDiagram包和upsetR包,以0为阈值,进行韦恩分析;
[0022]使用韦恩图和upset图展示所述16S组学数据和所述宏基因组学数据的共有、特有元素的数量;
[0023]使用Lefse软件在物种层级进化分支树上标记16S和宏基因组鉴定到的共有、特有物种。
[0024]优选地,所述根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型,具体包括:
[0025]挑选所述16S组学数据中各分类水平排名前10的物种/功能,并存储为第一16S物种/功能;
[0026]挑选所述宏基因组学数据中各分类水平排名前10的物种/功能,并存储为第一宏基因物种/功能;
[0027]对所述第一16S物种/功能与所述第一宏基因物种/功能取并集,并保存;
[0028]从所述宏基因组学数据和所述16S组学数据中除去所述第一16S物种/功能与所述第一宏基因物种/功能的并集,并将已知的物种/功能划标注为other,将未知物种/功能标注为unclassified;
[0029]使用R语言ggplot2包绘制两组学所有样本中物种/功能丰度变化和两组学鉴定到的主要物种/功能类型,其中,所述两组学包括所述16S组学数据和所述宏基因组学数据。
[0030]优选地,所述根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数分析、mantel test分析、procrustes test分析;
[0031]所述pearson相关系数分析具体操作为:将所述16S组学数据和所述宏基因组学数据中所有样本的丰度数据进行对数转化后,使用R语言psych包计算所述16S组学数据和所述宏基因组学数据的pearson相关系数,并使用Fizh

Z 变换计算相关显著性,并图示化展示数据分析结果;
[0032]所述mantel test分析具体操作为:基于所述16S组学数据中的16S物种/ 功能数据,计算样本间的Bray

curtis距离矩阵;基于所述宏基因组学数据中的宏基因组物种/功能数据,计算样本间的Bray

curtis距离矩阵;使用R语言veg an包,对两组学的距离矩阵进行mantel test分析,进而计算各物种/功能分类水平下16S和宏基因组测序结果的相关性,
通过permutation置换检验999次,计算相关显著性,并图示化展示数据分析结果;
[0033]所述procrustes test分析具体操作为:使用R语言Vegan包,根据各分类水平两组学物种/功能Bray

curtis距离的PCoA结果,开展Procrustes分析,并使用permutation test进行相关显著性检验,并图示化展示数据分析结果;
[0034]其中,所述两组学包括所述16S组学数据和所述宏基因组学数据。
[0035]优选地,所述根据所述16S组学数据和所述宏基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种16S和宏基因组测序数据关联分析方法,其特征在于,包括:对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据;其中,所述16S组学数据包括16S物种丰度表和16S功能丰度表,所述宏基因组学数据包括宏基因物种丰度表和宏基因功能丰度表;根据所述16S组学数据进行microPITA分析,获得代表性样本;根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示;根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型;根据所述16S组学数据和所述宏基因组学数据进行相关性分析,包括pearson相关系数、mantel test分析、procrustes test分析;根据所述16S组学数据和所述宏基因组学数据进行环境因子关联分析。2.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述对样本进行16S测序和宏基因测序,获取16S组学数据和宏基因组学数据,具体包括:对所述样本进行16S rDNA测序,获得所述16S物种丰度表,利用PICRUSt2软件预测,获得所述16S功能丰度表;对所述样本进行宏基因组测序,获得所述宏基因物种丰度表和所述宏基因功能丰度表;其中,所述宏基因功能丰度表和所述16S功能丰度表都包括KEGG功能的level B丰度表和level C丰度表。3.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述根据所述16S组学数据进行microPITA分析,获得代表性样本,具体包括:根据所述16S组学数据,利用筛选指标挑选代表性样本,其中,所述筛选指标包括diverse,extreme,representative,distinct,discriminant;利用microPITA软件在所述16S组学数据中获取所述代表性样本的样本信息;利用R语言vegan包对16S OTU丰度表进行bray

curtis距离PCoA分析,获得所有样本在二维空间的分布特征,同时在图形中可标记MicroP ITA筛选出的代表性样本。4.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述根据所述16S组学数据和所述宏基因组学数据进行韦恩分析,获得共有和特有的物种/功能统计,并图示化展示,具体包括:基于各物种分类水平和KEG6功能的level B丰度表和level C丰度表,使用R语言的VennDiagram包和upsetR包,以0为阈值,进行韦恩分析;使用韦恩图和upset图展示所述16S组学数据和所述宏基因组学数据的共有、特有元素的数量;使用Lefse软件在物种层级进化分支树上标记16S和宏基因组鉴定到的共有、特有物种。5.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述根据所述16S组学数据和所述宏基因组学数据进行物种/功能分布分析,获得所述16S组学数据和宏基因组学数据中的物种/功能丰度变化和鉴定到的主要物种/功能类型,具体包
括:挑选所述16S组学数据中各分类水平排名前10的物种/功能,并存储为第一16S物种/功能;挑选所述宏基因组学数据中各分类水平排名前10的物种/功能,并存储为第一宏基因物种/功能;对所述第一16S物种/功能与所述第一宏基因物种/功能取并集,并保存;从所述宏基因组学数据和所述16S组学数据中除去所述第一16S物种/功能与所述第一宏基因物种/功能的并集,并将已知的物种/功能划标注为other,将未知物种/功能标注为unclassified;使用R语言ggplot2包绘制两组学所有样本中物种/功能丰度变化和两组学鉴定到的主要物种/功能类型,其中,所述两组学包括所述16S组学数据和所述宏基因组学数据。6.根据权利要求1所述的一种16S和宏基因组测序数据关联分析方法,其特征在于,所述根据所述16S组学数据和所述宏基...

【专利技术属性】
技术研发人员:高川周煌凯陈飞钦艾鹏张秋雪
申请(专利权)人:广州基迪奥生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1