人体菌群16S rDNA高通量测序物种精确鉴定的优化方法技术

技术编号:26036936 阅读:33 留言:0更新日期:2020-10-23 21:15
本发明专利技术公开了一种人体菌群16S rDNA高通量测序物种精确鉴定的优化方法,包括以下步骤:1)、建立基于人体微生物样品的人体宏基因组菌基因组数据库;2)、提取人体宏基因组菌基因组数据库的全长16S rDNA序列,建立不同人体部位的16S rDNA物种注释数据库;3)、建立样本‑菌种16S序列丰度相关性网络,并利用该数据训练机器学习模型。本发明专利技术还同时提供了利用构建所得的数据库和模型,对高通量测序16S rDNA序列进行物种鉴定和丰度计算的方法。本发明专利技术能大大提高16S rDNA的物种分类分辨率和准确度,使分析者能够根据结果找到更加准确和明确的菌种。

【技术实现步骤摘要】
人体菌群16SrDNA高通量测序物种精确鉴定的优化方法
本专利技术属于分子生物学、医学领域;尤其涉及一种针对人体菌群16SrDNA高通量测序物种精确鉴定的优化方法。
技术介绍
随着测序技术的成熟和成本的下降,人体微生物菌群相关的研究发现和累积了越来越多的菌群测序数据,并获得了大量菌群构成以及与人体健康、疾病和生活状态的相关数据。其中16SrDNA测序作为细菌和古细菌的通用序列,其测序成本低,通用性好,对样本要求低,因此成为菌群研究的中的主要研究技术手段。16SrRNA是细菌中的主要核糖体RNA,对应于基因组DNA上的一段基因序列成为16SrDNA。16SrDNA鉴定是指利用细菌16SrDNA序列测序的方法对细菌进行种属鉴定,包括细菌基因组DNA提取、16SrDNA特异性引物PCR扩增、DNA产物纯化以及DNA测序和序列比对等步骤,可以快速获得细菌种属的信息。16SrDNA普遍存在于原核生物中,在进化中演变极慢,具有多个高度保守的序列,也存在相对中度保守和可变的序列区域,可以通过序列的差异变化来对进化距离不同的各类生物进行亲缘关系的研究。16SrDNA全长大约1540个核苷酸,存在9个可变区域,目前的高通量测序既可对全长也可对其中的一个或多个可变区进行扩增测序,利用可变区序列的差异来对不同菌属、菌种细菌进行分类鉴定。现有的16SrDNA高通量测序分析方法中普遍采用与数据库直接比对,采用97%相似度的种属鉴定,即便采用16S全长测序进行比对,以99%的序列相似度进行种的分类,仍然受限于比对数据库不完整,部分细菌16S多样性不足无法区分,导致相当一部分序列的物种分类普遍只能到属,无法真实有效的鉴定人体中的微生物构成。例如当存在16S序列两个属序列完全相同,无法区分。这种情况在肠杆菌科中较为常见,其中肠杆菌科16S序列异常保守,通常仅能鉴定到科,部分种之间16S序列可能完全相同。如Enterobacterhormaechei和Klebsiella_pneumoniae两个物种的16S序列完全相同,这时常规的通过16S序列比对的方法是无法分辨的,但对此进行区分鉴别在临床中又具有重要意义。另外目前在大量使用的数据库如Greengene,RDP和Silva和NCBI均不是人体特定部位菌群的16S序列数据库,实际上微生物对于环境有着完全不同的适应性,特定环境下的菌群构成和常见菌存在极大的差异,如皮肤和肠道其同一个属的常见菌种完全不同,直接通过序列比对数据库最近似序列通常无法有效区分临近种,但这些种有着完全不同的生态适应特点。另外同一个种的细菌基因组内通常会包含不止一个16SrDNA拷贝,这些16SrDNA之间也是存在序列差异的,理论上这些多个拷贝16SrDNA会同时按基因组中出现的比例等比例出现,基于他们相互比例关系的信息可以用于进一步提高菌种的鉴定分辨率。由于之前对于宏基因组测序数据的缺乏,只有少量细菌基因组参考序列,且缺乏大规模宏基因组样本测序获得的相对丰度信息,以往的16SrDNA序列物种鉴定时无法利用序列构成丰度的相关性信息。
技术实现思路
本专利技术要解决的技术问题是提供一种人体菌群16SrDNA高通量测序物种精确鉴定的优化方法。为了解决上述技术问题,本专利技术提供一种人体菌群16SrDNA高通量测序物种精确鉴定的优化方法,依次包括以下步骤:1)、建立基于人体微生物样品的人体宏基因组菌基因组数据库;2)、提取人体宏基因组菌基因组数据库的全长16SrDNA序列,建立不同人体部位的16SrDNA物种注释数据库;3)、建立样本-菌种16S序列丰度相关性网络,并利用该数据训练机器学习模型;即,基于步骤1)和步骤2)中的测序数据构建样本-菌种16S序列丰度相关性网络,并利用该数据训练机器学习模型,利用同一样本中其他明确物种丰度预测判断16SrDNA序列无差异或相同序列相似度但物种注释不同的物种。具体应用时,还包括如下的步骤4):4)、高通量测序16SrDNA序列首先根据样本来源类型与步骤2)中对应的16S物种序列数据库进行序列比对,当出现序列无法区分物种时,将已确定物种的序列及其16SrDNA丰度数据利用步骤3)中的模型预测判断无法区分16SrDNA序列的物种归属。作为本专利技术的人体菌群16SrDNA高通量测序物种精确鉴定的优化方法的改进,所述步骤1)包括:1.1)、获得人体宏基因组测序数据;1.2)、获得人体病原微生物基因组序列;1.3)、获得人体宏基因组参考基因组序列;1.4)、对1.1)所得的来源于人体同一采样部位的人体宏基因组测序数据合并后,进行宏基因组组装、分箱和质量过滤(质量评估),完整度超过70%且污染少于10%的作为完整基因组;同一样本来源的完整基因组的fasta序列文件与同一来源的人体宏基因组参考基因组集(根据参考物种样本来源)的fasta序列文件以及全部人体病原微生物基因组的fasta序列文件分别合并成人体各组织部位宏基因组参考序列数据库(即,人体宏基因细菌宏基因数据库)序列文件。作为本专利技术的人体菌群16SrDNA高通量测序物种精确鉴定的优化方法的进一步改进,所述步骤1.1)人体宏基因组测序数据来源包括(但不限于以下来源):NCBI的sra数据库https://www.ncbi.nlm.nih.gov/sra;https://www.ebi.ac.uk/metagenomics/;按照WGS方式对来源于人类同一组织来源的样品进行测序,从而建立基于人体微生物样品的人体宏基因组测序数据库,因此人体宏基因组测序数据符合以下条件:物种为人类,测序方式为WGS(全基因组测序),有明确样品来源部位;所述步骤1.2)为下载目前已完成测序的人体病原微生物基因组序列;目前已完成测序的人体病原微生物基因组(人体病原菌基因组)序列的来源包括(但不限于以下来源):https://www.ncbi.nlm.nih.gov/pathogens/;所述步骤1.3)为下载已有的人体宏基因组参考基因组序列,包括(但不限于以下来源):https://data.ace.uq.edu.au/public/gtdb/data/releases/release89/89.0/;https://img.jgi.doe.gov/cgi-bin/m/main.cgi?section=MetagenomeBins&page=bindetail&type=byecosystem&ecosystem=Host-associated&ecosystem_category=Human;ftp://ftp.ebi.ac.uk/pub/databases/metagenomics/hgg_mags.tar.gz;https://www.ncbi.nlm.nih.gov/nuccore/?term=482748[BioProject]+AND+wgs+master[p本文档来自技高网
...

【技术保护点】
1.人体菌群16S rDNA高通量测序物种精确鉴定的优化方法,其特征是包括以下步骤:/n1)、建立基于人体微生物样品的人体宏基因组菌基因组数据库;/n2)、提取人体宏基因组菌基因组数据库的全长16S rDNA序列,建立不同人体部位的16SrDNA物种注释数据库;/n3)、建立样本-菌种16S序列丰度相关性网络,并利用该数据训练机器学习模型。/n

【技术特征摘要】
1.人体菌群16SrDNA高通量测序物种精确鉴定的优化方法,其特征是包括以下步骤:
1)、建立基于人体微生物样品的人体宏基因组菌基因组数据库;
2)、提取人体宏基因组菌基因组数据库的全长16SrDNA序列,建立不同人体部位的16SrDNA物种注释数据库;
3)、建立样本-菌种16S序列丰度相关性网络,并利用该数据训练机器学习模型。


2.根据权利要求1所述的人体菌群16SrDNA高通量测序物种精确鉴定的优化方法,其特征是:所述步骤1)包括:
1.1)、获得人体宏基因组测序数据;
1.2)、获得人体病原微生物基因组序列;
1.3)、获得人体宏基因组参考基因组序列;
1.4)、对1.1)所得的来源于人体同一采样部位的人体宏基因组测序数据合并后,进行宏基因组组装、分箱和质量过滤,完整度超过70%且污染少于10%的作为完整基因组;
同一样本来源的完整基因组的fasta序列文件与同一来源的人体宏基因组参考基因组集的fasta序列文件以及全部人体病原微生物基因组的fasta序列文件分别合并成人体各组织部位宏基因组参考序列数据库序列文件。


3.根据权利要求2所述的人体菌群16SrDNA高通量测序物种精确鉴定的优化方法,其特征是:
所述步骤1.1)人体宏基因组测序数据来源包括:
NCBI的sra数据库https://www.ncbi.nlm.nih.gov/sra;
https://www.ebi.ac.uk/metagenomics/;
按照WGS方式对来源于人类同一组织来源的样品进行测序,从而建立基于人体微生物样品的人体宏基因组测序数据库,因此人体宏基因组测序数据符合以下条件:物种为人类,测序方式为WGS,有明确样品来源部位;
所述步骤1.2)为下载目前已完成测序的人体病原微生物基因组序列;
目前已完成测序的人体病原微生物基因组序列的来源包括:
https://www.ncbi.nlm.nih.gov/pathogens/;
所述步骤1.3)为下载已有的人体宏基因组参考基因组序列,包括:
https://data.ace.uq.edu.au/public/gtdb/data/releases/release89/89.0/;
https://img.jgi.doe.gov/cgi-bin/m/main.cgi?section=MetagenomeBins&page=bindetail&type=byecosystem&ecosystem=Host-associated&ecosystem_category=Human;
ftp://ftp.ebi.ac.uk/pub/databases/metagenomics/hgg_mags.tar.gz;
https://www.ncbi.nlm.nih.gov/nuccore/?term=4827...

【专利技术属性】
技术研发人员:金谷雷牛耀芳
申请(专利权)人:杭州谷禾信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1