当前位置: 首页 > 专利查询>李智伟专利>正文

一种分析肠道菌群中致病菌和量化菌群地域特征的方法技术

技术编号:35573303 阅读:24 留言:0更新日期:2022-11-12 15:57
本发明专利技术公开一种基于测定肠道菌群16S rRNA序列,确定肠道菌群种类的方法,通过构建已知肠道菌群16S rRNA基因参比序列库,然后测定临床样本中16S rRNA序列,将两者进行比对并进行菌种鉴定确定致病菌的种类,并且与不同地区肠道菌群丰度注释数据库比较,确定待测样本来源的地区归属以及病理学特性以提供针对性的治疗。本发明专利技术的方法可快速确定肠道菌群具体种类并且提供致病菌致病注释数据,确定病患地区来源;提高了检测效率和精准度,可适用于常规肠道菌群检测、流行病预警和防控、辅助临床诊断等多类健康相关领域。诊断等多类健康相关领域。诊断等多类健康相关领域。

【技术实现步骤摘要】
一种分析肠道菌群中致病菌和量化菌群地域特征的方法


[0001]本专利技术属于人体肠道菌群检测领域,本专利技术涉及利用生物信息学技术对与人体健康相关的数百种致病菌进行高通量、高精度检测。并且能够量化描述肠道菌群的种族和地域特征。

技术介绍

[0002]肠道菌群就像是人体的另外一个器官,与我们的健康息息相关。人体肠道内居住着成千上万的细菌,而每个人肠道中的菌群特征是不同的。菌群特征的差异性又可以进一步关联到不同个体的生理特征或是健康状态。比如,通过检测肠道菌群中的致病菌种类,我们直接推断出某个体可能会面临的感染风险。世界卫生组织/国际癌症研究机构将幽门螺旋杆菌定为I类致癌原,因此如果某个体的肠道菌群中积累了足够量的幽门螺旋杆菌,我们可以及时预警患肠胃癌的风险。除了检测像致病菌这类与人体健康直接相关的微生物,肠道菌群还带有显著的地域特征。大量的研究表明,来自不同种族和地域的人群呈现出不同的菌群特征。因此,我们可以利用肠道菌群数据来量化菌群特征与个体种族或地域特征之间的吻合程度。这不仅能帮助我们更好的了解每个人肠道的特点,而且有利于提升基于肠道菌群的诊断和治疗方法的有效性。
[0003]目前针对致病菌的检测,常见的手段是通过采集人体组织样本(比如,血液、粪便、皮肤组织等),然后在实验室进行培养、观察、PCR扩增特异性引物,最后由专业人士鉴定。这种检测方式明显不足之处包括:1)致病菌检测范围小;2)需要一定的人力、时间和经济成本;3)容易引入实验误差和专业人员的主观判断偏差。另外,随着测序技术的快速发展,下一代测序技术开始成为一种重要的检测工具。其中,对单个菌株进行全基因组水平测序能够捕捉到完整的该菌株的基因组信息,但是在检测大量菌种场景中,由于价格高昂,很难应用于实际生产中。16S rRNA基因测序在成本上有明显优势,能够同时对肠道中大量细菌进行检测,但是目前大部分基于16S rRNA基因的宏基因组分析技术仅能鉴定到“属”级以上,而不能对差异性更大的“种”级进行鉴定。
[0004]最近,一些方法对基于16S rRNA宏基因组分析方法进行了优化
[1

2],他们能够实现仅依赖于16S rRNA也能将菌群中大部分的微生物鉴定到“种”级别。但是他们都缺乏对致病菌数据的细致整理(比如,详细致病性的的介绍、常见感染源、和相关预防建议等),同时也缺少对肠道菌群族和地域域特征分析的功能。这些功能不仅在辅助诊断领域起着重要作用,而且大大扩展了肠道菌群数据的商业应用场景。本专利技术的目的在提升利用16S rRNA全长测序信息在肠道菌群“种”水平的检测能力,同时扩展致病菌的检测范围和丰富致病菌的相关信息(比如,致病菌的来源,致病性,常见感染症状和科学预防建议)和量化待分析样本菌群构成与不同地区人群菌群构成的相似性。

技术实现思路

[0005]为解决上述技术问题,本专利技术基于16S rRNA基因全长(V1

V9区间)测序信息,通过
生物信息学技术与搭载在本专利技术中的数万种肠道菌群的16S rRNA基因数据库进行对比,从而检测出所测样本中肠道菌群的种类和载量。
[0006]本专利技术第一方面,公开了一种基于期望最大化算法的自动化分析流程,其用来鉴定肠道菌群中的微生物种类和量化其在样本中的丰度,其操作流程如图1所示。
[0007]具体操作流程为:
[0008]1.1)对输入的16S rRNA数据进行预处理,包括:
[0009](1)去除低质量测序数据;
[0010](2)只保留完整或者趋于完整的16S rRNA测序片段(长度在1200

1600bp);
[0011](3)将由测序仪生成的FASTQ文件格式转换为下游分析所需要的FASTA文件;
[0012]优选的,步骤(1)中,低质量测试数据为Nanopore测序所得数据中平均片段质量低于9的测序片段;
[0013]优选的,步骤(2)中,完整或者趋于完整的16S rRNA测序片段长度在1200

1600bp;
[0014]1.2)加载16S rRNA全长基因参考数据库到分析流程,分析流程根据数据库所包含的细菌种类,为所有细菌设置相同的初始丰度(比如,数据库包含N种细菌,则每种细菌的丰度为1/N);
[0015]1.3)分析流程调用序列比对软件(比如,minimap2,bowtie2或者BWA)
[3

5],将待分析样本中的每条16S rRNA片段与参考数据库中的16S rRNA片段进行一对一比对。分析流程将每对序列之间各个位点的比对结果记录下来,然后计算序列吻合概率。两条序列之间每对核酸的比对结果通过不同位点比对类型来表达。所有位点类型包括:错配位点(X),缺失或者插入位点(INDEL),剪切位点(S)和吻合位点(M);
[0016]1.4)通过每对序列之间不同的位点比对类型结果来计算两条序列吻合的概率P(a),c来自于所有位点比对类型C=[X,INDEL,S,M],P(c)为某个位点比类型的概率(比如,错配位点(X)的概率为P(X)=Nx/N,Nx为X类位点的个数,N为所有位点类型的总和)。当待分析样本中的多个16S rRNA片段与数据库中同一个参考16S rRNA序列吻合时,分析流程记录下所有吻合概率中的最大值。因为参考数据库中的每一条16S rRNA基因对应一种细菌,所以该细菌在待分析样本中检测到的概率即等于待分析16S rRNA基因片段与参考16S rRNA基因片段之间的概率P(a)。
[0017]1.5)将步骤1.2)中生成的所有细菌的初始丰度与步骤1.4)中所得的该细菌的概率导入期望最大化模型中迭代优化。期望最大化模型会基于上一次的分析结果来调整各种细菌的丰度以增加整体估算概率,经过多次迭代优化后,整体估算概率达到最大值,迭代终止。去除低概率菌种过后,分析所得的菌种类型及其丰度既可以反应待分析样本中菌群的构成和相应的丰度。
[0018]本专利技术第二方面,公开了一种高质量16S rRNA全长基因参考数据库。
[0019]所述数据库中,标记每条16S rRNA基因序列标注完整的细菌分类学命名(包括界、门、纲、目、科、属、种)。通过文献梳理,将参考数据库中的致病菌进行标注整理,生成一个关于包含致病菌详细信息的数据库。
[0020]优选的,所述致病菌详细信息包括致病菌的来源,致病性,常见感染症状和科学预
防建议。
[0021]优选的,数据库中16S rRNA 来源于原核生物;
[0022]进一步优选的,去除掉完全相同的16S rRNA序列和具有不同分类学名称但是序列完全相同的16S rRNA序列;
[0023]优选的,原核生物16S rRNA参考序列来源包括但不限于下表1所列物种或数据库来源:
[0024]表1常见致病菌物种
[0025][0026][0027][0028]distance)、杰卡德距离(Jaccard distan本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测肠道菌群中的微生物种类和量化其在样本中的丰度的操作系统,其特征在于,所述系统包括测序模块、自动化分析模块组成;其中,所述自动化分析模块由携带有参考数据库、携带序列比对算法的硬件和分析结果整合单元组成;所述参考数据库包含但不局限于说明书表1中所述肠道菌群16S rRNA基因片段序列数据,和/或说明书表2来源于https://www.ncbi.nlm.nih.gov/的53个宏基因组数据库,和/或,https://rrndb.umms.med.umich.edu/;https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA33175;https://www.ncbi.nlm.nih.gov/bioproject/PRJNA33317等网站注释的基因数据库中的一个或多个;所述操作系统运作方式如下:(1)使用所述测序模块对样品进行16S rRNA基因测序,获得新测序数据;(2)将所述新测序数据传输到所述自动化分析模块。(3)在所述自动化分析模块上,利用所述比对算法对新测序数据和参考数据库进行检索分析,输出结果。2.根据权利要求1所述的操作系统,其特征在于,所述肠道菌群16S rRNA基因片段序列中,每一个基因片段长度在1200

1600bp。3.根据权利要求2所述的操作系统,其特征在于,所述样品中,每个样品所测数据包含至少25000个高质量的测序片段。4.根据前述任一权利要求所述的操作系统,其特征在于,所述序列比对算法为,将所述新测序数据中的每一条测序片段与参考数据库中的每一条基因片段进行对比,为每一对比对序列生成相应的...

【专利技术属性】
技术研发人员:黄琨李智伟
申请(专利权)人:李智伟
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1