一种检测样本中微生物和耐药基因的方法和系统技术方案

技术编号:27747410 阅读:11 留言:0更新日期:2021-03-19 13:42
本发明专利技术公开了一种检测样本中微生物的方法,属于宏基因组分析技术领域,所述包括以下步骤:S1,获得所述样本的宏基因组测序数据;S2,对所述宏基因组测序数据进行物种分析。进一步还包括对所述样本的宏基因测序数据进行耐药基因分析的步骤。本发明专利技术还公开了检测样本中微生物和耐药基因的系统。本发明专利技术基于全面且准确地数据库,并加上智能化的分析与筛选算法,利用宏基因组测序方法有效鉴定病原微生物和耐药基因,有效降低假阳性,且可提示检测的耐药基因疑似对应的细菌,为感染精准诊疗提供更好的技术支持,另外,本发明专利技术的方法和系统还可以准确分析潜在的新发病原微生物,为新发传染病的预警提供技术支持。

【技术实现步骤摘要】
一种检测样本中微生物和耐药基因的方法和系统
本专利技术属于宏基因组分析
,具体地,涉及一种检测样本中微生物和耐药基因的方法和系统。
技术介绍
由病原微生物导致的感染性疾病,尤其是重症肺炎、脓毒血症和脑炎脑膜炎为主的疑难危重感染性疾病的病原鉴定困难,一直是感染病临床医师面临的一个关键问题,故精确的病原微生物鉴定是精准感染治疗至关重要的步骤。传统的病原微生物检测技术主要分为两类:基因细胞培养的方法和基于特异性引物或抗体(分子检测)的方法如PCR检测、多重PCR检测和抗原抗体杂交反应等。目前临床常规病原检测方法以细菌/真菌培养、病毒PCR与感染免疫标志物为主,但分离培养阳性率偏低(15%-20%)且周期过长(3-5天),而分子检测与血清学检测虽然可扩大病原体的检测范围,但存在检测目标固定单一的局限,其难以应对因个体差异、混合感染、罕见感染和国际旅行等因素引起的疑难/复杂感染。而以高通量测序为基础的病原宏基因组学技术可在一定程度上提升时效性、敏感性和鉴定精确度。相比传统技术,高通量测序直接测序可以快速一次性检测包括细菌、真菌、病毒和寄生虫等上千种病原体,且特别适用于罕见、新发和非典型的复杂传染病的病原检测。同时可检测细菌的耐药性、毒力性进行分析。病原宏基因组学由于其高灵敏度性、高效性、覆盖范围广和成本效益,有望部分取代传统检测方法,成为感染病诊治与传染病防控的革新性方法。然而,目前利用宏基因组测序检测样本中微生物的方法存在下机数据分析时间长、微生物比对准确度低、未能有效过滤背景和污染微生物、未能有效区分背定植或感染微生物、未能有效鉴定多重耐药细菌及混合感染、未有效对检测的耐药基因与微生物建立关联、未能有效鉴定新发病原体等不足。
技术实现思路
为了解决上述技术问题中的至少一个,本专利技术建立了一种检测样本中微生物和/或耐药基因的系统和方法,具体采用的技术方案如下:本专利技术第一方面提供一种检测样本中微生物的方法,包括以下步骤:S1,获得所述样本的宏基因组测序数据;S2,对所述宏基因组测序数据进行物种分析:S21,利用微生物比对数据库,基于K-mer算法对所述宏基因组测序数据进行比对分析,获得微生物比对结果,S22,利用微生物注释数据库,对所述微生物比对结果进行注释,获得微生物注释结果,S23,对所述微生物注释结果进行初步过滤:a)过滤比对置信度小于第一预设阈值的序列;b)过滤丰度低于第二预设阈值的微生物;c)结合样本类型信息,过滤背景或污染微生物以及定植微生物,从而获得候选微生物信息,S24,利用微生物代表基因组数据库,比对获得的所述候选微生物信息的覆盖率,过滤覆盖率小于第三预设阈值或非连续的比对区域数小于第四预设阈值的微生物,从而获得所述样本中的微生物信息。在本专利技术中,所述样本为任意可包含微生物的生物样本,优选地是,为被感染的人的生物样本,更优选地,为人的体液样本。在本专利技术中,所述微生物包括但不限于细菌、真菌、病毒、寄生虫和古菌。在本专利技术的一些实施方案中,由于微生物的多样性,需要对由于所述样本的核酸提取分别进行。对于不包含RNA病毒的生物样本,仅需提取DNA并制备测序文库。对于包含RNA病毒的生物样本,需要同时提取RNA样本,进行反转录后制备测序文库,与DNA测序文库一起上机测序。在本专利技术的一些实施方案中,所述样本的宏基因组测序数据可以由任意二代测序平台或三代测序平台获得。在本专利技术中,所述方法适用于短读长测序、长读长测序数据,支持单端、双端测序数据,也可支持组装草图序列数据。进一步地,在步骤S2之前,进一步包括对宏基因组测序数据进行前处理(质控和质检)和去除宿主序列的步骤:(1)前处理:a)质控:包括去除接头序列、低质量及重复序列等,得到高质量测序数据;b)根据质控分析的统计信息进行质检,如符合质量标准,则执行后续分析。(2)去除宿主核酸序列:将通过质控和质检的高质量测序数据比对到样本宿主的参考基因组上(来源于NCBI中RefSeq数据库),过滤宿主核酸序列,得到cleandata。在本专利技术的一些实施方案中,所述微生物比对数据库包括但不限于:NCBINT库、RefSeq和GenBank库、病毒参考序列库IMG_VR、真菌和寄生虫参考序列库eupathdb。在本专利技术的一些优选实施方案中,所述微生物比对数据库还可以包括自建数据库,所述自建数据库是基于大量微生物样本建立的。在本专利技术的一些实施方案中,所述微生物注释数据库根据微生物类型按照细菌、真菌、古菌、寄生虫和病毒进行归类,数据库中包括但不限于科、属、种、基因型、血清型、微生物中文名、拉丁文名、定植部位、感染部位、致病性、关联疾病、传播途径、革兰氏类型、核酸类型、微生物简介和参考文献信息。在本专利技术的一些实施方案中,所述微生物代表基因组数据库是在微生物比对数据库的基础上,优先选取RefSeq数据库的序列,其次是从GenBank和nt数据库选取完整地、高质量序列。在本专利技术的一些具体实施方案中,首先以种为单位,统计各菌株的序列数量和总序列长度,并计算总序列长度的中位数(记为Lmedian);然后对不同类别的微生物设置序列数量的阈值筛选菌株,即细菌序列数量低于300,真菌序列数量低于1000、古菌序列数量低于300、病毒序列数量低于10、寄生虫序列数量低于2000;最后挑选序列数量最少,且总序列长不低于0.9×Lmedian,且不高于1.1×Lmedian的菌株作为物种代表序列,如符合标准的菌株存在多株,则任意选取一株作为物种代表序列,如无符合筛选标准的菌株,则表示该物种无代表基因组。在本专利技术的一些实施方案中,在所述步骤S21中,所述微生物对比结果包括但不限于种拉丁名、种水平序列数、种水平相对丰度、属拉丁名、属水平序列数、属水平相对丰度、属内各个种的序列占比、科拉丁名、科水平序列数、科水平相对丰度、科内各个属的序列占比和分类学谱系信息。进一步地,在步骤S22之前,还包括对S21获得的微生物比对结果进行校正的步骤:S2101,以科为单元进行检索,若注释到各个属的序列总和占该科序列总数小于50%,且该科的相对丰度大于15%,则:a)将注释到该科的reads提取并组装成contig;b)将reads比对到contig,记录read与contig的对应关系;c)将contig比对到微生物比对数据库,获得比对的物种拉丁名和contig覆盖度;d)结合b)和c)的结果,更新属水平序列数、属相对丰度和科内各个属的序列占比,S2102,以属为单元进行检索,若注释到各个种的序列总和占该属序列总数小于50%,且该属的相对丰度大于15%,则:a)将注释到该属的read提取并组装成contig;b)将read比对到contig,记录read与contig的对应关系;c)将contigs比对到微生物比对数据库,获得比对的物种拉丁名和contig覆盖度;d)结合b和c的结果本文档来自技高网
...

【技术保护点】
1.一种检测样本中微生物的方法,其特征在于,包括以下步骤:/nS1,获得所述样本的宏基因组测序数据;/nS2,对所述宏基因组测序数据进行物种分析:/nS21,利用微生物比对数据库,基于K-mer算法对所述宏基因组测序数据进行比对分析,获得微生物比对结果,/nS22,利用微生物注释数据库,对所述微生物比对结果进行注释,获得微生物注释结果,/nS23,对所述微生物注释结果进行初步过滤:a)过滤比对置信度小于第一预设阈值的序列;b)过滤丰度低于第二预设阈值的微生物;c)结合样本类型信息,过滤背景或污染微生物以及定植微生物,从而获得候选微生物信息,/nS24,利用微生物代表基因组数据库,比对获得的所述候选微生物信息的覆盖率,过滤覆盖率小于第三预设阈值或非连续的比对区域数小于第四预设阈值的微生物,从而获得所述样本中的微生物信息。/n

【技术特征摘要】
1.一种检测样本中微生物的方法,其特征在于,包括以下步骤:
S1,获得所述样本的宏基因组测序数据;
S2,对所述宏基因组测序数据进行物种分析:
S21,利用微生物比对数据库,基于K-mer算法对所述宏基因组测序数据进行比对分析,获得微生物比对结果,
S22,利用微生物注释数据库,对所述微生物比对结果进行注释,获得微生物注释结果,
S23,对所述微生物注释结果进行初步过滤:a)过滤比对置信度小于第一预设阈值的序列;b)过滤丰度低于第二预设阈值的微生物;c)结合样本类型信息,过滤背景或污染微生物以及定植微生物,从而获得候选微生物信息,
S24,利用微生物代表基因组数据库,比对获得的所述候选微生物信息的覆盖率,过滤覆盖率小于第三预设阈值或非连续的比对区域数小于第四预设阈值的微生物,从而获得所述样本中的微生物信息。


2.根据权利要求1所述的方法,其特征在于,在步骤S22之前,进一步包括对S21获得的微生物比对结果进行校正的步骤:
S211,以科为单元进行检索,若注释到各个属的序列总和占该科序列总数小于50%,且该科的相对丰度大于15%,则:
a)将注释到该科的reads提取并组装成contig;
b)将reads比对到contig,记录read与contig的对应关系;
c)将contig比对到微生物比对数据库,获得比对的物种拉丁名和contig覆盖度;
d)结合b)和c)的结果,更新属水平序列数、属相对丰度和科内各个属的序列占比,
S2102,以属为单元进行检索,若注释到各个种的序列总和占该属序列总数小于50%,且该属的相对丰度大于15%,则:
a)将注释到该属的read提取并组装成contig;
b)将read比对到contig,记录read与contig的对应关系;
c)将contigs比对到微生物比对数据库,获得比对的物种拉丁名和contig覆盖度;
d)结合b)和c)的结果,更新种水平序列数、种相对丰度和属内各个种的序列占比,
由此,得到校正后的微生物比对结果。


3.根据权利要求1或2所述的方法,其特征在于,在所述步骤S21中,所述微生物对比结果包括种拉丁名、种水平序列数、种水平相对丰度、属拉丁名、属水平序列数、属水平相对丰度、属内各个种的序列占比、科拉丁名、科水平序列数、科水平相对丰度、科内各个属的序列占比和分类学谱系信息。


4.根据权利要求1或2所述的方法,其特征在于,在所述步骤S22中,所述微生物注释结果包括微生物名称、微生物类别、定植部位、感染部位、致病性、关联疾病和传播途径。


5.根据权利要求1或2所述的方法,其特征在于,在所述步骤S23中,所述过滤比对置信度小于第一预设阈值的序列是指过滤比对上该物种的kmer数量占总kmer数量的比例低于第一预设阈值的序列;所述过滤丰度低于第二预设阈值微生物,是指按不同的微生物类别进行归类,并分别按丰度从高到低进行排序,对不同的微生物类别设置不同的丰度阈值,过滤低于丰度阈值的微生物。


6.根据权利要求1或2所述的方法,其特征在于,进一步包括:S3,对所述宏基因组测序数据进行耐药基因分析:
S31,利用耐药基因数据库,对所述宏基因组测序数据进行比对分析,获得预测的耐药基因信息;
S32,对所述预测的耐药基因信息进行过滤,过滤掉覆盖率小于10%的耐药基因,从而得到最终的耐药基因信息。


7.根据权利要求3所述的方法,其特征在于,进一步包...

【专利技术属性】
技术研发人员:林德春金桃张智闵詹太平蒋华
申请(专利权)人:广东美格基因科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1