病原微生物宏基因组生信分析参考品及其制备方法和应用技术

技术编号:33502519 阅读:24 留言:0更新日期:2022-05-19 01:12
本发明专利技术涉及一种病原微生物宏基因组生信分析参考品及其制备方法和应用,属于基因检测技术领域。该方法包括以下步骤:建立丰度分布模型:收集临床样本的宏基因组检测数据,建立自变量为测序序列数目因变量为相对丰度的高斯回归模型;标准化高通量测序数据生成:获取参考基因组序列,模拟生成每种微生物物种预定读长和预定测序错误率的高通量序列数据;Gamma

【技术实现步骤摘要】
病原微生物宏基因组生信分析参考品及其制备方法和应用


[0001]本专利技术涉及基因检测
,特别是涉及一种病原微生物宏基因组生信分析参考品及其制备方法和应用。

技术介绍

[0002]病原微生物宏基因组技术不依赖于传统的微生物培养,能够快速、无偏差检测临床样本中多种微生物,该项技术解决了临床极大的病原学诊断问题,越来越多的医院将此项技术落地和转化。
[0003]但该检测方法由于整体流程复杂,目前仍然缺乏规范化的评价准则和适用的参考品。尤其对于宏基因组学中引起最广泛讨论的生物信息学分析流程,需要一套具有代表性和科学性的生物信息学分析性能确认参考品及其制备的相应技术,仍处于缺失的状态。
[0004]为此,国内外已有科学家进行了一些研究,得到了一些制备宏基因组模拟数据的软件和算法。但由于病原宏基因组技术检测出的结果包含临床样本中的致病原、人体微生态定植菌群和试剂工程菌等复杂的成分,仅通过简单地模拟是无法实现真正对病原宏基因组生物信息流程的性能确认。

技术实现思路

[0005]基于此,有必要针对上述问题,提供一种病原微生物宏基因组生信分析参考品的制备方法,采用该方法制备得到的生信分析参考品,可全面地评估生物信息分析流程的灵敏度、特异度、召回率和准确性。
[0006]一种病原微生物宏基因组生信分析参考品的制备方法,包括以下步骤:建立丰度分布模型:收集临床样本的宏基因组检测数据,按照样本类型,针对各微生物物种,分别建立自变量为测序序列数目、因变量为相对丰度的高斯回归模型,得到各微生物物种的丰度高斯分布模型,并获得每种微生物的均值和方差;标准化高通量测序数据生成:获取上述各微生物物种的参考基因组序列,模拟生成每种微生物物种预定读长和预定测序错误率的高通量序列数据,即为标准化高通量测序数据;Gamma

泊松分布模型:以Gamma

泊松分布模型方式拟合所述临床样本的宏基因组检测数据,获得模型参数,并建立Gamma

泊松分布模型;参考品制备:以上述Gamma

泊松分布模型随机产生一组模拟样本序列数据,并根据所述丰度高斯分布模型生成每一种微生物的序列数,再从所述标准化高通量测序数据中随机挑选相同数目的测序数据,将每种微生物挑选出的序列合并,即得所述生信分析参考品。
[0007]上述病原微生物宏基因组生信分析参考品的制备方法,首先收集临床宏基因组检测数据(肺泡灌洗液、痰液、血液、脑脊液及其他体液等各种不同类型的生物样本)。利用高斯回归模型统计和建立不同微生物的序列及相对丰度分布模型。同时通过全基因组的进化
分析,选择最近源的参考基因组。之后再根据临床样本情况,选择gamma

泊松分布模型进行拟合后建立模型,用于随机挑选微生物参考基因组上产生的高通量测序序列。并根据高斯分布模型和已经建立的微生物序列Gamma

泊松分布模型,随机选择该生物的序列数,从而随机产生已知结果的宏基因组检测数据。该数据可作为生信分析参考品,用于全面地评估生物信息分析流程的灵敏度、特异度、召回率和准确性。
[0008]本领域技术人员知晓,上述宏基因组检测数据,也同时表示宏转录组检测数据,其具体是根据病原微生物的具体类型而定。
[0009]在其中一个实施例中,所述样本类型为:肺泡灌洗液、痰液、血浆和脑脊液。上述类型的样本,已基本可以涵盖现行宏基因组检测样本类型。
[0010]在其中一个实施例中,所述微生物物种包括:致病病原微生物、人体微生态定植菌群和试剂工程菌。可以理解的,本领域技术人员知晓,所述致病病原微生物的具体种类可根据ABX指南和临床微生物手册等所收录的临床致病病原体物种列表选取,也可根据临床共识、论文等进行调整。例如:人体微生态定植菌群包括Propionibacterium_acnes,Comamonas_terrigena,Delftia_acidovorans,Staphylococcus_epidermidis,Veillonella_parvula,Streptococcus_parasanguinis(副溶血链球菌),Streptococcus_mitis,Streptococcus_oralis,Corynebacterium_striatum,Haemophilus_parainfluenzae等等;试剂工程菌包括Acinetobacter_guillouiae(桂林不动杆菌),Acinetobacter_johnsonii(约氏不动杆菌),Sphingomonas_melonis,Comamonas_terrigena,Moraxella_osloensis,Sphingobium_yanoikuyae,Malassezia_restricta,Pseudomonas_fulva,Pseudomonas_stutzeri,Delftia_tsuruhatensis等等。
[0011]在其中一个实施例中,所述预定读长为:50bp,75bp,150bp和300bp;所述标准化高通量测序数据的深度为10X。以上述方式制备得到的参考品,读长上具有广泛地代表性,目前这几种读长的测序策略均为病原宏基因和其他宏基因组学研究常用的测序策略,能够很好地验证现有及未来开发的病原宏基因组生信分析流程;所选择的深度能够很好地保证微生物全基因组都被模拟生成的序列覆盖等优势。
[0012]在其中一个实施例中,所述各微生物物种的参考基因组序列通过以下方法选取:计算微生物平均基因核苷酸相似度,计算同一个物种内每一个基因组与其他基因组的相似度,并通过PAM聚类算法计算相似度矩阵的中心点,以所述中心点所属的物种基因组作为参考基因组。
[0013]可以理解的,上述相似度的计算可通过本领域常规软件,如FastANI(v1.0)等软件实现。通过上述方式得到的参考基因组序列,更具有代表性。
[0014]在其中一个实施例中,所述Gamma

泊松分布模型参数包括:每一个微生物物种分别在肺泡灌洗液、痰液、血浆和脑脊液中的均值、方差及根据Gamma

泊松分布模型拟合的离散度。
[0015]在其中一个实施例中,在所述参考品制备步骤之后,还包括指定病原体参考品制备步骤,所述指定病原体参考品制备步骤中,获取指定病原体的参考基因组序列,模拟生成系列梯度数量的高通量测序数据,并将其合并至所述生信分析参考品中,即得指定病原体参考品。
[0016]可以理解的,对于系列梯度数量的具体设计,可根据评估要求进行选择,如100,
000条、10,000条、1,000条、100条、10条的高通量测序数据等。
[0017]在其中一个实施例中,统计每个临床样本出现的最大致病病原微生物种类数量,所述指定病原体的数量上限,不大于单个样本中出现的病原体种类数量均值加3倍标准差。将指定病原体的数量限定在上述范围,根据3σ定理,该范围具有保证所模拟产生的数据所包括的物种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种病原微生物宏基因组生信分析参考品的制备方法,其特征在于,包括以下步骤:建立丰度分布模型:收集临床样本的宏基因组检测数据,按照样本类型,针对各微生物物种,分别建立自变量为测序序列数目、因变量为相对丰度的高斯回归模型,得到各微生物物种的丰度高斯分布模型,并获得每种微生物的均值和方差;标准化高通量测序数据生成:获取上述各微生物物种的参考基因组序列,模拟生成每种微生物物种预定读长和预定测序错误率的高通量序列数据,即为标准化高通量测序数据;Gamma

泊松分布模型:以Gamma

泊松分布模型方式拟合所述临床样本的宏基因组检测数据,获得模型参数,并建立Gamma

泊松分布模型;参考品制备:以上述Gamma

泊松分布模型随机产生一组模拟样本序列数据,并根据所述丰度高斯分布模型生成每一种微生物的序列数,再从所述标准化高通量测序数据中。2.根据权利要求1所述的病原微生物宏基因组生信分析参考品的制备方法,其特征在于,所述样本类型为:肺泡灌洗液、痰液、血浆和脑脊液。3.根据权利要求1所述的病原微生物宏基因组生信分析参考品的制备方法,其特征在于,所述微生物物种包括:致病病原微生物、人体微生态定植菌群和试剂工程菌。4.根据权利要求1所述的病原微生物宏基因组生信分析参考品的制备方法,其特征在于,所述预定读长为:50bp,75bp,150bp和300bp;所述标准化高通量测序数据的深度为10X。5.根据权利要求1所述的病原微生物宏基因组生信分析参考品的制...

【专利技术属性】
技术研发人员:杨启文朱盈贾沛瑶喻玮杨斌刘慧芳韩士瑞
申请(专利权)人:广州微远基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1