一种基于机器学习的背景菌判定方法技术

技术编号:32297375 阅读:11 留言:0更新日期:2022-02-12 20:08
本申请涉及生物信息学技术领域,具体公开一种采用机器学习的背景菌判定方法,所述方法可应用于临床血液样本等的背景菌预测,在不影响报告灵敏度的同时,有效提升报告的特异性,输出更接近临床诊断的结果。输出更接近临床诊断的结果。输出更接近临床诊断的结果。

【技术实现步骤摘要】
一种基于机器学习的背景菌判定方法


[0001]本申请涉及生物信息学
,具体涉及一种基于机器学习的背景菌判定方法及其应用。
技术背景
[0002]已知可引起人类疾病的微生物多于1000种,病原学的探寻始终是感染性疾病诊治的重要环节,对于一些类型的感染性疾病,病因的探求仍然存在很大的困难,尤其对于血流感染,超过50%尚不能明确病因。宏基因组下一代测序(metagenomic next

generation sequencing,mNGS)技术直接针对标本中核酸无偏倚检测病原微生物序列,经标本前处理、核酸提取、文库制备、上机测序、数据库比对、报告生成及结果解读等一系列过程,具有周期短、灵敏度高、广覆盖等技术优势,已成为感染检测的重要手段。
[0003]但由于mNGS灵敏度高常常检出了较多背景菌,包括采样引入的污染菌、实验室环境污染菌、试剂工程菌等都容易被检测到,检出频率与序列数随着不同的批次实验,不同的背景菌也有各自特点,且肺炎克雷伯菌、铜绿假单胞菌、大肠埃希氏菌等临床重点关注的病原菌都可能以背景菌的形式被检测到,这直接影响到干扰后续的临床报告的解读。另外,当样本质量不佳,如发生溶血/血脂等,对后续实验提取等产生较大影响,进而放大环境背景菌,干扰报告解读的准确性。
[0004]目前,对于背景菌的判断往往参考同批实验样本(包括阴性对照样本)检出情况及历史样本检出数据,如基于与同批阴性样本(或历史样本检出水平)检出序列数比值是否超过阈值等方法,然而历史样本与当下临床样本检出的背景菌会存在一定的波动,阴控样本与实际血液样本检出病原谱也存在差异,故基于历史样本或阴控背景菌判读方法存在假阳性高、滞后性的问题,误差大等问题。
[0005]针对上述问题,本申请基于机器学习方法探索其背景菌水平判定的可行性,实践中主要技术门槛如下:
[0006]1)样本量需要足够的积累:对某类样本类型,如血液,本申请依托金匙医学检验所近千例合格的临床血液样本(如样本未发生溶血),这些样本经过了相同的湿实验流程和干实验分析流程,有效的数据为模型构建奠定了基础。
[0007]2)准确可靠的金匙病原湿实验分析流程:从样本前处理,到提取建库,上机环节均有标准SOP流程,部分实验方法进行流程优化,且进行专利保护。
[0008]3)准确可靠的金匙病原检测软件:从生信分析软件(如创新性的生信假阳性过滤算法)和数据库(高效的去人源序列数据库,高质量的病原基因组库)两方面为准确分析样本检出物种谱奠定了坚实基础,且该流程经过了临床研究数据验证,相关数据已在高分文献中发表。
[0009]4)初步确定影响背景菌检出的关键特征:在临床大量样本报告解读过程中锁定了影响背景菌检出的重要湿实验关键特征(提取浓度、扩增效率)和干实验指标(宿主比例、物种检出标准化序列数),这些有效特征为基于样本自身实时预测背景菌载量奠定了基础。
[0010]5)将机器学习算法运用到mNGS背景菌载量预测场景且模型性能良好:利用机器学习算法如随机森林、逻辑回归、SVM等对宏基因组数据进行模型构建多见于肠道菌群与疾病预测方向,如基于粪便肠道菌群预测癌症的发生等。但在病原检测应用场景中,应用机器学习方法去尝试解决mNGS背景菌载量的可行性尚无报道。经验证,机器学习模型在实际临床样本实例数据中表现良好,可以有效预测样本背景菌载量,为报告解读人员加快解读效率的同时,排除背景菌干扰提供了有效依据,大大降低了漏报和误报的风险。

技术实现思路

[0011]本申请目的是寻求一种基于机器学习的背景菌判定方法及应用,尤其对临床血液样本的背景菌判定方法及应用。
[0012]为实现上述目的,本申请提出如下技术方案:
[0013]本申请首先提供一种基于机器学习的测序数据背景菌判定方法,包括如下步骤:
[0014]1)获得样本特征数据,
[0015]所述样本特征数据包括核酸提取浓度、扩增效率、宿主比例和物种检出标准化序列数;
[0016]2)模型训练,基于特征数据采用随机森林模型进行模型训练,
[0017]3)背景菌预测。
[0018]进一步的,所述1)获得样本特征数据的步骤为:
[0019]a、湿实验阶段特征数据提取:包括核酸提取环节核酸提取浓度及建库环节的扩增效率数据;
[0020]b、生信分析阶段特征数据提取:包括计算得到样本中宿主比例和样本中各微生物检出的标准化序列数;
[0021]进一步的,所述宿主比例=测序数据中比对到人源基因组的序列数/数据质控后样本的测序总序列数;所述标准化序列数为完成病原数据库注释后得到样本中各微生物检出的标准化序列数,具体=物种实际检出序列数/数据质控后样本的测序总序列数*20000000。
[0022]进一步的,所述样本特征数据需满足:提取浓度>0.3ng/ul,扩增效率>0.2,宿主比例>0.95。
[0023]进一步的,所述2)模型训练的步骤为:
[0024]a、数据汇总及预处理:将训练集特征数据汇总为观测

特征二维Table格式,并对Reads数进行对数转化;
[0025]b、对待预测病原列表中的每个物种,选取不同检出频率的物种特征同其他特征一起进行随机森林回归模型训练,每次训练基于5折交叉验证选择R^2最大值作为最佳变量数目进而完成模型构建;
[0026]进一步的,所述其他特征为核酸提取浓度、扩增效率和宿主比例。
[0027]进一步的,所述检出频率为5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%和90%;所述训练次数为18次。
[0028]进一步的,所述3)背景菌预测的步骤为:
[0029]1)基于步骤2)采用不同频率物种特征重复构建的随机森林回归模型对样本检出
背景菌序列数进行预测(优选进行18次预测),计算预测结果的平均值mean及标准差std;
[0030]2)计算得到该物种的背景菌预测序列数阈值Cutoff=mean+2*std,如样本检出的实际序列数超过该阈值,则判定为阳性,否则判定为阴性。
[0031]进一步的,所述测序数据来自一代、二代或三代测序数据;优选的,来自NGS二代测序数据;
[0032]进一步的,所述样本来自血液、脑脊液、灌洗液样本;优选的,来自为血液样本;
[0033]进一步的,所述样本类型为宏基因组测序样本。
[0034]本专利技术还提供一种基于机器学习的测序数据背景菌判定模型,包括如下模块:
[0035]1)获得样本特征数据模块,所述样本特征数据包括核酸提取浓度、扩增效率、宿主比例和微生物检出的标准化序列数;
[0036]2)模型训练模块,基于步骤1)特征数据,采用随机森林模型进行模型训练,
[0037]3)背景菌预测模块。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的测序数据背景菌判定方法,其特征在于,包括如下步骤:1)获得样本特征数据步骤,所述样本特征数据包括核酸提取浓度、扩增效率、宿主比例和物种检出的标准化序列数;2)模型训练步骤,基于特征数据采用随机森林模型进行模型训练;3)背景菌预测步骤。2.权利要求1所述的基于机器学习的背景菌判定方法,其特征在于,所述1)获得样本特征数据的步骤为:a、湿实验阶段特征数据提取:包括核酸提取环节核酸提取浓度及建库环节的扩增效率数据;b、生信分析阶段特征数据提取:包括计算得到样本中宿主比例和样本中各微生物检出的标准化序列数。3.权利要求1

2任一所述的基于机器学习的背景菌判定方法,其特征在于,所述样本特征数据需满足:提取浓度>0.3ng/ul,扩增效率>0.2,宿主比例>0.95。4.权利要求1

4任一所述的基于机器学习的背景菌判定方法,其特征在于,所述2)模型训练的步骤为:a、数据汇总及预处理:将训练集特征数据汇总为观测

特征二维Table格式,并对Reads数进行对数转化;b、对待预测病原列表中的每个物种,选取不同检出频率的物种特征同其他特征一起进行随机森林回归模型训练,每次训练基于5折交叉验证选择R^2最大值作为最佳变量数目进而完成模型构建;所述其他特征为核酸提取浓度、扩增效率和宿主比例。优选的,所述检出频率为5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%和90%;所述训练次数为18次。5.权利要求1

4任一所述说的基于机器学习的背景菌判定方法,其特征在于,所述3)背景菌...

【专利技术属性】
技术研发人员:高建鹏韩朋饶冠华蒋智
申请(专利权)人:广州金匙医学检验有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1