System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种结合机器学习及MALDI-TOF MS的幽门螺杆菌快速鉴定系统技术方案_技高网

一种结合机器学习及MALDI-TOF MS的幽门螺杆菌快速鉴定系统技术方案

技术编号:41200157 阅读:7 留言:0更新日期:2024-05-07 22:27
本发明专利技术公开了一种结合机器学习及MALDI‑TOF MS的幽门螺杆菌快速鉴定系统。本发明专利技术基于一个囊括121株Hp及来自26个属、37个种不同胃部微生物、共5890张菌株蛋白指纹图谱数据的基础上,利用机器学习建立了12个独立的Hp蛋白指纹识别模型,并开发了一套综合上述12个模型鉴定待测菌株是否为Hp的快速鉴定系统Hp_pred。检测者仅需使用少量待测菌株的菌体进行简单的预处理,后在MALDI‑TOF MS质谱仪进行检测,即可在数分钟内实现对待测菌株是否为Hp的鉴定,经测试准确率达到100%。与现有的蛋白指纹图谱鉴定系统相比,Hp_pred系统具有鉴定准确度高、泛化能力强的技术优势,应用前景巨大。

【技术实现步骤摘要】

本专利技术属于微生物检测,具体涉及一种结合机器学习及maldi-tof ms的幽门螺杆菌快速鉴定系统。


技术介绍

1、胃癌是最常见的恶性癌症之一,也是导致癌症相关死亡的重要原因。研究指出,全球近90%的胃癌是由幽门螺杆菌(helicobacter pylori,hp)感染引起。因此早在1994年,国际癌症研究机构根据流行病学证据将hp列为明确导致非贲门癌的致癌物(即1级致癌物)。近期研究指出,hp不仅是导致消化性溃疡以及胃癌的主要原因,其感染还可能导致糖尿病和非酒精性肝病等代谢性疾病。因此,寻找准确、快速、廉价的hp检测及鉴定方法具有巨大的应用价值。

2、基质辅助激光解吸/电离飞行时间质谱(matrix-assisted laser desorption/ionization time of flight mass spectrometry,maldi-tof ms)是近年来微生物鉴定领域中最具代表性的技术突破之一,该技术通过高通量测量肽和蛋白质的精确质荷比(m/z)、生成菌株特定的生物标志物分子图谱(简称蛋白指纹图谱)进而实现菌种的鉴定。maldi-tof ms检测只需少量菌体简单操作制备样品,即可在几分钟内直接从整个细胞获得蛋白质图谱及菌种鉴定。研究已证实maldi-tof ms可以用于hp的鉴定,然而在实际应用中,现有的maldi-tof ms系统如对hp的鉴定效果却差强人意。maldi-tof ms对hp鉴定能力低下的原因可能有以下三个:(1)参考数据库库容量少:目前常用的鉴定方法是通过比对待测菌株与参考数据库中菌株蛋白指纹图谱相似性、继而根据相似性高低进行判断,因此参考数据库中菌株的代表性将直接影响检测系统的泛化性。目前临床常用的诊断系统如bruker(后称方案一)参考数据库中仅有7株hp的参考菌株,且菌株仅有europe及africa分型,导致现有系统对hp的鉴别能力低。(2)对菌株突变容忍度低:hp是一种具有基因组高度变异性特征的微生物,为适应胃部的复杂环境,其基因组频繁突变产生抗性基因。而目前常用的微生物鉴定系统采用1da作为特征指纹的识别单元,这种范围窄且固定的特征峰识别模式将较难容忍hp由于基因组突变引起的特征指纹轻度偏倚,进而减弱了鉴定系统对hp的识别能力。(3)依赖人眼的图像特征识别能力有限:传统maldi-tof ms鉴定系统的研发是通过人眼识别采集菌株的蛋白指纹图谱数据,经过对所识别的图谱峰的逐一统计,选取具有统计学差异的指纹峰形成鉴定系统。但由于原始蛋白指纹图谱中特征峰数量庞大且存在较大干扰信号,导致许多低丰度指纹峰难以被识别,从而降低了maldi-tof ms系统的鉴定能力。

3、为解决目前maldi-tof ms对hp鉴定能力不足的问题,有研究团队尝试增加参考数据库的菌株数量及多样性以建立更准确的参考数据库。ilina等将17株hp临床株和2株hp标准菌株的蛋白指纹图谱加入到bruker系统中,提出了新的hp鉴定方法:当菌株出现6个特征峰(m/z 4320、5246、5529、5541和6066,频率大于70%,6946频率为59%)时,可鉴定菌株为hp(doi:10.1002/rcm.4394)(后称方案二)。xiao等通过收集自不同国家56株hp的maldi-tof ms数据,提出了另一种新的hp鉴定系统:根据56株菌株指纹图谱的msp树形图分析,hp指纹图谱可分为2种类群p1和p2,p1型hp在m/z 4320、5202、5246、5268、6066、6941和7128处有7个特征峰,而p2型hp在m/z 5246和6941处有2个特异峰;利用这些特征峰可开发新型hp鉴定系统(doi:10.1016/j.jprot.2013.11.021)(后称方案三)。近年来研究者们还引入机器学习来处理复杂的指纹图谱数据信息并建立快速高效的识别方式,进而提升指纹特征的识别能力。机器学习的核心是算法,不同数据的特征需要应用不同的算法进行总结归纳,而目前常用的算法包括轻量级梯度提升机器学习(light gradient boostingmachine,lightgbm)、逻辑回归(logistic regression,lr)、随机森林(random forest,rf)等。目前,研究人员已成功使用机器学习建立了李斯特菌、脓肿分枝杆菌等微生物的新型蛋白指纹图谱识别系统,但目前还没有结合机器学习及maldi-tof ms蛋白指纹图谱建立的hp鉴定系统


技术实现思路

1、为了克服现有技术的不足,本专利技术提供了一个准确、快速、简便及低成本的hp鉴定系统hp_pred。本专利技术首先建立了一个囊括121株hp及128株来自26个属、37个种的胃部常见微生物的maldi-tof ms蛋白指纹图谱库,弥补了目前常用hp鉴定系统参考菌株少的不足。同时,本专利技术利用lightgbm算法建立了12个独立的hp蛋白指纹识别模型,并开发了一个结合12个模型综合判定图谱结果的hp快速鉴定系统hp_pred。应用本专利技术开发的hp_pred系统可在数分钟内实现对96个菌株进行是否为hp的精准鉴定,为临床工作中hp的诊断提供快速、简便、准确且价格低廉的鉴定方案。

2、本专利技术的第一个目的在于提供用于识别幽门螺杆菌的4套指纹图谱特征峰区域,利用这些特征峰可以分别在分箱大小(binsize)为3da、5da、10da、15da的微生物蛋白指纹图谱数据库识别出hp。其中这些特征峰如下所示:

3、(1)当binsize=3时,特征峰区域为2009-2012、2087-2090、2090-2093、2102-2105、2108-2111、2156-2159、2174-2177、2273-2276、2276-2279、2507-2510、2525-2528、2528-2531、2597-2600、2621-2624、3470-3473、3485-3488、3839-3842、4151-4154、4154-4157、4319-4322、4655-4658、5246-5249、5249-5252、5528-5531da;

4、(2)当binsize=5时,特征峰区域为2085-2090、2090-2095、2100-2105、2105-2110、2155-2160、2275-2280、2525-2530、2620-2625、3410-3415、3470-3475、3485-3490、3840-3845、3975-3980、4150-4155、4320-4325、5245-5250、5530-5535da;

5、(3)当binsize=10时,特征峰区域为2080-2090、2090-2100、2210-2220、2520-2530、2620-2630、3040-3050、3070-3080、3470-3480、3480-3490、3630-3640、3940-3950、3970-3980、4150-4160、4440-4450、4650-4660、4740-4750、5240本文档来自技高网...

【技术保护点】

1.用于识别幽门螺杆菌的4套指纹图谱特征峰区域,其特征在于,所述特征峰区域分别为:

2.一种幽门螺杆菌蛋白指纹图谱判别模型的构建方法,其特征在于,包括以下步骤:

3.根据权利要求2所述的构建方法,其特征在于,所述标准化处理是通过R包MALDIquant将所采集的菌株指纹图谱进行标准化处理,包括方差平稳、指纹图谱平衡、基线校正、强度归一化,处理后得到菌株指纹图谱峰值位置及强度的记录文件。

4.根据权利要求2所述的构建方法,其特征在于,所述分箱处理是使用python将所收集的指纹图谱在2000~20000Da范围内的峰值按照binsize分别为3Da、5Da、10Da、15Da进行分箱。

5.根据权利要求2所述的构建方法,其特征在于,所述使用LightGBM的梯度提升决策树算法开发判别模型,具体包括以下步骤:

6.根据权利要求2-5任一项所述的构建方法构建获得的12个基于特征峰区域的指纹图谱判别模型。

7.一种幽门螺杆菌鉴定方法,其特征在于,包括以下步骤:获取待测菌株的蛋白指纹图谱数据,并通过权利要求6所述的12个基于特征峰区域的指纹图谱判别模型计算获得预测值,综合所有模型的结果进行系统计算,以获得全模型纠正预测值predictraw及其均方根误差RMSEraw、偏好性纠正预测值predictbias及其均方根误差RMSEbias,根据预测值鉴定待测菌株是否为幽门螺杆菌,并计算鉴定结果可信度。

8.根据权利要求7所述的鉴定方法,其特征在于,所述根据预测值鉴定待测菌株是否为幽门螺杆菌,并计算鉴定结果可信度,具体为:

9.权利要求1所述的4套指纹图谱特征峰区域、权利要求6所述的12个基于特征峰区域的指纹图谱判别模型或权利要求7所述的鉴定方法在非疾病诊断和治疗目的的鉴定幽门螺杆菌中的应用。

...

【技术特征摘要】

1.用于识别幽门螺杆菌的4套指纹图谱特征峰区域,其特征在于,所述特征峰区域分别为:

2.一种幽门螺杆菌蛋白指纹图谱判别模型的构建方法,其特征在于,包括以下步骤:

3.根据权利要求2所述的构建方法,其特征在于,所述标准化处理是通过r包maldiquant将所采集的菌株指纹图谱进行标准化处理,包括方差平稳、指纹图谱平衡、基线校正、强度归一化,处理后得到菌株指纹图谱峰值位置及强度的记录文件。

4.根据权利要求2所述的构建方法,其特征在于,所述分箱处理是使用python将所收集的指纹图谱在2000~20000da范围内的峰值按照binsize分别为3da、5da、10da、15da进行分箱。

5.根据权利要求2所述的构建方法,其特征在于,所述使用lightgbm的梯度提升决策树算法开发判别模型,具体包括以下步骤:

6.根据权利要求2-5任...

【专利技术属性】
技术研发人员:吴清平黄惠书李滢黄士轩陈谋通吴毓薇赵昕宇陈惠元谢新强吴磊高鹤赵辉
申请(专利权)人:广东省科学院微生物研究所广东省微生物分析检测中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1