基于自助抽样法的谱图搜库结果统计验证方法技术

技术编号:17467968 阅读:89 留言:0更新日期:2018-03-15 05:19
本发明专利技术提供一种基于自助抽样法的谱图搜库结果统计验证方法,该方法利用自助抽样法由样品谱图模拟生成一系列谱图,对生成的谱图分别进行搜库,并计算反映样品搜库结果可信度的统计分值(Conf)。通过Conf值和设定的阈值的比较表征待评价样品搜库匹配结果的可靠性,待评价样品搜库结果Conf值大于阈值表示搜库结果的可靠性得到保证。本发明专利技术构建的统计验证方法,能够准确地反映谱图搜库匹配结果的可靠性,具有较好的综合评价能力,具有较强的可操作性和实用性。

【技术实现步骤摘要】
基于自助抽样法的谱图搜库结果统计验证方法
本专利技术涉及一种用于谱图搜库匹配结果的统计验证方法。
技术介绍
谱图的匹配比对在生物医学、化学、物理学等领域中有着广泛的应用。在血液细菌感染(菌血症)的细菌鉴定工作中,由于患者的临床表现不典型,给感染的诊断带来困难。目前,临床上菌血症诊断的金标准是血液细菌培养法,但血液培养的阳性率极低从而导致延误治疗。相比之下,质谱谱图法准确度高、稳定性好、操作简单,易于临床推广。从1990年代起,基质辅助激光解析电离源飞行时间质谱(MALDI-TOF-MS)被用于细菌鉴定[R.D.Holland,J.G.Wilkes,F.Rafii,J.B.Sutherland,C.C.Persons,K.J.Voorhees,J.O.Lay,RapidCommunicationsinMassSpectrometry1996,10,1227-1232;M.A.Claydon,S.N.Davey,V.EdwardsJones,D.B.Gordon,NatureBiotechnology1996,14,1584-1586.]。通过分析不同的细菌,科学家发现从完整的细菌细胞中可以得到具有指纹特征性的质谱图。通过记录多种单一纯细菌的指纹质谱图可以构建细菌鉴定所需的生物特征数据库。之后通过比对临床样本中采集的细菌的MALDI-TOF-MS指纹质谱图,可以实现细菌种类的鉴定[A.Croxatto,G.Prod'hom,G.Greub,FemsMicrobiologyReviews2012,36,380-407;T.R.Sandrin,J.E.Goldstein,S.Schumaker,MassSpectrometryReviews2013,32,188-217.]谱图匹配也广泛用于蛋白质测序工作。肽段质量指纹谱图(peptidemassfingerprint)匹配法用于蛋白酶解产物的质谱分析,根据数据库中已有蛋白的序列及酶解反应特征可以生成单个蛋白的理论肽段列表暨理论标准谱图,通过比对实验谱图可以实现未知蛋白的鉴定。[WebsterJ,OxleyD,MethodsMolBiol2005,310,227-240.]蛋白质组学中常使用的“鸟枪法”(shotgun)也是依赖于质谱图的匹配完成的,如基于二级碎片质谱图的肽谱匹配打分和蛋白质鉴定。[Fernández-PuenteP,MateosJ,BlancoFJ,Ruiz-RomeroC,MethodsMolBiol2014,1156,27-38.]质谱匹配已经成为当今蛋白质鉴定中至关重要的技术手段。基于谱学方法的检测、鉴定中最为关键的一步是实验样本和参考样本的谱图匹配。近年来发展了多种用于谱图匹配的打分方法。SeonghoKim和XiangZhang研究了质谱图相似性打分的夹角余弦法、皮尔森和斯皮尔曼相关系数法、偏相关与部分相关系数法。[S.Kim,X.Zhang,Computational&MathematicalMethodsinMedicine2013,9,399-412]然而传统的谱图匹配方法往往基于最优的谱图相似性计算结果,及一个给定的分值阈值,缺乏统计验证。譬如,在临床微生物鉴定普遍使用的质谱法中,Bruker公司提供的商业解决方案Biotyper软件以2.0的相似度分值为鉴定阈值,然而该阈值的合理性有待考量。[Schulthess,B.;Bloemberg,G.V.;Zbinden,R.;Bottger,E.C.;Hombach,M.J.Clin.Microbiol.2014,52,1089-1097.]
技术实现思路
本专利技术针对现有的谱图匹配方法缺乏统计验证的问题,旨在建立一种基于自助抽样法的谱图搜库结果统计验证方法,以反映鉴定结果可信度的统计分值替代相似度分值作为准确鉴定的标准。本专利技术的技术方案是:一种基于自助抽样法的谱图搜库结果统计验证方法,它包括以下步骤:(1)利用自助抽样法模拟生成一系列谱图。对于一张包含N个谱峰的样品谱图,有放回的随机抽取N次,每次抽取1个谱峰;将抽取的N个谱峰组成一张新谱图;反复进行抽取,得到大量(≥100)新谱图。(2)计算反映样品搜库结果可信度的统计分值(Conf)。将样品谱图进行搜库得到匹配结果A;将利用自助抽样法生成的一系列谱图分别进行搜库,得到一系列匹配结果X;计算X中A所占的比例,即为Conf值。本专利技术的有益效果:本专利技术是一种综合评价样品谱图搜库匹配结果的统计验证方法,以统计分值反映样品搜库结果可信度,提高了谱图搜库匹配结果的可靠性。本专利技术中,通过Conf值大小表征待评价样品搜库匹配结果的可靠性;Conf值越大,表示搜库结果的可靠性越好;Conf值越小,表示搜库结果可靠性可能得不到保证。应用时,可通过预先试验确定可靠搜库结果Conf值的阈值,通过Conf值和设定的阈值的比较,表征待评价样品搜库匹配结果的可靠性。如果待评价样品搜库结果Conf值大于阈值,表示搜库结果的可靠性得到保证;反之,表示搜库结果不可靠。附图说明图1为本专利技术的基于自助抽样法的谱图搜库结果统计验证方法的流程示意图。具体实施方式为让本专利技术的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。图1为本专利技术的基于自助抽样法的谱图搜库结果统计验证方法的流程示意图。图1中的2、3和4表示模拟谱图中的每个谱峰被抽中的次数。如图1所示,本专利技术基于自助抽样法的谱图搜库结果统计验证方法,它包括以下步骤:(1)利用自助抽样法模拟生成一系列谱图。对于一张包含N个谱峰的样品谱图,有放回的随机抽取N次,每次抽取1个谱峰;将抽取的N个谱峰组成一张新谱图;反复进行抽取,得到大量(≥100)新谱图。(2)计算反映样品搜库结果可信度的统计分值(Conf)。将样品谱图进行搜库得到匹配结果A;将利用自助抽样法生成的一系列谱图分别进行搜库,得到一系列匹配结果X;计算X中A所占的比例,即为Conf值。实施例以BacilluscereusATCC10987(以下简称BC1)和BacilluscereusATCC4342(以下简称BC2)细菌的实验谱图为例,采用普通的余弦相关系数进行搜库,BC1到种一级的最佳匹配结果是Bacilluscereus,相似度得分为0.96;BC2的最佳匹配结果为Bacillusthuringiensis,相似度得分为0.97。表1是BC1的谱峰列表。利用自助抽样法生成模拟谱图。表2是一张模拟谱图的例子。表1:BC1的谱峰列表表2:BC1的一张模拟谱图的谱峰列表生成100张模拟谱图,利用[0013]-[0014]所述的方法计算Conf值,其中有77张模拟谱图搜库的最佳匹配结果是Bacilluscereus,故BC1最佳匹配结果的Conf值为0.77。对BC2谱图以同法处理,计算最佳匹配结果的Conf值为0.3,较低的Conf值表示BC2的鉴定结果很可能是一个鉴定错误。表3:利用余弦相关系数作为相似度的匹配结果、相似度分值及统计分值。对BC2搜库的每一个候选匹配项计算Conf值,以Conf值最高的候选匹配项作为最佳匹配结果,BC2被正确鉴定为Bacilluscereus,Conf值为0.64。表4:利用本文档来自技高网
...
基于自助抽样法的谱图搜库结果统计验证方法

【技术保护点】
一种基于自助抽样法的谱图搜库结果统计验证方法,其特征在于,所述验证方法利用自助抽样法由样品谱图模拟生成的一系列谱图,对生成的谱图分别进行搜库,并计算反映样品搜库结果可信度的统计分值。

【技术特征摘要】
1.一种基于自助抽样法的谱图搜库结果统计验证方法,其特征在于,所述验证方法利用自助抽样法由样品谱图模拟生成的一系列谱图,对生成的谱图分别进行搜库,并计算反映样品搜库结果可信度的统计分值。2.根据权利要求1所述的谱图搜库结果统计验证方法,其特征在于,所述的自助抽样法包括以下步骤:(1)对于一张包含N个谱峰的样品谱图,有放回的随机抽取N次,每次抽取1个谱峰;(2)将步骤(1)抽取的N个谱峰组成一张新谱图;(3)反复进行步骤(1)和(2),得到大于一百张的新谱图。3.根据权利要求1所述的谱图搜库结果统计验证方法,其特征在于,所述的反映样品搜库结果可信度的统计分值的计算方法包括以下步骤:(1)将样品谱图进行搜库得到匹...

【专利技术属性】
技术研发人员:余绍宁
申请(专利权)人:浙江和谱生物科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1