谱图相似度的计算方法技术

技术编号:15330494 阅读:306 留言:0更新日期:2017-05-16 13:56
本发明专利技术提供一种谱图相似度的计算方法,可以综合评价样品谱图与标准谱图相似度的方法,既能反映待评价样品谱图与标准谱图之间共峰的相似性,也考虑了非共峰数目及其大小对相似度评价的影响,能整体反映谱图之间的相似程度,该相似度的大小能够灵敏地表达样品谱图与标准谱图的定性和定量差异,可靠地鉴定待评价样品。

A method for computing similarity of Graphs

The invention provides a spectral similarity calculation method, the sample spectrum and standard spectrum similarity method can not only reflect the comprehensive evaluation for the evaluation of spectra with the standard spectra between the peaks of similarity, also consider the influence of non peak total number and size of similarity evaluation, can reflect the whole spectrum the degree of similarity between graphs, the size of the similarity is sensitive to the expression of spectra with the standard spectra of qualitative and quantitative difference map, reliably identified the evaluated samples.

【技术实现步骤摘要】
谱图相似度的计算方法
本专利技术涉及谱图,特别涉及谱图相似度的计算方法。
技术介绍
谱图的匹配比对在生物医学、化学、物理学等领域中有着广泛的应用。在血液细菌感染(菌血症)的细菌鉴定工作中,由于患者的临床表现不典型,给感染的诊断带来困难。目前,临床上菌血症诊断的金标准是血液细菌培养法,但血液培养的阳性率极低从而导致延误治疗。相比之下,质谱谱图法准确度高、稳定性好、操作简单,易于临床推广。从1990年代起,基质辅助激光解析电离源飞行时间质谱(MALDI-TOF-MS)被用于细菌鉴定[R.D.Holland,J.G.Wilkes,F.Rafii,J.B.Sutherland,C.C.Persons,K.J.Voorhees,J.O.Lay,RapidCommunicationsinMassSpectrometry1996,10,1227-1232;M.A.Claydon,S.N.Davey,V.EdwardsJones,D.B.Gordon,NatureBiotechnology1996,14,1584-1586.]。通过分析不同的细菌,科学家发现从完整的细菌细胞中可以得到具有指纹特征性的质谱图。通过记录多种单一纯细菌的指纹质谱图可以构建细菌鉴定所需的生物特征数据库。之后通过比对临床样本中采集的细菌的MALDI-TOF-MS指纹质谱图,可以实现细菌种类的鉴定[A.Croxatto,G.Prod'hom,G.Greub,FemsMicrobiologyReviews2012,36,380-407;T.R.Sandrin,J.E.Goldstein,S.Schumaker,MassSpectrometryReviews2013,32,188-217.]。谱图匹配也广泛用于蛋白质测序工作。肽段质量指纹谱图(peptidemassfingerprint)匹配法用于蛋白酶解产物的质谱分析,根据数据库中已有蛋白的序列及酶解反应特征可以生成单个蛋白的理论肽段列表暨理论标准谱图,通过比对实验谱图可以实现未知蛋白的鉴定。[WebsterJ,OxleyD,MethodsMolBiol2005,310,227-240.]蛋白质组学中常使用的“鸟枪法”(shotgun)也是依赖于质谱图的匹配完成的,如基于二级碎片质谱图的肽谱匹配打分和蛋白质鉴定。[Fernández-PuenteP,MateosJ,BlancoFJ,Ruiz-RomeroC,MethodsMolBiol2014,1156,27-38.]质谱匹配已经成为当今蛋白质鉴定中至关重要的技术手段。基于谱学方法的检测、鉴定中最为关键的一步是实验样本和标准样本的谱图匹配。近年来发展了多种用于谱图匹配的打分方法。SeonghoKim和XiangZhang研究了质谱图相似性打分的夹角余弦法、皮尔森和斯皮尔曼相关系数法、偏相关与部分相关系数法。[S.Kim,X.Zhang,Computational&MathematicalMethodsinMedicine2013,9,399-412]但是现有谱图相似度打分方法灵敏度不高,导致谱图鉴定的可靠性不足。
技术实现思路
本专利技术为了克服现有技术的至少一个不足,提供一种谱图相似度的计算方法,以实现鉴定可靠性高的目的。为了实现上述目的,本专利技术采用以下技术方案:一种谱图相似度的计算方法,所述方法包括以下步骤:一种谱图相似度算法,它包括以下步骤:(1)预处理。根据实验谱图得到峰列表,这些峰列表均包含峰值质核比x、强度y和半峰宽信息fwhm。随后对峰强度进行归一化处理,方法是将峰值表中的强度列同时除以该列表中峰值强度的最大值并乘以100。将处理好的数据用于下一步的谱图匹配打分。(2)取共峰。针对实验谱图的峰列表,在与参考谱图进行比对时将在实验谱图的峰的半峰宽范围内的参考谱图的峰作为共峰。我们引入表示实验谱图i和参考谱图j取l=lij个共峰后实验谱图i中共峰对应的峰值质荷比构成的向量,表示实验谱图i和参考谱图j取l=lij个共峰后实验谱图i中共峰的峰值强度构成的向量。(3)任选下列两种基于欧氏距离公式中的一种进行相似度打分。相似度打分的详细过程如下:(a)相对欧氏距离法。实验谱图i与参考谱图j的一对共峰之间的欧式距离定义为两共峰的质荷比差值和峰值强度差值的平方和的平方根对该距离进行相对化处理并对没有匹配为共峰的我们称之为“罚峰”的峰引入“罚分”机制。相对化处理要求以该组共峰的最大可能欧式距离为除数,该最大可能欧式距离当且仅当共峰中的一支峰强趋近于0,同时两个峰的质荷比差值趋向于fwhmi/2时得到因此得到该对共峰的相对欧式距离“罚分”机制旨在突出显示没有匹配的“罚峰”对分值的拉低作用,在相对欧式距离法和强度加权相对欧式距离法中,由于罚峰处的欧式距离即为该组罚峰的最大可能欧式距离,因此该罚峰处的相对欧式距离为1,即对“罚峰”的罚分。经过适当变换调整后的公式为:式中,ni为实验谱图i中的峰个数,nj为参考谱图j中的峰个数。(b)强度加权相对欧式距离法。该方法是通过求谱图i和谱图j的共峰的强度加权相对欧式距离并且引入对未匹配为共峰的“罚峰”的惩罚分数实现的,该公式中的权重系数为第k组共峰的峰强和占所有峰强度和的比例,公式为Eu和iEu为两种独立的谱图相似性计算方法,匹配得到的分数在0到1之间,得分越接近1表示相似度越高,也即峰值之间的相对欧式距离越小。与现有技术相比,本专利技术具有以下优点:本专利技术是一种综合评价样品谱图与标准谱图相似度的方法,既能反映待评价样品谱图与标准谱图之间共峰的相似性,也考虑了非共峰数目及其大小对相似度评价的影响,能整体反映谱图之间的相似程度,该相似度的大小能够灵敏地表达样品谱图与标准谱图的定性和定量差异,可靠地鉴定待评价样品。本专利技术中,通过基于欧式距离公式的相似度大小表征待评价样品与标准样品间的一致性,相似度越大表示它们的一致性越好;相似度越小,表示它们的差异越大。应用时,可通过经验或有效性试验确定相似度阈值,凡待评价样品相似度大于阈值的表示一致性好;根据相似度的大小也可用于样品的分类。为让本专利技术的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。附图说明图1为实验谱图与参考谱图一对共峰间的欧式距离euk,最大可能欧式距离eumk,以及相对欧式距离Euk的示意图。具体实施方式下面结合实施例对本专利技术作进一步的说明。以BasillussubtilisATCC6633细菌的实验谱图为例,我们根据上述公式利用R语言和C语言构建了细菌质谱图分析程序,上传1张实验谱图后算法程序会将其与数据库中所有的参考谱图逐一进行相似性比对,并根据Eu和iEu分值大小排序给出数据库检索结果。表1是该样品基于相对欧式距离法的数据库检索结果,按照相似性得分从高到低列出数据库中与实验谱图相似性最高的五张参考谱图对应的菌株名称及相应的相似性得分。表2是该样品基于强度加权相对欧式距离法的数据库检索结果,按照相似性得分从高到低列出数据库中与实验谱图相似性最高的五张参考谱图对应的菌株名称及相应的相似性得分。表1是样品基于相对欧式距离法的数据库检索结果。表2是样品基于强度加权相对欧式距离法的数据库检索结果。虽然本专利技术已由较佳实施例本文档来自技高网
...
谱图相似度的计算方法

【技术保护点】
一种谱图相似度的计算方法,其特征在于,所述方法如下:所述计算方法提供基于欧式距离公式的谱图相似性打分的方法;(1)针对实验谱图的原始数据计算出每个峰的半峰宽,记为fwhm

【技术特征摘要】
1.一种谱图相似度的计算方法,其特征在于,所述方法如下:所述计算方法提供基于欧式距离公式的谱图相似性打分的方法;(1)针对实验谱图的原始数据计算出每个峰的半峰宽,记为fwhmi,在与参考谱图进行比对时,将在实验谱图的峰的半峰宽范围内出现的参考谱图的峰作为共峰;引入表示实验谱图i和参考谱图j取l=lij个共峰后实验谱图i中共峰对应的峰值的质荷比构成的向量,表示实验谱图i和参考谱图j,取l=lij个共峰后由实验谱图i中共峰的峰值强度构成的向量;(2)从下列两种基于欧式距离的公式中任选一种评价实验谱图与参考谱图的相似度:(a)相对欧氏距离法,实验谱图i与参考谱图j的一对共峰之间的欧式距离定义为它们的峰值质荷比差值和峰值强度差值的平方和的平方根,对该距离进行相对化处理,相对化处理要求以所述一对共峰的最大可能欧式距离为除数,所述最大可能欧式距离是共峰中的两峰值质荷比的差值趋近于二分之一半峰宽,同时强度的差值趋向于较强的一个峰值强度时的欧式距离;因此,最大可能欧式距离为:因此,在共峰处的相对欧式距离可以表示为对没有匹配为共峰的峰引入罚分机制,暨假设所述没有匹配为共峰的峰存在一个相对欧式距离为1的共峰,引入罚分后的谱图的相对欧式距离打分公式经过适当变换调整为式中,ni为实验谱图i中的峰个数,nj为参考谱图j中的峰个数。Eu为两张谱图相似性得分,其分值在0到1之间,分值越高则谱...

【专利技术属性】
技术研发人员:乔振刚
申请(专利权)人:浙江和谱生物科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1