通过向量比较来识别感兴趣的样本的方法、介质和系统技术方案

技术编号:39057604 阅读:16 留言:0更新日期:2023-10-12 19:50
本公开提供了用于将感兴趣的样本与已知化合物的库进行比较以快速确定样本与库中的化合物的相似程度的方法、介质和系统。将样本数据中感兴趣的峰值与库化合物数据中的对应峰值进行比较。可以将这些峰值表示为向量,并且可将样本向量与库向量之间的角度用作相似度度量。在一些实施方案中,可以计算针对向量的余弦相似度。如果给定库化合物/样本对的相似度分数超过阈值,则系统确定库化合物和样本是相似的并采取适当的动作。可以调整与比较结果相关联的各种参数,从而提高结果的质量和/或处理的效率。或处理的效率。或处理的效率。

【技术实现步骤摘要】
【国外来华专利技术】通过向量比较来识别感兴趣的样本的方法、介质和系统
[0001]相关申请的交叉引用
[0002]本申请要求于2020年10月13日提交的美国临时专利申请63/091,069号的权益。该申请的全部公开内容据此以引用方式并入本文。

技术介绍

[0003]质谱(MS)设备和液相色谱

质谱(LCMS)设备用于分析化学样本以研究该样本的特性、质量或结构。还存在用于样本分析的其他类型的装置,包括红外光谱仪和气体光谱仪。尽管IS装置和GS装置可能能够提供比MS装置更详细的信息,但它们也往往更复杂、更昂贵并且难以操作。因此,它们可能需要显著更多的时间来精确地分析样本。

技术实现思路

[0004]示例性实施方案提供了用于将感兴趣的样本与已知化合物的库进行比较以快速确定样本与库中的化合物的相似程度的方法、介质和系统。
[0005]根据第一实施方案,系统在质谱(MS)装置处接收感兴趣的样本用于分析。可以使用该MS装置分析感兴趣的样本,其中分析涉及生成该感兴趣的样本的多个光谱。可将该多个光谱分解成分箱(例如,基于光谱强度值)。
[0006]系统可以访问样本库,该样本库包括已知化合物的离子化信息。对于该样本库中的每种已知化合物,可以检索该化合物的多个关键峰值。可以将相应化合物的关键峰值与来自感兴趣的样本的一组光谱分箱进行比较。这可涉及将相应化合物的关键峰值和该组光谱分箱表示为向量,计算与该向量之间的角度差相对应的相似度值,以及将该相似度值与相似度阈值进行比较。
[0007]在一些实施方案中,光谱分箱可以是来自感兴趣的样本的最显著光谱分箱。在其他实施方案中,系统可避免对整个光谱执行分箱——相反地,其可识别光谱中的任何峰值,然后在该峰值的预定义或动态选择的裕度内选择该峰值周围的区域。此选择区域可充当分箱以用于比较目的。
[0008]在将相似度值与相似度阈值进行比较之后,系统可以识别出感兴趣的样本与相应化合物相似(如果相似度值超过相似度阈值的话)。然后,该系统可以响应于该识别,输出该感兴趣的样本与该相应化合物相似的指示。
[0009]通过比较来自感兴趣的样本的相对较少数量的关键峰值与来自库中的化合物的对应峰值来简单地确定相似度。因此,与系统试图进行样本的肯定性识别相比,系统可以更快更有效地确定相似度。
[0010]识别相似度与肯定地识别样本之间的一个区别在于识别相似度不是概率性的。换句话说,该系统能够辨别样本与来自库的化合物是相似的,但不一定确定两种化合物相似的可能性程度(尽管可以添加此功能,但会增加计算和时间成本)。例如,该系统可以识别样本和大麻素之间的相似度,但许多非大麻素化合物仍然可能与大麻素相似。因此,该系统未给出样本是大麻素的概率;其仅指出该化合物与大麻素存在相似度。尽管如此,相似度通常
足以为进一步的后续工作作出初步确定,或者在速度至关重要的情况下作出决定。
[0011]此外,由于相似度被计算为两个向量之间的角度差,因此可以基于具有相对较少数量的输入的简单方程来确定相似度,从而进一步提高处理的效率和速度。由于n质量/强度值可以非常容易地在n

维向量空间中表示,因此依靠样本和库向量之间的角度是快速确定相似度的有效方式。
[0012]根据第二实施方案,
[0013]根据第三实施方案,该多个光谱可以由四个光谱组成。尽管可以用更多或更少的光谱来实现实施方案,但四个光谱产生了处理效率和特异性的良好平衡。因此,可以快速地而又精确度良好地确定相似度。
[0014]根据第四实施方案,作为来自用户的输入,系统可以接收用户定义的最显著分箱数量以用于与关键峰值进行比较。这种可调整性允许用户选择更多峰值(为了提高精度)或更少峰值(为了提高处理效率)以进行比较。
[0015]根据第五实施方案,系统可以接收用户定义的值作为输入以用于相似度阈值。根据用户对假阳性或假阴性的容忍度,用户因此有权调整库化合物的所需相似度水平以被视为对样本的“命中”或“未命中”。
[0016]根据第六实施方案,可以将向量之间的角度差表示为余弦相似度值。这提供了一种用于测量上述背景中两个样本之间的相似度的特别快速而简单的方式。
[0017]根据第七实施方案,可以基于与每个分箱相关联的光谱强度值和/或质量来对分箱进行加权。
[0018]通过对较高质量比对较低质量更多地加权,使得较高质量的碎片更多地计入最终结果。由于MS前体和较大的碎片往往是更可靠和更有用的测量(更具诊断性),并且由于特别强调前体可能是有帮助的,因此有助于为较高的质量提供更大的重要性。这可以通过将增加的重量直接施加于较高质量的分箱(以及/或者将减小的重量施加于较低质量的分箱)、通过将每个分箱的强度乘以其质量,以及/或者将分箱强度提升到更高幂次(诸如质量2)来实现。
[0019]通过对较低强度的读数进行加权,使得它们比其他情况更多地计数,可以避免几个大的峰值主导结果的情况。通常,在几个大的峰值之后可能存在强度的显著下降,其风险在于这几个大的峰值“设定结果”。其他较小峰值可能不被考虑,即使它们可能包含有用信息。一种可能性是将强度值提升到小于一的幂(例如,取其平方根),从而压缩高强度和低强度之间的差异。
[0020]根据第八实施方案,系统可以接收用户定义的分箱权重作为输入。通过使分箱权重可调,用户可根据其特定数据集定制该过程(例如,如果样本和/或库中的峰值倾向于在低质量碎片中更集中,则强调质量加权,或者如果样本和/或库数据中存在显著的强度下降,则强调较低强度读数)。
[0021]根据第九实施方案,可以对来自多个光谱中的一个光谱的分箱比对来自多个光谱中的其他光谱的分箱更高地加权。例如,在进行比较时,某些电压可能比其他电压信息量更大。因此,该系统对低压质谱比对较高压质谱更高地加权。在一些实施方案中,可以通过下述操作来执行加权:首先比较第一电压下的样本质谱和库质谱,并且确定相似度是否足以证明处理剩余光谱是合理的。这通过仅对最有可能与样本相似的化合物进行全面分析节省
了处理资源。
[0022]根据第十实施方案,针对分箱中的每个分箱,可以计算分箱的强度与具有最高强度值的分箱的强度之间的比率。可以将比率低于强度比率阈值的任何分箱滤除。如果对尚未进行强度过滤的数据执行库匹配,则可能生成针对任何质量值的向量。当基于这些向量之间的角度确定相似度时,这增加了得到假阳性的可能性。因此,移除低于特定阈值(例如,最大峰值的峰值强度的5%)的任何向量降低了假阳性率。
[0023]根据第十一实施方案,上文提到的强度比率阈值可以是用户定义的并且可以作为输入被接收。通过使得允许用户设置阈值,用户可以根据应用需要来接受更多或更少的假阳性风险。
[0024]以上实施方案中的任一者可实现为存储在非暂态计算机可读存储介质上的指令并且/或者体现为具有存储器和被配置为执行上述动作的处理器的设备。
附图说明
[0025]为了容易识别对任何特定元件或动作的论述,参考标号中的一个或多个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在质谱(MS)装置处接收感兴趣的样本用于分析;分析所述感兴趣的样本,所述分析包括生成所述感兴趣的样本的多个光谱;将所述多个光谱分解成分箱;访问样本库,所述样本库包括已知化合物的离子化信息;对于所述样本库中的每种已知化合物,检索所述化合物的多个关键峰值;将相应化合物的所述关键峰值与来自所述感兴趣的样本的一组分箱进行比较,所述比较包括:将所述相应化合物的所述关键峰值和所述一组分箱表示为向量,计算与所述向量之间的角度差相对应的相似度值,以及将所述相似度值与相似度阈值进行比较;当所述相似度值超过所述相似度阈值时,识别出所述感兴趣的样本与所述相应化合物相似;以及响应于所述识别,输出所述感兴趣的样本与所述相应化合物相似的指示。2.根据权利要求1所述的方法,其中将所述多个光谱分解成分箱包括识别所述多个光谱中的峰值并且生成对应于所述峰值的分箱。3.根据权利要求1所述的方法,其中所述多个光谱由四个光谱组成。4.根据权利要求1所述的方法,还包括接收用户定义的分箱数量作为输入以供与所述关键峰值比较。5.根据权利要求1所述的方法,还包括接收用户定义的值作为输入以用于所述相似度阈值。6.根据权利要求1所述的方法,其中所述向量之间的所述角度差被表示为余弦相似度值。7.根据权利要求1所述的方法,还包括基于与每个分箱相关联的光谱强度值或质量中的一者或多者对所述分箱进行加权。8.根据权利要求7所述的方法,还包括接收用户定义的分箱权重作为输入。9.根据权利要求1所述的方法,还包括对来自所述多个光谱中的一个光谱的分箱比对来自所述多个光谱中的其他光谱的分箱更高地加权。10.根据权利要求1所述的方法,还包括:针对所述分箱中的每个分箱,计算所述分箱的强度与具有最高强度值的分箱的强度之间的比率;以及从分析中滤除比率低于强度比率阈值的分箱。11.根据权利要求10所述的方法,还包括接收用户定义的值作为输入以用于所述强度比率阈值。12.一种非暂态计算机可读存储介质,所述计算机可读存储介质包括指令,所述指令在被计算机执行时使得所述计算机执行下述操作:在质谱(MS)装置处接收感兴趣的样本用于分析;分析所述感兴趣的样本,所述分析包括生成所述感兴趣的样本的多个光谱;将所述多个光谱分解成分箱;
访问样本库,所述样本库包括已知化合物的离子化信息;对于所述样本库中的每种已知化合物,检索所述化合物的多个关键峰值;将所述相应化合物的所述关键峰值与来自所述感兴趣的样本的一组分箱进行比较,所述比较包括:将所述相应化合物的所述关键峰值和所述一组分箱表示为向量,计算与所述向量之间的角度差相对应的相似度值,以及将所述相似度值与相似度阈值进行比较;当所述相似度值超过所述相似度阈值时,识别出所述感兴趣的样本与所述相应化合物相似;以及响应于所述识别,输出所述感兴趣的样本与所述相应化合物相似的指示。13.根据权利要求12所述的计算机可读存储介质,其中将所述多个光谱分解成分箱包括指令,所述指令将所述计算机配置为识别所述多个光谱中的峰值并且生成对应于所述峰值的分箱。14.根据权利要求12所述的计算机可读存储介质,其中所述多个光谱由四个光谱组成。15.根据权利要求12所述的计算机可读存储介质,其中所述指令将所述计算机进一步配置为接收用户定义的分箱数量作为输入以供与所述关键峰值比较。16.根据权利要求12所述的计算机可读存储介质,其中所述指令将所述计算机进一步配置为接收用户定义的值作为输入以用于所述相似度阈值。17.根据权利要...

【专利技术属性】
技术研发人员:N
申请(专利权)人:沃特世科技爱尔兰有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1