依据谱数据的样本分类方法、创建数据库的方法和使用该数据库的方法、以及相应的系统技术方案

技术编号:11083017 阅读:138 留言:0更新日期:2015-02-26 09:39
本发明专利技术涉及以谱数据为基础的样本分类方法,创建数据库的方法和使用该数据库的方法,以及相应的计算机程序,数据存储介质和系统。方法包括:a)获得用于作为参考谱的至少两组第一谱,每组包括属于同一类的参考样本谱;b)确定每个参考谱的涉及谱特征的相同的至少一个量的值;c)在确定的值的基础上,关联概率与量的不同的值;d)从样本中获得谱并确定该谱的相同的至少一个量的值;和e)以获得的所述至少两类中的每类的谱的概率和量的值为基础,计算样本属于该类的概率。

【技术实现步骤摘要】
【国外来华专利技术】依据谱数据的样本分类方法、创建数据库的方法和使用该 数据库的方法、以及相应的计算机程序、数据存储介质和系 统 本专利技术涉及用于在谱数据的基础上对属于至少两类中的一类的样本进行分类的 方法。例如,谱数据包括喇曼(Raman)谱、近红外谱、FT-IR谱、频谱、MALDIMS谱、MALDI TOF-MS谱。用这些技术中的一个获得的谱可与样本成分(即呈现在样本中的分子)相关。 然而,不考虑用于获得谱的技术,在属于同一类的样本的谱之间发生了变化。这些 变化可归因于随机效应。这些随机效应可涉及测量技术或在调查下的样本,或二者兼而有 之。 因此,常规的分析谱数据的方法要求被分类的谱获得自具有大量粒子(诸如分 子)的样本。通过要求大量粒子,由于随机过程的谱中的特征相比于由稳定过程引起的特 征将被抑制。然而,这使得常规方法不适合用于分析具有较少数量粒子的样本。当随机效应 主要是由于测量技术本身时,常规方法要求待被分类的谱为所谓的总谱,也被称为累积谱, 通过增加相同样本的大量谱而获得。通过这种方法,由于测量技术的随机过程将在总谱中 得到抑制。然而,当不能获得总谱时,这使得常规方法不适合用于分类样本。 以上问题将针对其中使用质谱分析法(MS)获得谱数据的示例性例子进行说明。 传统MS谱,且特别是飞行时间(TOF)质谱在质量上显示大的离子强度,该质量对 应于通过电离形成的离子流中的高度丰富的离子质量。通常,这些高度丰富的离子来自于 出现在分析物中的高度丰富的分子。 然而,因为在电离分子的情况下容易存在大的可变性,故高度丰富的分子的出现 将不会自动地产生大的离子强度。 此外,电离的效率依赖于大量因素,其可在电离事件到电离时间之间强有力地改 变。实例为存在的分析物数量、基质和分析物的比值、基质的晶体结构、及在基质晶体和分 析物的位置处的激光束的强度。因此,通过各单独电离事件产生的离子强度会显著变化。 最重要的是,在电离期间,考虑的分子会分裂成更小的部分,有些分子可能获得两 倍或三倍的电荷,分子可聚集到流当中,等。因此,除了发生在对应于分析物分子质量的质 量上的高离子强度,单独电离事件谱将在不与分析物分子质量相关的位置处显示峰值。然 而,由于分裂、充电和聚集的过程本质上是高度随机的,故非相关的峰值的位置将在电离事 件和电离事件之间强烈地变化。 为产生可靠和稳定的谱,在关于MALDIMS的传统的分类方法中,累加了记录在靶 板地点上不同位置处的单独电离事件的数量。 因此,对比于由稳定过程引发的离子强度,电离期间将抑制由随机过程引发的离 子强度。稳定过程将产生总谱中的高强度的窄区域(峰值),而带更多随机性质的过程将产 生总谱中的宽的低强度响应(基准)。 在总谱出现的峰值可与在分析物中容易地(有效地)电离的、丰富的分子相关联。 通常这些峰值被用于谱的分类,且因此被认为描述谱特征的特征。 因为合成谱来源于记录在靶板地点上不同位置处的大量单独电离事件,故这些常 规MALDI谱是样本的许多粒子的谱的总和。例如,在样本包括微生物的一些情况下,常规方 法依赖于获得自许多微生物的谱。 当对单粒子谱应用常规方法时,出现相似的问题,单粒子谱诸如单气溶胶粒子谱。 在常规的方法中,为产生可靠和稳定的谱,获得自来源于单个独立种群的微生物的大量的 单气溶胶谱被结合到总谱中。这个总谱以有限数量的不同谱特征(峰值)叠加在光滑的基 准上为特征。 建立累积谱的各个单粒子谱以大量峰值和不存在基准为特点。一些峰值发生在与 累积谱中峰值位置相一致的位置上,其它峰值发生在不与累积谱中峰值位置相一致的位置 上。此外,看起来单粒子谱呈现大量的点对点变化。 图1示出累积自大量单粒子谱的谱(P)的实例,其中单粒子谱获得自源于单独独 立种群的样本,其中还包括一些典型的基本单粒子谱的实例(Q、R、s、T)。 由于大量的点对点变化和在单粒子峰值位置和累积谱峰值位置之间的有限关联, 某一位置(质量过载)的谱的振幅和带相关的质量的离子形成的物质的存在之间不存在确 定性关系。 以上实例说明分析谱数据的常规方法的问题。这些方法不能直接地处理单粒子 谱,因为他们没有考虑以上点对点的变化。此外他们不能处理由于测量技术的变化,诸如, 如以上描述的在MALDIMS中由于电离的变化。 本专利技术的目的是提供用于在谱数据的基础上对属于至少两类中的一类的样本进 行分类的改进方法,当属于同一类的谱显示出变化时其是有效的和可靠的。 根据本专利技术,通过在谱数据的基础上对在至少两类中的一类中的样本进行分类的 方法来完成该目的,该方法包括: a)获得至少两组第一谱用于作为参考谱使用,每组包括属于同一类的参考谱样 本; b)为每个参考谱确定与谱特征有关的相同的至少一个量的值; c)在确定值的基础上,关联概率与量的不同的值; d)从样本获得谱,并确定这个谱的相同的至少一个量的值;以及e)在关于获得的所述至少两类中的每类的谱的量的概率和值的基础上计算样本 属于该类的概率。 步骤a)-c)描述了参考库的创建。步骤d)和e)描述了对比样本和这个参考库。 在步骤b),针对每个参考谱确定了相同的至少一个量的值。例如,对谱数据执行数 学操作,以获得该值。换句话说,步骤b)描述通过对每个参考谱应用预定的函数或操作而 获得分值(值)。 步骤b)的结果是每个参考谱已与其至少一个值关联,每个值对应于预定的量,即 对谱的预定操作。下一步,对于每一组参考谱,在针对该组中谱确定的值的基础上,概率与 至少一个量的不同值相关联。这可被认为是构造概率密度函数(PDF)。例如,PDF是离散概 率密度函数,例如其可表示为数组或直方图。 步骤a)_c)的最终结果是每组参考谱已针对至少一个量中的每个量关联的各个 量的值的roF。例如,在MS谱数据情况下,选择的一个量是谱的强度,也称为谱振幅,在M/Z =lOOODalton。在这个实例中,对于每组参考谱PDF为强度在M/Z=IOOODalton时创建。 值得注意的是,通常对于不同组的参考谱PDF将显著不同,因为不同组的参考谱对应于不 同的类。 在步骤d),获得样本的谱,且此外关于这个谱的至少一个量的值被确定。在先前构 造的HF的基础上,在步骤e)中计算样本属于每一个参考类的概率。 因此根据本专利技术的方法使用每个类的量(与预定的操作/函数有关)的值(分 值)的roF,故该方法考虑同一类的谱中的变化。特别地,值得注意的是,通过至少一个量的 值表示的特征的存在和不存在都在根据本专利技术的方法中被考虑。 根据本专利技术的方法的另一优点是在步骤e)中的最终结果是概率。因为概率是归 一化的量,即概率是〇到1之间的值,故样本谱属于第一参考类的概率可以与谱属于第二类 的概率相比较。这是超越常规方法(其中分值被计算而不是归一化)的一个优点。 此外,本专利技术使得定义用于接受或拒绝分类的标准成为可能。通常,谱将被分配给 类,其为样本谱属于该类的概率最高的类。然而,这个概率可能是相对低的,例如0.2。该发 明使得定义表示关于可接受的分类的最小值的阈值成为可能。关于所有类的最大概率低于 阈值时不分类样本谱,即它们被分类到未知类中。当如在常规方法中的非归一化分值被使 用时这种过程是不可能,因为在那种情况下阈值将是任意的。 根据本专利技术的方法的优选方案本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201380030388.html" title="依据谱数据的样本分类方法、创建数据库的方法和使用该数据库的方法、以及相应的系统原文来自X技术">依据谱数据的样本分类方法、创建数据库的方法和使用该数据库的方法、以及相应的系统</a>

【技术保护点】
一种用于在谱数据的基础上对至少两类中的一类中的样本进行分类的方法,所述方法包括:a)获得用于用作参考谱的至少两组第一谱,每个组包括属于同一类的多个参考样本的谱;b)确定每个所述参考谱的关于谱特征的相同的至少一个量的值;c)在所确定的值的基础上,关联概率与所述量的不同值;d)从所述样本获得谱,并确定这个谱的所述相同的至少一个量的值;以及e)在所获得的所述至少两类中的每类的谱的概率和所述量的值的基础上,计算所述样本属于所述类的概率。

【技术特征摘要】
【国外来华专利技术】2012.04.10 NL 2008620;2012.06.15 NL 20090151. 一种用于在谱数据的基础上对至少两类中的一类中的样本进行分类的方法,所述方 法包括: a) 获得用于用作参考谱的至少两组第一谱,每个组包括属于同一类的多个参考样本的 谱; b) 确定每个所述参考谱的关于谱特征的相同的至少一个量的值; c) 在所确定的值的基础上,关联概率与所述量的不同值; d) 从所述样本获得谱,并确定这个谱的所述相同的至少一个量的值;以及 e) 在所获得的所述至少两类中的每类的谱的概率和所述量的值的基础上,计算所述样 本属于所述类的概率。2. 根据权利要求1所述的方法,其中所述谱数据包括喇曼谱、近红外谱、FTIR谱、频谱、 MALDI MS 谱或 MALDI TOF MS 谱,优选地为 MALDI TOF MS 谱。3. 根据权利要求1或2所述的方法,其中,所述参考谱和获得自所述样本的所述谱是单 粒子谱。4. 根据权利要求1、2或3所述的方法,其中所述样本是生物样本。5. 根据权利要求4所述的方法,其中所述生物样本包括微生物,且分类包括微生物的 分类。6. 根据权利要求1-5中的任一项所述的方法,其中,在参考类的特有谱特征的基础上 选择所述至少一个量。7. 根据权利要求1-6中的任一项所述的方法,其包括,针对获得与谱特征量Qi相关的 值Ii的样本谱,计算给定值I i时所述样本属于参考类^的概率P (Al Ii),根据的公式为:其中P (Ii IA,是参考类V与值Ii关联的概率,且k关j时的P (Ii IA,是不同于参考类 的至少一个参考类与值Ii相关联的概率。8. 根据权利要求1-7中的任一项所述的方法,其中步骤b)包括确定每个所述参考谱的 与谱特征相关的相同的至少两个量的值,且步骤e)包括结合获得的关于全部量的概率与 所述样本属于各个类的整体概率。9. 根据权利要求1-8中的任一项所述的方法,其中所述值与在至少一个预定的谱值处 的强度或在预定的谱值范围内的强度相关。10. 根据权利要求1-9中的任一项所述的方法,其中所述值被归一化。11. 根据权利要求1-10中的任一项所述的方法,其中,通过将在预定谱值范围上的各 个谱的强度...

【专利技术属性】
技术研发人员:雷内·雷蒙德·帕钦阿尔扬·劳伦·范乌伊杰克胡吉斯阿德里安努斯·博斯
申请(专利权)人:拜斯帕尔有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1