用于数据库比较的呼吸样本数据的对齐制造技术

技术编号:22025832 阅读:69 留言:0更新日期:2019-09-04 02:19
一种用于将针对多个气体样本(例如呼吸样本)的数据与挥发性有机化合物同步的方法(RT_A)。所述数据包括指示分子洗脱时间的色谱数据,并且优选地还包括质谱数据。所述方法包括识别或者选择(I_MM)标记分子,例如5‑20个分子,优选地针对所述多个气体样本中的每个的容易可识别分子,并且根据聚类准则将所述多个气体样本聚类(CL)为多个聚类,所述聚类准则例如包括额外的信息,诸如获得所述数据的时间和/或使用的分析装备。接下来,通过使用所述标记分子作为锚定点在针对聚类之间的气体样本的数据上执行保留时间偏差的第一校正(P_C1),从而提供针对所述气体样本的数据之间的保留时间偏差(d)的粗略减小。最后,针对气体样本的数据上的保留时间偏差的第二校正(P_C2),从而进一步减小针对气体样本的数据之间的保留时间偏差(d),例如通过使用标准软件包。所述方法可以减小显著的保留时间偏差,从而允许例如在不同的时间段处由不同的装备获得的呼吸样本指纹在用于诸如HSDP的数字平台(DP)上的一个数据库中被比较。

Alignment of breath sample data for database comparison

【技术实现步骤摘要】
【国外来华专利技术】用于数据库比较的呼吸样本数据的对齐
本专利技术总体上涉及气体的分析。具体地,本专利技术涉及适于气体(例如,从人呼出的呼吸或者基于来自皮肤、尿液或者粪便的样本的气体)的医学分析的方法和设备。更具体地,本专利技术涉及用于基于光谱学数据(例如来自GC-MS或微GC系统)进行保留时间同步或者对齐呼吸指纹以允许跨时间和跨不同的装备的数据库比较的方法和系统。
技术介绍
健康和疾病中的呼出气分析是日益增长的临床兴趣的领域。使用呼吸作为生物样本是有吸引力的,因为呼吸收集是便宜、易于执行和非侵入性的。挥发性有机化合物(VOC)从皮肤、尿液、粪便排出,并且最为显著地经由呼出气排出。除了肺根源之外,VOC还可以源自于血液,从而反映贯穿身体的生理、病理或病原体相关生化过程。这样一来,呼出气分析可以允许对身体内部的任何地方的疾病过程进行代谢指纹分析。若干研究已经示出这些技术在清楚定义的具有各种疾病的患者的子集中的诊断潜力。当疾病存在时呼出气中的挥发物变化,并且特定标记可以被链接到特定疾病。呼出气中存在的其他挥发性化合物的复合基质中的非常低的量的这些特定标记的检测甚至对现有技术分析技术而言也是一个挑战。VOC的黄金标准分析基于化学分析技术,诸如气相色谱质谱测定(GC-MS)。该技术提供关于个体分子化合物的知识并且从而扩展我们对疾病病理学的理解。小型化GC系统或其他分离方法还可以被用于将挥发物分离。若干研究已经示出具有各种疾病的患者的清楚定义的子集中的这些技术的诊断潜力。然而,将这些技术实施到临床设置中当前受设备间和设备内差异限制。尽管诸如由GC系统中的柱提供的分离技术对于具体地测量感兴趣化合物并且因此产生呼吸指纹是重要的,但是柱的磨损和老化引起使随时间的比较复杂的保留时间移位。为了同步GC-MS数据,使用不同的方案。一个方案是预处理软件的使用,其中,例如XCMS包中的保留时间对齐对于相对小的保留时间移位非常好。该软件包当前是代谢组学文献中的最多引用的预处理工具。另一方案是使用来自所测量的色谱图的分子作为锚定点来将所有色谱图彼此对齐。使用的分子可以要么已经存在于原始测量的样本中,要么稍后添加以允许标准化、识别和对齐目的。为了跨健康护理连续区的呼吸分析的使用,能够准确地比较在不同的时刻处和在不同的平台或机器上测量的样本是重要的。实际上,为了将呼吸分析结果集成在数据库系统中,例如基于云的存储和分析,诸如健康套件数字平台(HSDP),测量结果的标准化将提供大的优点。这样的系统仅允许当数据以统一的方式添加时该大数据的分析。
技术实现思路
根据上文,本专利技术的专利技术人已经意识到,能够准确地随时间比较呼吸指纹并且允许将这样的数据集成到数字平台中是一个问题,并且具体地保留时间偏差的准确校正是针对这样的集成的重要参数。具体地,提供一种解决现有技术的上文所提到的问题或其他问题的设备和方法可以看作本专利技术的目的。在第一方面中,本专利技术提供一种用于将针对多个气体样本的数据与挥发性有机化合物(诸如被获得为从对象呼出的呼吸的气体样本)同步的计算机实施的方法,所述方法包括:-针对所述多个气体样本中的每个接收指示分子洗脱时间的色谱数据,-识别针对所述多个气体样本中的每个的色谱数据中的至少一个标记分子(优选地呈现不同的峰),-根据聚类准则将所述多个气体样本聚类为多个聚类,-通过使用所述标记分子作为锚定点来执行针对聚类之间的所述多个气体样本的所述数据上的保留时间偏差的第一校正,从而减小针对所述多个气体样本的所述数据之间的保留时间偏差,诸如在所述标记分子的保留时间上使用多项式拟合函数,并且-在所述第一校正之后,执行针对所述多个气体样本的所述数据上的保留时间偏差的第二校正,从而进一步减小针对所述多个气体样本的所述数据之间的保留时间偏差。这样的方法是有利的,因为专利技术人已经认识到,时间同步或者时间对齐在长时间段内从气体样本获得的均匀数据是可能的,从而允许将例如呼吸指纹数据集成在数字平台上。由此,在不同的时间段处在不同的装置处获得和分析的呼吸样本可以集成在所述数字平台上以形成有价值的临床信息数据库。尤其是,所述方法适于,基于通过气体色谱分析-质谱测定(GC-MS)或者在所述气体样本被转换为液体的情况下的液体色谱分析-质谱测定(LC-MS)分析过程对所述气体样本的分析对数据进行同步或者时间对齐。针对气体样本的额外的质谱数据还可以有利地应用在方法中以改进分子的识别。尤其是,所述方法可以被布置为在由这样的GC-MS或LC-MS设备提供的数据或者来自这样的设备的数据的预处理版本上操作。用于获得GC-MS或者LC-MS数据以及关于这些数据自身的细节的设备和方法脱离本专利技术的范围,但是由技术人员已知。所述方法是有利的,因为其在不需要将分子添加到所述气体样本以之后允许对齐的情况下工作,其可能干扰和/或混淆原始气体样本。在第一时间校正中,校正超过利用现有处理工具箱可能的事物的较大保留时间偏差是可能的。可以通过应用现有处理工具箱执行进一步减小保留时间偏差的第二时间校正步骤。方法可以被实施为独立软件或者被集成在现有数字平台软件包中。在以下中,将描述第一方面的优选的实施例或者特征。识别一个或多个标记分子的步骤可以包括检测指示分子洗脱时间的色谱数据中的强度峰。(一个或多个)标记分子优选地是所谓的容易可识别分子(EIM)。例如,在这样的质谱数据也可用于所述多个气体样本的情况下,(一个或多个)标记分子的识别可以由质谱以及与数据库或者查找表数据的比较支持。识别至少一个标记分子的步骤优选地包括识别多个标记分子。尤其是,诸如5-20标记分子(例如8-12标记分子)可以被选择用于以下步骤。此外,优选的是,识别(一个或多个)标记分子的步骤包括选择具有相差超过200秒(例如超过300秒)的保留时间的至少两个标记分子,然而这被理解为取决于实际色谱数据和被用于提供数据的装备。最优选地,选择多个标记分子,使得标记分子表示具有至少覆盖大多数感兴趣的保留时间范围的保留时间的分子,从而获得感兴趣保留时间范围上的最好时间同步。例如,可以优选的是,标记分子被选择为覆盖感兴趣保留时间的均匀扩散。所述多个标记分子优选地包括选自以下分子的至少一个分子(诸如至少两个分子):丙酮、异戊二烯、乙酸乙酯、苯、戊醛、甲基环己烷、甲苯、辛烷、苯乙烯、α-蒎烯、丙基苯、苯酚、α-甲基苯乙烯和d-柠檬烯。所述多个标记分子可以尤其包括以下分子中的至少一种:苯和甲苯,诸如苯和甲苯两者。这些分子作为标记分子是优选的,因为其常常存在于呼出气中,并且其由于大量存在或者独特的质谱图而易于识别。应理解,在其他类型的气体分子要被分析的情况下,其他分子可以被选择为标记分子。识别(一个或多个)标记分子的步骤可以包括识别仅存在于所述多个气体样本的子集中的至少一个标记分子,然而选择存在于所有所述多个气体样本中的分子也可以是优选的。聚类的步骤优选地根据涉及针对所述多个气体样本中的(一个或多个)标记分子的保留时间的聚类准则(诸如用于使聚类内的(一个或多个)标记分子的保留时间差异最小化的聚类准则)执行。聚类的步骤优选地根据涉及关于所述多个气体样本的信息的聚类准则执行,诸如已经获得关于用于获得所述多个气体样本中的每个的时间和日期的信息,从而允许具有利用相同设备或者在相同时间段处获得的气体样本的本文档来自技高网
...

【技术保护点】
1.一种用于将针对多个气体样本的数据与挥发性有机化合物进行同步的计算机实施的方法(RT_A),所述方法包括:‑针对所述多个气体样本中的每个气体样本接收(R_GCD)指示分子洗脱时间的色谱数据,‑识别(I_MM)针对所述多个气体样本中的每个气体样本的所述色谱数据中的至少一个标记分子,‑根据聚类准则将所述多个气体样本聚类(CL)为多个聚类,‑通过使用所述标记分子作为锚定点来执行(P_C1)针对聚类之间的所述多个气体样本的所述数据上的保留时间偏差的第一校正,从而减小针对所述多个气体样本的所述数据之间的保留时间偏差(d),并且‑在所述第一校正之后执行(P_C2)对针对所述多个气体样本的所述数据上的保留时间偏差的第二校正,从而进一步减小针对所述多个气体样本的所述数据之间的保留时间偏差(d)。

【技术特征摘要】
【国外来华专利技术】2017.01.23 US 62/449,1461.一种用于将针对多个气体样本的数据与挥发性有机化合物进行同步的计算机实施的方法(RT_A),所述方法包括:-针对所述多个气体样本中的每个气体样本接收(R_GCD)指示分子洗脱时间的色谱数据,-识别(I_MM)针对所述多个气体样本中的每个气体样本的所述色谱数据中的至少一个标记分子,-根据聚类准则将所述多个气体样本聚类(CL)为多个聚类,-通过使用所述标记分子作为锚定点来执行(P_C1)针对聚类之间的所述多个气体样本的所述数据上的保留时间偏差的第一校正,从而减小针对所述多个气体样本的所述数据之间的保留时间偏差(d),并且-在所述第一校正之后执行(P_C2)对针对所述多个气体样本的所述数据上的保留时间偏差的第二校正,从而进一步减小针对所述多个气体样本的所述数据之间的保留时间偏差(d)。2.根据权利要求1所述的方法,其中,识别(I_MM)至少一个标记分子的步骤包括检测指示分子洗脱时间的所述色谱数据中的强度峰。3.根据权利要求1所述的方法,其中,识别(I_MM)至少一个标记分子的步骤包括识别5-20个标记分子。4.根据权利要求1所述的方法,其中,识别(I_MM)至少一个标记分子的步骤包括选择具有相差超过200秒的保留时间的至少两个标记分子。5.根据权利要求1所述的方法,其中,所述至少一个标记分子包括从以下项选择的至少一个分子:丙酮、异戊二烯、乙酸乙酯、苯、戊醛、甲基环己烷、甲苯、辛烷、苯乙烯、α-蒎烯、丙基苯、苯酚、α-甲基苯乙烯和d-柠檬烯。6.根据权利要求5所述的方法,其中,所述至少一个标记分子至少包括被选定为标记分子的苯和甲苯。7.根据权利要求1所述的方法,其中,识别(I...

【专利技术属性】
技术研发人员:J·韦达T·J·温克H·H·克诺贝尔T·M·E·尼杰森
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1