质谱分析方法技术

技术编号:2590776 阅读:131 留言:0更新日期:2012-04-11 18:40
本文提出了一种用数字计算机分析质谱的方法。此方法包括将从大量样本中得到的质谱数据集输入数字计算机的方法。每个样本都代表了一个包含两个以上类的类集中的一个类,每个类都对应于一种不同的生物状态。本文接着提出了一个分类模型。此模型可以区分类集中的各个类。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术是关于的。
技术介绍
最近关于基因组的研究已经可以识别与不同疾病相关的许多种基因。但是,尽管基因组研究可以识别出与遗传性的对一种疾病有易患体质的基因,仍然需要对诸如蛋白质等标记物进行表征和识别。“标记物”通常是指一种多肽或其它一些可以区分不同生物状态的分子。在病理状态下,蛋白质和其它标志物是重要的因素。例如,蛋白质可随生物状态的改变(例如生病)而改变。它们也可以传达疾病、中毒或其它刺激的信息。在生病时,某些蛋白质进入休眠状态,而另一些蛋白质则激活。例如,前列腺特异性抗原(PSA)是一种循环性的血清蛋白,其含量增加与前列腺癌有关。如果蛋白质含量的增加能被快速检测到,医生就可以及早诊断疾病并提高疗效。识别出新的标志物是诊断学药物研发过程中最早最难的步骤之一。辨别一种物质是否是某种疾病的一种方法是,判别相对于没有这种疾病的病人样本,它们在表现出这种疾病的病人的生物样本中,是否被“差别表达”。例如,图1(a)显示了来自一组18个有病患者的样本的大量互相重叠的质谱中的曲线图100。此患者可能患有例如前列腺癌。图1(b)所示的另一幅曲线图102显示了来自一组18个一般病人的样本的互相重叠的质谱。曲线图100、102的信号强度都绘成由质量-电荷比的函数。曲线图100、102中的信号强度与分子量的标记物浓度成正比,这些标记物与样本中的质量-电荷比A相关。如曲线图100、102所示,在质量-电荷比A处,两幅质谱中都有若干信号存在。这些信号中的峰值代表了可能的其分子量与质量-电荷比A相关的标记物。将曲线图100、102中的信号结合起来看,很明显有病的患者在质量-电荷比A处的平均信号强度比一般患者高。称质量-电荷比A处的标记物对有病患者“差别表达”,因为平均起来,此标记物的浓度在有病患者样本中高于一般患者样本。观察图1(a)、1(b)中的数据,一般可以得出结论,有病患者样本中质量-电荷比A的标记物浓度大于一般患者。由于这种标记物在有病患者样本中的浓度高于一般患者,这种标记物可对这种疾病表征为“正相关”。如果有病患者样本中标记物的浓度低于一般患者,此蛋白质可称为“负相关”。标记物一旦发现,就可以用作诊断工具。例如,关于上述例子,一个测试病人的未知样本可以用质谱仪分析并得到一个质谱。可对质谱进行分析并得到测试病人质谱中质量-电荷比A处的信号强度。此信号强度可与有病患者和一般患者在质量-电荷比A处的平均信号强度相比较。据此可推断此测试病人是否已患或将要患上癌症。例如,如果此未知样本在质量-电荷比A处的信号强度更接近有病患者在此处的平均信号强度,则可以推断此患者更可能已经或将要患癌症。虽然所述差别表达分析有效,但是有许多方面可作改进。例如,分析患者生物样本中的一个标记物如PSA的量,对监护病症的发展常常不够可靠。PSA被认为是目前可用的最好的前列腺癌标记物之一。但是,它并不总是能正确区分良性和恶性前列腺疾病。尽管生物样本中的一种标记物(如PSA)的浓度分析能在一定程度上判断一个测试病人是否有病,还是需要一个有更大可信度的方法。而且,当分析大量生物样本的大量质谱时,难以分清究竟哪个信号代表可能区分有病和无病状态的标记物。典型的生物样本质谱包含有大量潜在的标记物信号(例如,大于200)以及大量噪声,这会使得潜在的重要信号以及平均信号差的识别很困难,因此也就使得识别和量化潜在的标记物很困难。除非潜在的标记物表现出强正相关或强负相关,否则,有病和无病患者的样本的平均信号差将不易区分。例如,通常难以直观看出一组质谱中给定质量处的一簇信号的平均信号强度比另一组质谱中的一簇信号高还是低。另外,很多潜在的重要信号可能强度值较低。谱中的噪声可能会模糊这些潜在的重要信号。这些信号可能无法被发现并被无意中从差别表达分析中忽略掉了。能有更好的分析质谱的方法将是很好的事。例如,它可以提供一个更准确地发现潜在有用标记物的方法。它也可以提供一个改进的分类模型,可以用来判断一个未知样本是否与一种特定生物状态有关。本专利技术本身就是用于解决这些以及其它一些问题的。
技术实现思路
本专利技术是关于质谱分析的方法。在本专利技术中,利用数字计算机形成一个分类模型,可用于将与不同生物状态关联的样本分类开。此分类模型可用做预诊断工具。也可以用来识别相关于某种生物状态的潜在标记物。进一步,此分类模型可通过诸如回归分离处理这样的处理形成。本专利技术的一实施例是关于使用数字计算机进行质谱分析的方法。这个方法包括a)将从大量样本中得到的质谱数据集输入计算机,其中每个样本都会或将会归于一组包含两个或两个以上类的类集中的一个类,每一类代表一种不同生物状态的特性,其中每个质谱包含代表信号强度的数据,此强度是质量-电荷比或由质量-电荷比得到的一个数值的函数;并且b)形成了一个分类模型,可以用来区分类集中的不同类,模型的形成包括通过执行代码来分析数据集,此段代码实施包含回归分离处理的分类处理。本专利技术另一实施例包括使用数字计算机进行质谱分析的方法。这个方法包括a)将从大量样本中得到的质谱数据集输入数字计算机,其中每个样本都会或将会归于一组包含两个或两个以上类的类集中的一个类,每一类代表一种不同生物状态的特性,其中每个质谱包含代表信号强度的数据,此强度是飞行时间或由飞行时间得到的一个数值的函数;并且b)形成了一个分类模型,可以用来区分类集中的不同类,模型的形成包括通过执行代码来分析数据集,此段代码实施回归分离处理。本专利技术还包括一个计算机可读的媒介。此媒介包括a)将从大量样本中得到的质谱数据输入计算机的代码,其中每个样本都会或将会归于一组包含两个或两个以上类的类集中的一个类,每一类代表一种不同生物状态的特性,其中每个质谱包含代表信号强度的数据,此强度是飞行时间或由飞行时间得到的一个数值的函数,或质量-电荷比或由质量-电荷比得到的一个数值的函数;以及b)通过回归分离程序生成分类模型的代码,此分类模型可以区分类集中的类。质谱可使用例如激光解析电离过程生成。本专利技术还包括使用数字计算机将一个未知样本分类为代表一类生物状态特性的方法。此方法包括a)将从未知样本得到的质谱数据输入计算机;以及b)用分类模型处理质谱数据,从而将未知样本划分为对应于某种生物状态特性的类。分类模型可通过回归分离处理生成。本专利技术还包括估计使用计算机将未知样本准确划分为对应于某种生物状态特性的类的可能性的方法。此方法包括a)将从未知样本得到的质谱数据输入计算机;以及b)使用分类模型处理质谱,以估计未知样本准确划分为对应于某种生物状态特性的类的可能性。分类模型可通过回归分离处理生成,且由来自归应于两个或更多个不同生物状态的类的样本的质谱数据集生成。本专利技术中,所分析的质谱可能是预先存在的,例如,可能在分类模型生成之前早就存在了。或者,质谱数据也可能在分类模型生成的同时产生。本专利技术的这些以及其它一些实施例参照图和详细说明来描述。附图说明图1(A)所示为有病患者样本的重叠的质谱。图1(B)所示为一般患者样本的重叠的质谱。图2所示为本专利技术实施例生成质谱的方法的流程图。图3所示为对数归一的强度与识别出的峰值簇的函数图。图中显示了两组不同样本的质谱的信号强度。图4所示为根据本专利技术实施例质谱预处理的首选的流程图。图5所示为根据本专利技术实施例质谱预处理本文档来自技高网
...

【技术保护点】
一个用数字计算机分析质谱的方法,其特征在于,此方法包括:    a)将从来自大量样本的质谱中得到的数据集输入数字计算机,其中每个样本被或将被指定为一个包含两个或更多类的类集中的一个类,每类由一个不同的生物状态表征,而其中每个质谱包含的数据代表信号强度作为飞行时间,质量-电荷比或由飞行时间或质量-电荷比衍生出的值的函数;且    b)形成一个分类模型,区分类集中的类,其中形成包括通过执行代码分析数据,这些代码实施含有递归划分处理的分类处理。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:CD保尔瑟EJ加文L布拉金斯基WE里奇冯哲力
申请(专利权)人:赛弗根生物系统股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1