处理蛋白质肽数据的方法和系统技术方案

技术编号:2823093 阅读:199 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种处理从供分析的健康样本或病理样本获得的蛋白质肽数据的方法,该方法包括以下步骤:提供代表输入数据集的肽序列列表和相关辅助信息;通过除去所述肽序列列表中的肽序列冗余而从输入数据集中编辑新的肽序列列表,所述新的肽序列列表代表肽数据集;和将源自同一蛋白质的肽数据集的成员分组在一起,由此生成蛋白质数据集。

【技术实现步骤摘要】
处理蛋白质肽数据的方法和系统本专利技术涉及蛋白质鉴定并提供一种用于处理蛋白质肽数据的方 法和系统,所述蛋白质肽数据优选获自健康样本或病理样本,例如 组织样本。存在鉴定复杂混合物中的蛋白质以及检测相关表达镨中的差异 的需求。当已经鉴定足够数量的给定蛋白质的肽时,就认为该给定蛋白质存在于样品中。使用MSMS (串联质镨)用于快速和并行鉴 定大量的肽是本领域公知的。首先,利用质谙仪生成裂解语图,即 肽谦,并在所生成的肽i普基础上鉴定肽序列。简言之,该过程基本 按以下步骤进行。在进行降低样本复杂度的分离(例如利用液相色 镨)之后,用合适的酶(如胰蛋白酶)消化产生待检测的肽。然后 利用质谱仪进行基于质量的选择,并且在质镨仪的第二室中进行碰 撞诱导解离,从而发生裂解。由于与质镨仪第二室中的惰性气体相 碰撞,导致肽裂成碎片,并且获得质量为从O直到完整肽质量的多 个片段。然后,为了鉴定,将裂解谱图与序列相关联。因此,可以 从谱图中读出序列(或其部分)。最后,有必要进行数据库检索, 利用试验镨图进行镨图比较,直至找到最佳匹配。也就是说,将肽 的裂解谱图与候选肽的理论生成的镨图进行比较。由于该比较产生 大量的数据,所以数据的后处理非常耗时。这提前限制了试验的程 度。由于不存在处理巨量生成数据的实际解决方案,所以对不同试 验的结果进行比较或操作所产生的数据进行后处理变得非常困难 和耗时。因此,本专利技术的一个目的是提供一种改善和加快肽的后处理、 即将所鉴定的肽分配到蛋白质和蛋白质分组中的方法和系统。该目 的通过所附权利要求的特征而实现。本专利技术的第 一 方面涉及一种处理从供分析的健康样本或病理样 本获得的蛋白质肽数据的方法,该方法包括以下步骤(a)提供代 表输入数据集的肽序列列表和相关辅助信息;(b)通过除去肽序列 列表中的肽序列冗余而从输入数据集编辑新的肽序列列表,所述新 的肽序列列表代表肽数据集;和(c)将源自同一蛋白质的肽数据集的成员分组在一起,由此生成蛋白质数据集。所述辅助信息优选包括以下至少一种相应的度量值、源蛋白 质、肽的物理化学性质、肽在蛋白质序列中的偏移。在步骤(b)中,在新的肽序列列表中优选用单一项来代表肽 冗余。优选通过考虑全部冗余肽序列的相应值来计算该单一项的肽 度量值。步骤(c)优选包括基于其每个肽的测量值来计算每种蛋白质的 总蛋白质度量。所述输入数据集、蛋白质数据集和肽数据集优选存储在关系型 数据库中。每个肽序列例如映射至一个唯一编号,并且一种蛋白质 的肽的唯一编号之总和为每种蛋白质提供唯一识别编号。优选基于 这些唯一识别编号来分组。根据一个优选实施方案,使至少一些数据集直观化。第一方面的方法优选还包括步骤(d):确定蛋白质数据集内共 有相同肽的蛋白质并将其分组,由此形成蛋白质分组的数据集;并 由此检测该蛋白质集中的冗余。根据本专利技术,提供并处理两个数据集, 一个对应于健康组织, 一个对应于病理组织,以便在病理组织中找出不能在健康组织中找 到的那些部分。因此,本专利技术提供在病理组织内存在而在健康组织 内不存在或者在健康组织内存在而在病理组织内不存在的蛋白质 的列表。本专利技术的第二方面涉及一种方法,其包括以下步骤(a)提供 与健康或病理组织相关的至少两个肽数据集或蛋白质数据集;(b) 合并所述肽数据集或蛋白质数据集以生成复合数据集;和(c)输 出所述复合数据集。根据第二方面的方法,优选将健康组织的肽数据集或蛋白质数 据集与健康组织的其它肽数据集或蛋白质数据集合并。作为替代方 案,将病理组织的肽数据集或蛋白质数据集与病理组织的其它肽数 据集或蛋白质数据集合并。作为进一步的替代方案,将健康组织的 肽数据集或蛋白质数据集与病理组织的肽数据集或蛋白质数据集 合并。优选根据布尔运算(Boolean operation)规则及其组合来实施 步骤(b)中的合并。优选地,在合并步骤中,计算每个成员蛋白 质或成员肽的各种度量以包括来自每个原始数据集的贡献。根据一个优选的选择方案,第二方面的方法还包括将第一复合 数据集与至少一个其它复合数据集合并以生成更高等级的复合数 据集。优选通过以下步骤获得所述肽数据集提供代表输入数据集的 肽序列列表和相关辅助信息;和通过除去肽序列列表中的肽序列冗 余而从输入数据集编辑新的肽序列列表,所述新的肽序列列表代表 肽数据集。优选通过以下步驟获得所述蛋白质数据集提供代表输入数据 集的肽序列列表和相关辅助信息;通过除去肽序列列表中的肽序列 冗余而从输入数据集编辑新的肽序列列表,所述新的肽序列列表代 表肽数据集;和将源自相同蛋白质的肽数据集成员分组在一起,由 此生成蛋白质数据集。根据本专利技术的第 一或第二方面,优选通过排除不满足预定标准 的那些成员,从单个肽数据集或蛋白质数据集生成受限制的肽数据 集或蛋白质数据集。预定标准可以是用户输入标准。用于肽集限制 的标准为例如度量阈值、序列特征如特定氨基酸的存在或缺失、质 量限制或对其它物理化学性质的限制。此外,用于蛋白质集限制的 标准是例如度量阈值、蛋白质的序列内容、物理化学性质。第一或第二方面的方法优选包括以下步骤比较第一蛋白质数 据集和第二蛋白质数据集以确定两个蛋白质集的蛋白质表达模式之间的相似度。可以通过利用统计学秩相关检验来进行比较,例如 检验共同蛋白质的肽计数的数目,或检验每种蛋白质的所检测的不 同肽。还可以对蛋白质覆盖度进行统计学秩相关检验。比较结果包含有关蛋白质丰度模式的信息。本专利技术还提供一种用于处理从供分析的健康或病理样本获得的 蛋白质肽数据的系统,该系统包括用于提供代表输入数据集的肽序 列列表和相关辅助信息的装置;用于通过除去肽序列列表中的肽序 列冗余来从输入数据集编辑新的肽序列列表的装置,所述新的肽序列列表代表肽数据集;和用于将源自相同蛋白质的肽数据集成员分 组在一起从而生成蛋白质数据集的装置。此外,本专利技术提供一种系统,所述系统包括用于提供与健康或 病理组织相关的至少两个肽数据集或蛋白质数据集的装置;用于合 并所述肽数据集或蛋白质数据集以生成复合数据集的装置;和用于 输出复合数据集的装置。现在将参照附图来说明本专利技术,附图中图l是显示根据本专利技术第一方面的一个优选实施方案的方法和 优选的额外步骤的示意图2是数据结构相关性的图示;图3显示构成肽集的非冗余肽列表的一个实例;和图4显示蛋白质集的一个实例。根据本专利技术的第一方面的方法,提供输入数据,例如肽序列列 表和相关辅助信息。所述肽序列列表和相关辅助信息代表输入数据 集(参见附图说明图1 "输入")。对于每个试验,本专利技术将输入序列和诸如相应的度量值、起始 蛋白质等相关信息保存在恰当设计的数据结构中。输入序列是单个 肽序列(术语肽和序列可以互换使用;肽通过其序列来唯一识别)。 每种这样的肽属于一种蛋白质,但是不一定样品中所存在的蛋白质 的所有可能肽都是输入的一部分(即,在试验中检测到)。这些肽 序列(在试验样本中最可能存在的那些)在先期处理中基于各种标 准来测定。附加信息可以包括通过对注记(给定肽确实在样品中 的实际确定过程)不正确的可能性进行量化的先期注记算法获得的 各种度量值、肽的各种物理化学性质、肽在蛋白质序列中的偏移、 注记程序存储结果的实际计算机数据文件名、与整体试验设计/程序 相关本文档来自技高网...

【技术保护点】
一种处理从供分析的健康样本或病理样本获得的蛋白质肽数据的方法,该方法包括以下步骤:    (a)提供代表输入数据集的肽序列列表和相关辅助信息;    (b)通过除去所述肽序列列表中的肽序列冗余而从所述输入数据集编辑新的肽序列列表,所述新的肽序列列表代表肽数据集;和    (c)将源自同一蛋白的肽数据集的成员分组在一起,由此生成蛋白质数据集。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:尼古劳斯贝恩泰尼斯克里斯蒂安米斯贝恩德穆勒
申请(专利权)人:F霍夫曼拉罗奇股份有限公司
类型:发明
国别省市:CH[瑞士]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1