一种用于利用测序数据将肽映射到蛋白质的计算方法技术

技术编号:9537643 阅读:92 留言:0更新日期:2014-01-03 21:41
本发明专利技术公开了一种用于生物样本的蛋白质组分析的方法,该方法包括获取目标列表中的蛋白质的肽序列;以及通过将所获取的肽序列映射到蛋白质组数据库中的蛋白质上来识别鉴定生物样本中的蛋白质,其中所述目标列表利用生物样本中的RNA转录物的信息而被确定所述目标列表,并且/或者所述目标列表利用所述生物样本中的RNA转录物的信息而被确定所述目标列表。所述肽序列利用质谱仪而被确定所述肽序列。所述映射基于RNA转录物的信息在蛋白质子集上被执行所述映射。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种用于生物样本的蛋白质组分析的方法,该方法包括获取目标列表中的蛋白质的肽序列;以及通过将所获取的肽序列映射到蛋白质组数据库中的蛋白质上来识别鉴定生物样本中的蛋白质,其中所述目标列表利用生物样本中的RNA转录物的信息而被确定所述目标列表,并且/或者所述目标列表利用所述生物样本中的RNA转录物的信息而被确定所述目标列表。所述肽序列利用质谱仪而被确定所述肽序列。所述映射基于RNA转录物的信息在蛋白质子集上被执行所述映射。【专利说明】
本专利技术涉及蛋白质组学,尤其涉及用于利用质谱仪数据进行蛋白质分析的工作流程。
技术介绍
近来对个性化医疗的推进需要对个体中的各种生物分子进行更高效的分析。这通常涉及分析病人的蛋白质组。蛋白质组可以被定义为用由基因组表达的蛋白质。蛋白质表达(既而蛋白质组)可能例如随着个体生理条件的变化或者随着病理或药物治疗的进行而因时而异。蛋白质组分析通常利用液相色谱法(LC)结合串联质谱法(MS/MS)而被执行进行。这些技术已经成为用于蛋白质识别鉴定的重要工具,因为它们可以快速且地以高敏感度地识别鉴定复杂的蛋白质混合物。在典型的方法中,一种将蛋白质混合物被消化(通常利用胰蛋白酶)为肽,被分离分级(例如利用LC)并且通过质谱法(MS/MS)被分析。得到的胰蛋白酶片段的MS数据随后被用于推断或识别鉴定父亲本蛋白质,这可以通过自动数据库搜索来实现。图1示出了图示蛋白质组分析的一般过程的流程图。如图所示,方法10开始于准备用于分析的样本(步骤11),该步骤可以包括蛋白质的消化(通常利用胰蛋白酶)和片段的分离。然后,对消化后的肽片段被进行质谱仪分析(步骤12),该步骤通常包括对所有肽片段的全面扫描(或者调查全谱扫描)。一些肽片段(例如,更多冗余丰度较高的片段)被进行串联质谱仪(MS/MS)分析以阐释肽序列(步骤13)。然后,使用肽序列被用于搜索数据库以识别父鉴定亲本蛋白质(步骤14)。这种方法理论上可以实现对样本中的所有蛋白质的识别鉴定。这种方法可以被称为鸟枪法。然而,利用这种“鸟枪”法的蛋白质识别鉴定非常有难度并且需要很多资源。一种替代方法是被称为针对性蛋白质组分析的方法,在该方法中只分析目标列表中的蛋白质。对于针对性蛋白质组分析,对质谱数据的处理通常涉及两个主要步骤:识别鉴定目标蛋白质和对目标蛋白质的质谱仪分析,如图2中所示,图2示出了方法20,该方法包括生成用于分析的目标蛋白质的列表的步骤(步骤21),接着利用质谱法(例如MS/MS)和肽到蛋白质的映射(即利用肽序列搜索数据库)进行蛋白质分析(例如利用肽序列搜索数据库;步骤22) ο目标蛋白质列表的生成(步骤21)通常基于调查全谱质谱仪分析来根据相对丰度或其它差异特性识别鉴定感兴趣的蛋白质或肽。利用MS/MS和肽映射所进行的定向肽测量(步骤22)可以包括与图1中所示的过程相同的过程,只是步骤22不同之处在于将对列表中的蛋白质执行MS/MS测量。鸟枪蛋白质组分析方法(图1)和针对性蛋白质组分析方法(图2)都是通过利用测得的肽序列搜索数据库来识别鉴定蛋白质并且通过测得的肽丰度的集合推断蛋白质丰度。这些过程通常涉及庞大的数据库,通过该数据库经消化的肽被映射到可能的蛋白质。这种方法受到以下问题的困扰:假阳性映射和大量可能异构体的混合存在,这些可能的异构体难以仅仅根据蛋白质数据库进行辨别。因此,根据肽数据的被预测蛋白质的错误集合包含假阳性。这可能导致大量的推定的蛋白质预测,这可能是很难在生物环境中进行分析的。此外,在针对性质谱蛋白质组分析方法中,目标肽识别鉴定传统上是基于相关丰度测量的,这可能导致目标特异性的缺失。这会导致被错认为目标的肽,进而使得在MS/MS阶段的肽到蛋白质的映射变得复杂。
技术实现思路
本专利技术的一个方面涉及用于生物样本中的蛋白质组分析的方法。根据本专利技术的一个实施例的方法包括获取目标列表中的蛋白质的肽序列;以及通过将所获取的肽序列映射到蛋白质组数据库中的蛋白质上来识别鉴定所述生物样本中的蛋白质,其中所述目标列表利用所述生物样本中的RNA转录物的信息而被确定,并且/或者所述目标列表利用所述生物样本中的RNA转录物的信息而被确定。根据一些实施例,肽序列可以利用质谱仪而被确定肽序列。目标列表可以利用RNA转录物的信息而被确定目标列表。根据本专利技术的一些实施例,映射可以在蛋白质组数据库中的蛋白质子集上被执行映射,其中所述蛋白质子集基于生物样本中的RNA转录物的信息而被来选择所述蛋白质子集。所述被识别可以将鉴定的蛋白质可以被与所述RNA转录物的信息进行比对检查,以去除与所述RNA转录物中的任何信息都不相对应的蛋白质。根据本专利技术的一些实施例,可以将所述被识别鉴定的蛋白质可以被与所述RNA转录物的可信指数进行比对检查。所述可信指数通过包括以下步骤的过程被获取所述可信指数:(i)将所述RNA转录物中的每一个种与根据所述RNA转录物预测的蛋白质聚集集合体表达水平相关;(ii)将所述RNA转录物中的每一个种与从蛋白质组测量结果得到的聚集集合体蛋白质相关;以及(iii)基于对来自步骤(i)的相关结果和来自步骤(ii)的相关结果的比较,得到针对所述RNA转录物的可信指数。在以上实施例中的任一实施例中,生物样本中的RNA转录物的信息可以被用于确定蛋白质的目标列表。该目标列表可以基于生物系统的更多信息而被确定该目标列表。所述更多信息可以包括在两种或更多种条件下蛋白质的差异表达。所述蛋白质的差异表达可以利用质谱仪或2D凝胶电泳而被确定。以上实施例中的任一实施例中的RNA转录物可以是信使RNA (mRNA)。以上实施例中的映射可以在蛋白质组数据库中的蛋白质子集上被执行,其中所述蛋白质子集基于生物样本中的mRNA转录物的信息而被选择。本专利技术的另一方面涉及用于生物样本的转录组分析的方法。根据本专利技术的一个实施例的方法包括:执行蛋白质组分析以获取包括生物样本中的蛋白质的身份和相对丰度的蛋白质组数据;以及利用所述蛋白质组数据设计转录组或基因组研究,其中所述蛋白质组数据被用于根据DNA文库设计序列富集或者设计DNA微阵列。本专利技术的其它方面和优点将通过以下描述和所附权利要求而变得更清楚。【专利附图】【附图说明】图1示出了说明传统蛋白质组分析方法的过程的示意图。图2示出了针对性蛋白质组分析方法的工作流程。图3示出了根据本专利技术的一个实施例的方法的工作流程,其中转录物序列信息被用于辅助蛋白质目标列表的确定并且/或者辅助利用映射到数据库中的蛋白质上的肽序列进行的蛋白质识别鉴定。图4示出了根据本专利技术的一个实施例的方法的工作流程,其中mRNA信息被用于辅助蛋白质目标列表的确定并且/或者辅助利用映射到数据库中的蛋白质上的肽序列进行的蛋白质识别鉴定。图5示出了说明根据本专利技术的一个实施例的将转录物与蛋白质相关的方法的流程图。图6示出了可以结合本专利技术的实施例被使用的通用计算机。具体实施例如上所述,传统的蛋白质组分析方法可能具有假阳性和假阴性识别鉴定的问题。本专利技术的实施例涉及针对具有改进的准确性的新颖蛋白质组分析方法的方法。本专利技术的方法利用包括针对性蛋白质组分析方法和转录组测序方法的新的联合分析工作流程。根据本专利技术的实施例,来自转录组的信息(或者“转录组数据”)可本文档来自技高网
...

【技术保护点】
一种用于生物样本的蛋白质组分析的方法,包括:获取目标列表中的蛋白质的肽序列;以及通过将所获取的肽序列映射到蛋白质组数据库中的蛋白质上来识别鉴定所述生物样本中的蛋白质,其中所述目标列表利用所述生物样本中的RNA转录物的信息而被确定所述目标列表,并且/或者所述目标列表利用所述生物样本中的RNA转录物的信息而被确定所述目标列表。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:迈克尔·詹尼斯于冈海瑞·锐迪
申请(专利权)人:安捷伦科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1