结合二级质谱和机器学习算法的蛋白质组无标记定量方法技术

技术编号:10166382 阅读:222 留言:0更新日期:2014-07-02 01:13
本发明专利技术涉及一种结合二级质谱强度和机器学习算法的蛋白质组无标记定量方法,用于蛋白质组水平的绝对和相对定量分析。该方法首先需要在液相色谱-串级质谱系统上分析用于建立训练数据集的蛋白质组实际样品的酶解肽段混合物以及待分析的蛋白质组样品的酶解肽段混合物。样品总量可以通过细胞计数或测定蛋白浓度得知,根据上一步算得的百分比和样品总量即可以计算每一个蛋白的绝对量。将同一个蛋白在不同样品中的绝对量进行比较即可以获得该蛋白在不同样品中的相对定量信息。该方法无论是在绝对定量还是相对定量上都具有良好的准确度。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种结合二级质谱强度和机器学习算法的蛋白质组无标记定量方法,用于蛋白质组水平的绝对和相对定量分析。该方法首先需要在液相色谱-串级质谱系统上分析用于建立训练数据集的蛋白质组实际样品的酶解肽段混合物以及待分析的蛋白质组样品的酶解肽段混合物。样品总量可以通过细胞计数或测定蛋白浓度得知,根据上一步算得的百分比和样品总量即可以计算每一个蛋白的绝对量。将同一个蛋白在不同样品中的绝对量进行比较即可以获得该蛋白在不同样品中的相对定量信息。该方法无论是在绝对定量还是相对定量上都具有良好的准确度。【专利说明】
本专利技术属于基于质谱技术的蛋白质组学定量方法,具体地涉及了一种结合二级质谱强度和机器学习算法的蛋白质组无标记绝对和相对定量方法。
技术介绍
基于质谱的蛋白质组学技术已逐渐由定性转为定量。定量蛋白质组学对于疾病生物标志物的发现等具有重要作用。组学规模的绝对定量可以让我们动态监测样品中的蛋白质在时空中的变化情况。目前单个或几个蛋白质的量可以通过加入已知量同位素标记的肽段或蛋白获得,但蛋白质组学规模的绝对定量仍然只能由无标记的实验策略结合新型的计算方法来实现。绝对定量的计算方法经历了几个阶段的发展:从最初基于序列覆盖率的emPAI方法到基于二级质谱图计数(SC)的NSAF方法,再到后来基于二级质谱中匹配上理论碎片的离子强度加和的SIn方法。但这些方法都没有考虑到不同性质的肽段在液质联用系统上响应不同的问题。Lu等在2007年发表了 APEX方法(Lu Peng, Vogel Christine, WangRong, Yao Xin, and Marcotte Edward M, Nat.Biotechnol.,2007,1,117-124),第一次将肽段在液质联用系统上的响应概率引入到蛋白质组绝对定量中。他首先根据肽段的序列计算每条肽段的不同理化性质,再结合肽段在质谱上是否被检测到,利用这些信息构建训练数据集,然后用机器学习算法对训练数据集进行训练并生成预测模型用以预测定量数据集中的理论肽段在同一系统上的响应概率,然后将一个蛋白所有理论肽段的响应概率累加作为该蛋白的校正因子。最后采用SC作为定量依据,结合校正因子、蛋白的鉴定概率和样品中的蛋白总量计算每个蛋白的绝对量。目前该方法已由Braisted等用 Java 编程语言封装成软件,称之为 APEX Quantitative Proteomics Tool (BraistedJohn, Kuntumalla Srilatha, Vogel Christine, Marcotte Edward, Rodrigues Alan, WangRong, Huang Shih—Ting, Ferlanti Erik, Saeed Alexander, Fleischmann Robert, PetersonScott, Pieper Rembert, BMC Bioinformatics, 2008, 9:529do1:10.1186/1471-2105-9-529)。但是,基于SC的方法存在着各种缺点例如准确度不高、对计数过小的蛋白难以定量等。Asara(Asara John M, Christofk Heather R,Freimark Lisa M and Cantley LewisC,Proteomics,2008,5,994-999)等发现采用归属于一个蛋白的所有二级质谱图中的全部碎片离子强度加和再除以此蛋白的SC比单纯使用SC作为定量依据能增大定量的线性范围。但是这种方法没有考虑肽段在液质联用系统上的响应差异问题,导致相同量的不同蛋白的计算值差异较大,即定量结果不够准确。
技术实现思路
本专利技术的目的是结合现有方法的优点并克服它们各自的缺点,进一步提高定量的准确度。本专利技术提供了一种采用二级质谱强度作为定量依据并引入机器学习算法校正不同性质的肽段在液质联用系统上响应差异问题的新方法用于蛋白质组水平的绝对和相对定量。相比已有方法,该方法能明显提高定量的准确度。本专利技术中的方法包括如下步骤(图1):(I)将用于构建训练数据集的已知蛋白质实际样品的酶解肽段混合物在液相色谱-串级质谱系统上运行获得原始质谱数据文件(采用不同厂商的质谱仪器所产生的原始数据文件格式不一致,例如Thermo公司的RAW文件,Agilent公司的d文件夹等),原始数据文件经过Mascot数据库搜索(数据库搜索时加入反库、随机库或伪库序列以控制假阳性率)后获得样品中的蛋白列表,以及归属于每个蛋白的肽段列表和归属于每个肽段的二级质谱图列表,再经过Trans Proteomic Pipeline (TPP)处理得到存储鉴定列表和蛋白鉴定概率的 XML 文件,然后用 SINQ 软件(Trudgian David C,Ridlova Gabriela, FischerRoman, Mackeen Mukram M, Ternette Nicola, Acuto Oreste, Kessler Benedikt M, ThomasBenjamin, Proteomics, 2011, 14, 2790-2797)中用于计算 PSM 的 q 值的 Perl 源代码处理XML文件将鉴定结果的假阳性率(q值即假阳性率)控制到合理范围内即获得筛选后的蛋白列表及其鉴定概率,同时也包含筛选后的归属于每个蛋白的肽段列表和筛选后的归属于每个肽段的二级质谱图列表。以筛选后的所有肽段的序列为起点,采用APEX QuantitativeProteomics Tool中用于构建训练数据集的Java代码计算每条肽段的若干个物理化学性质并以数字表示,然后在理化性质的后面附上肽段在质谱上是否被检测到(检测到为Obs,未检测到为Not),这样一个包含肽段序列、理化性质以及在质谱上检测到与否的列表即是训练数据集(arff文件)。在同一个液相色谱-串级质谱系统上运行待分析样品的酶解肽段混合物,所采用的酶和构建训练数据集时使用的酶一致。原始数据文件同样经过上述的Mascot数据库搜索、TPP处理和假阳性率控制后获得筛选后的蛋白质鉴定列表,同样也包括筛选后的归属于每个蛋白的肽段序列列表和筛选后的归属于每个肽段的二级质谱图列表;(2)将步骤(I)中获得的训练数据集arff文件导入机器学习算法Weka工具包中进行预测并生成预测模型(model文件);(3)米用 APEX Quantitative Proteomics Tool 中用于计算蛋白校正因子的 Java代码对待分析样品的蛋白质序列数据库fasta文件按照步骤(I)中所采用酶的特异性进行理论酶切获得理论肽段列表并计算它们的若干个理化性质,将它们导入步骤(2)中生成的预测模型即可输出每条理论肽段在该液相色谱-串级质谱系统上的响应概率(为一个O到I之间的数),将一个蛋白所有理论肽段在此液相色谱-串级质谱系统上的响应概率累加作为该蛋白的校正因子;(4)采用Xcalibur软件(Thermo Fisher公司)将归属于每个鉴定到蛋白的所有二级质谱中的全部碎片离子强度加和作为定量依据,除以步骤(3)中获得的校正因子后再乘以蛋白的鉴定概率,然后以其对待分析样品中的全部鉴定蛋白做本文档来自技高网
...

【技术保护点】
结合二级质谱和机器学习算法的蛋白质组无标记定量方法,其特征在于,包括以下步骤:(1)将用于构建训练数据集的已知蛋白质实际样品的酶解肽段混合物在液相色谱‑串级质谱系统上运行获得原始质谱数据文件,原始数据文件经过Mascot数据库搜索后获得样品中的蛋白列表,以及归属于每个蛋白的肽段列表和归属于每个肽段的二级质谱图列表,再经过Trans Proteomic Pipeline(TPP)处理得到存储鉴定列表和蛋白鉴定概率的XML文件,将它们导入SINQ软件中用于计算肽段与谱图匹配(PSM)q值的Perl源代码计算每个PSM的q值将假阳性率控制到合理范围内(q值即是假阳性率)即获得筛选后的蛋白列表及其鉴定概率,同时也包含筛选后的归属于每个蛋白的肽段列表和筛选后的归属于每个肽段的二级质谱图列表;以筛选后的所有肽段的序列为起点,采用APEX Quantitative Proteomics Tool中用于构建训练数据集的Java代码计算每条肽段的1‑35个物理化学性质并以数字表示,然后在理化性质的后面附上肽段在质谱上是否被检测到(检测到为Obs,未检测到为Not),这样一个包含肽段序列、理化性质以及在质谱上检测到与否的列表即是训练数据集(arff文件);在同一个液相色谱‑串级质谱系统上运行待分析样品的酶解肽段混合物,所采用的酶和构建训练数据集时使用的酶一致;原始数据文件同样经过上述的Mascot数据库搜索、TPP处理和假阳性率控制后获得筛选后的蛋白质鉴定列表,同样也包括筛选后的归属于每个蛋白的肽段序列列表和筛选后的归属于每个肽段的二级质谱图列表;(2)将步骤(1)中获得的训练数据集arff文件导入机器学习算法Weka软件中进行预测并生成数学预测模型(model文件);(3)采用APEX Quantitative Proteomics Tool中用于计算蛋白校正因子的Java代码对待分析样品的蛋白质序列数据库fasta文件按照步骤(1)中所采用酶的特异性进行理论酶切获得理论肽段列表并计算它们的1‑35个物理化学性质,性质的种类和构建训练数据集时相同;将肽段及它们的物理化学性质导入步骤(2)中生成的数学预测模型(model文件)即可输出每条理论肽段在该液相色谱‑串级质谱系统上的响应概率(为一个0到1之间的数),将归属于每个蛋白的所有理论肽段在此液相色谱‑串级质谱系统上的响应概率累加作为该蛋白的校正因子;(4)采用Xcalibur软件将归属于待分析样品中鉴定到的每个蛋白所有二级质谱图中的全部碎片离子强度加和作为定量依据,除以步骤(3)中获得的蛋白校正因子再乘以TPP给出的蛋白鉴定概率得到对该蛋白含量的表征值;对所有蛋白均计算该表征值,每个蛋白的表征值除以所有蛋白表征值的总和即是该蛋白相对于样品中所有蛋白含量的百分比,乘以样品中的蛋白总量即可以算得每个蛋白的绝对量。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张丽华吴琪梁振曲焱焱蒋好张玉奎
申请(专利权)人:中国科学院大连化学物理研究所
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1