一种蛋白质组质谱数据处理方法及装置制造方法及图纸

技术编号：25986776 阅读：22 留言：0更新日期：2020-10-20 18:54

本发明专利技术提供一种蛋白质组质谱数据处理方法，所述方法至少包括以下步骤：获取蛋白质组质谱的下机数据及参数文件；对蛋白质组质谱的下机数据进行缺失值处理；对步骤S2得到的数据进行归一化处理，然后进行标准化转换；根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正，得到蛋白质组质谱数据。本发明专利技术的蛋白质组质谱数据处理方法及装置，能更准确地反映不同实验条件下蛋白表达的变化，进而通过基于超几何分布的富集分析，得到不同实验处理下不同实验组出现差异的生物学功能和生物学通路，对与其他组学数据的联合分析具有重要意义。

全部详细技术资料下载

【技术实现步骤摘要】
一种蛋白质组质谱数据处理方法及装置
本专利技术涉及生物信息学领域，特别是涉及一种蛋白质组质谱数据处理方法及装置。
技术介绍
蛋白质组是一种生物或一个细胞里单套所有蛋白质品种的总和。蛋白质组学本质上指的是在大规模水平上研究蛋白质的特征，包括蛋白质的表达水平、翻译后的修饰，蛋白与蛋白相互作用等，由此获得蛋白质水平上的关于疾病发生，细胞代谢等过程的整体而全面的认识。是系统地研究生物学规律和机制的成熟并且有效的工具。根据研究目的不同，蛋白质组学可以分为表达蛋白质组学、结构蛋白质组学和功能蛋白质组学。定量蛋白质组是指对特定已知蛋白质进行质谱检测，而不会像发现蛋白质组那样对所有未知蛋白进行全检测。质谱，是蛋白组学研究中较熟悉的一种技术，这种方法能用于特异性分析靶标兴趣蛋白。质谱技术是一种鉴定技术，在有机分子的鉴定方面发挥非常重要的作用。它能快速而极为准确地测定生物大分子的分子量，使蛋白质组研究从蛋白质鉴定深入到高级结构研究以及各种蛋白质之间的相互作用研究。把一个基因组表达的全部蛋白质或一个复杂的混合体系中所有的蛋白质进行精确的定量和鉴定，研究细胞或组织中蛋白质表达的质和量的变化，以及不同时间基因表达谱的改变就是表达蛋白质组学的研究内容。通过质谱技术，具有相同离子化能力的蛋白质或多肽可以通过比较质谱峰的强度或峰面积得到待比较蛋白质的相对量，进而对不同实验处理/分组下表达的蛋白进行差异分析，进而通过富集分析得到不同实验处理/分组下差异的生物学功能和通路。然而，目前的蛋白质组质谱数据处理方式多种多样，归一化、去...

【技术保护点】
1.一种蛋白质组质谱数据处理方法，所述方法至少包括以下步骤：/nS1：获取蛋白质组质谱的下机数据及参数文件；/nS2：对蛋白质组质谱的下机数据进行缺失值处理；/nS3：对步骤S2得到的数据进行归一化处理，然后进行标准化转换；/nS4：根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正，得到蛋白质组质谱数据。/n

【技术特征摘要】
1.一种蛋白质组质谱数据处理方法，所述方法至少包括以下步骤：
S1：获取蛋白质组质谱的下机数据及参数文件；
S2：对蛋白质组质谱的下机数据进行缺失值处理；
S3：对步骤S2得到的数据进行归一化处理，然后进行标准化转换；
S4：根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正，得到蛋白质组质谱数据。

2.如权利要求1所述的蛋白质组质谱数据处理方法，其特征在于，还包括以下特征中的一项或多项：
a.步骤S2中，缺失值处理的方法包括采用R语言mice包和Hmisc包进行；
b.步骤S3中，归一化处理的方法选自LOESS方法，和/或，标准化转换的方法选自log标准化方法；
c.步骤S4中，批次效应校正的方法包括采用R语言sva包进行；
d.在下机数据进行缺失值处理之前和进行批次效应校正之后，对蛋白质组质谱的整体质量分析，观察处理前后数据的整体分布差异。确认数据处理后进行后续分析的可靠性；
e.每一步步骤的结果都单独存放在各文件夹中，使用Markdown从各文件夹中获取相应结果，并编辑结果呈现形式和报告格式，将所有计算参数、计算过程和结果以HTML报告的形式输出。

3.如权利要求2所述的蛋白质组质谱数据处理方法，其特征在于，还包括以下特征中的一项或多项：
f.特征a中，缺失值处理的方法包括采用R语言mice包的md.pattern()函数和Hmisc包的impute()函数进行；
g.特征c中，批次效应校正的方法包括采用R语言sva包的ComBat()函数进行。

4.如权利要求3所述的蛋白质组质谱数据处理方法，其特征在于，特征f中，所述缺失值处理方法包括如下步骤：
1)使用R语言mice包中的md.pattern()函数生成一个以矩阵/数据框形式展示蛋白质组质谱的下机数据的缺失值模式的表格，其中0表示变量的列中没有缺失，1则表示有缺失值；
2)对于有缺失值的行，采用R语言的Hmisc包的impute()函数采用定值(0)插补的方式进行处理。

5.如权利要求4所述的蛋白质组质谱数据处理方法，其特征在于，还包括以下特征中的一项或多项：
h.步骤1)中，还包括以下步骤：使用aggr()和matrixplot()函数将所述下机数据情况可视化；
i.所述缺失值处理方法还包括如下步骤：
3)对去除缺失值后的下机数据按蛋白表达丰度进行过滤。

6.一种蛋白质组质谱数据的分析方法，其特征在于，包括以下步骤：
对采用权利要求1-5任一所述的蛋白质组质谱数据处理方法得到的蛋白质组质谱数据进行差异分析。

7.如权利要求6所述的蛋白质组质谱数据的分析方法，其特征在于，在进行差异分析之前，对所述蛋白质组质谱数据进行PCA分析。

8.一种蛋白质组质谱数据处理装置，所述装置至少包括：
获取模块，用于获取蛋白质组质谱的下机数据及参数文件；
缺失值处理模块，用于对蛋白质组质谱的下机数据进行缺失值处理；
归一化处理模块，用于对缺失值处理模块得到的数据进行归一化处理，然后进行标准化转换；
批次效应校正模块，用于根据参数文件中的批次信息对归一化处理模块得到的数据进行批次效应校正，得到蛋白质组质谱数据。

9.如权利要...

【专利技术属性】
技术研发人员：桑运霞，孙天拥，刘强，左冰云，王凤，
申请(专利权)人：苏州扇贝生物科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人