一种蛋白质组质谱数据处理方法及装置制造方法及图纸

技术编号:25986776 阅读:22 留言:0更新日期:2020-10-20 18:54
本发明专利技术提供一种蛋白质组质谱数据处理方法,所述方法至少包括以下步骤:获取蛋白质组质谱的下机数据及参数文件;对蛋白质组质谱的下机数据进行缺失值处理;对步骤S2得到的数据进行归一化处理,然后进行标准化转换;根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正,得到蛋白质组质谱数据。本发明专利技术的蛋白质组质谱数据处理方法及装置,能更准确地反映不同实验条件下蛋白表达的变化,进而通过基于超几何分布的富集分析,得到不同实验处理下不同实验组出现差异的生物学功能和生物学通路,对与其他组学数据的联合分析具有重要意义。

【技术实现步骤摘要】
一种蛋白质组质谱数据处理方法及装置
本专利技术涉及生物信息学领域,特别是涉及一种蛋白质组质谱数据处理方法及装置。
技术介绍
蛋白质组是一种生物或一个细胞里单套所有蛋白质品种的总和。蛋白质组学本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平、翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过程的整体而全面的认识。是系统地研究生物学规律和机制的成熟并且有效的工具。根据研究目的不同,蛋白质组学可以分为表达蛋白质组学、结构蛋白质组学和功能蛋白质组学。定量蛋白质组是指对特定已知蛋白质进行质谱检测,而不会像发现蛋白质组那样对所有未知蛋白进行全检测。质谱,是蛋白组学研究中较熟悉的一种技术,这种方法能用于特异性分析靶标兴趣蛋白。质谱技术是一种鉴定技术,在有机分子的鉴定方面发挥非常重要的作用。它能快速而极为准确地测定生物大分子的分子量,使蛋白质组研究从蛋白质鉴定深入到高级结构研究以及各种蛋白质之间的相互作用研究。把一个基因组表达的全部蛋白质或一个复杂的混合体系中所有的蛋白质进行精确的定量和鉴定,研究细胞或组织中蛋白质表达的质和量的变化,以及不同时间基因表达谱的改变就是表达蛋白质组学的研究内容。通过质谱技术,具有相同离子化能力的蛋白质或多肽可以通过比较质谱峰的强度或峰面积得到待比较蛋白质的相对量,进而对不同实验处理/分组下表达的蛋白进行差异分析,进而通过富集分析得到不同实验处理/分组下差异的生物学功能和通路。然而,目前的蛋白质组质谱数据处理方式多种多样,归一化、去除批次效应、差异计算选择方法等没有一致的标准,这就导致同一套数据在不同处理条件下,得到的结果也有所差异,这样由于计算误差导致的结果的不可靠无疑是一种遗憾。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种蛋白质组质谱数据处理方法及装置。为实现上述目的及其他相关目的,本专利技术第一方面提供一种蛋白质组质谱数据处理方法,所述方法至少包括以下步骤:S1:获取蛋白质组质谱的下机数据及参数文件;S2:对蛋白质组质谱的下机数据进行缺失值处理;S3:对步骤S2得到的数据进行归一化处理,然后进行标准化转换;S4:根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正,得到蛋白质组质谱数据。本专利技术第二方面提供一种蛋白质组质谱数据的分析方法,包括以下步骤:对采用前述蛋白质组质谱数据处理方法得到的蛋白质组质谱数据进行差异分析。本专利技术第三方面提供一种蛋白质组质谱数据处理装置,所述装置至少包括:获取模块,用于获取蛋白质组质谱的下机数据及参数文件;缺失值处理模块,用于对蛋白质组质谱的下机数据进行缺失值处理;归一化处理模块,用于对缺失值处理模块得到的数据进行归一化处理,然后进行标准化转换;批次效应校正模块,用于根据参数文件中的批次信息对归一化处理模块得到的数据进行批次效应校正,得到蛋白质组质谱数据。本专利技术第四方面提供一种蛋白质组质谱数据的分析装置,至少包括:差异分析模块,用于对采用前述蛋白质组质谱数据处理装置得到的蛋白质组质谱数据进行差异分析。本专利技术第五方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述蛋白质组质谱数据处理方法或前述蛋白质组质谱数据的分析方法。本专利技术第六方面提供一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述蛋白质组质谱数据处理方法的步骤或前述蛋白质组质谱数据的分析方法的步骤。本专利技术第七方面提供一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行前述蛋白质组质谱数据处理方法或前述蛋白质组质谱数据的分析方法。如上所述,本专利技术的蛋白质组质谱数据处理方法及装置,具有以下有益效果:本专利技术的蛋白质组质谱数据处理方法及装置不仅考虑到具体数据的各种预处理,而且对不同物种的处理也考虑在内,只要蛋白以官方通用的标准genesymbol命名,即可对多达20多个物种进行标准的GO功能富集和KEGG通路富集研究,常用的模式物种比如人类、小鼠、大鼠、果蝇、大肠杆菌、酵母等都包括其中。本专利技术的蛋白质组质谱数据处理方法及装置,从质谱下机数据开始,考虑到不同时间、不同处理的实验数据的批次效应,统一移除批次效应并进行归一化,使计算结果更符合客观现实,获得的各分组之间的差异蛋白在移除批次效应和统一标准化/标准化后,能更准确地反映不同实验条件下蛋白表达的变化,进而通过基于超几何分布的富集分析,得到不同实验处理下不同实验组出现差异的生物学功能和生物学通路,对与其他组学(转录组、代谢组等)数据的联合分析具有重要意义。附图说明图1显示为本专利技术一实施例中蛋白质组质谱数据处理方法流程图。图1.1显示为批次效应消除的必要性分析图。图2显示为本专利技术一实施例中蛋白质组质谱数据处理装置示意图。图3显示为本专利技术一实施例中电子终端示意图。图4显示为本专利技术实例中数据预处理前与预处理后密度曲线图。图5显示为本专利技术实例中数据预处理前与预处理后数据质量箱线图。图6显示为本专利技术实例中移除批次效应前与移除批次效应后的聚类热图结果。图7显示为本专利技术实例中预处理后的数据进行PCA分析的结果。图8显示为差异分析火山图,其中红色为上调的显著差异蛋白,蓝色为下调的显著差异蛋白。图9显示为差异蛋白聚类热图。图10显示为差异蛋白富集分析结果条形图。图11显示为差异蛋白富集分析结果气泡图。图12显示为蛋白质组质谱数据自动化分析HTML格式整合报告(部分)。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。请参阅图1至图12。需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,虽图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。如图1所示,为本专利技术提供的一种蛋白质组质谱数据处理方法,所述方法至少包括以下步骤:S1:获取蛋白质组质谱的下机数据及参数文件;S2:对蛋白质组质谱的下机数据进行缺失值处理;S3:对步骤S2得到的数据进行归一化处理,然后进行标准化转换;S4:根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正,得到蛋白质组质谱数据。在一种实施方式中,在下机数据进行缺本文档来自技高网
...

【技术保护点】
1.一种蛋白质组质谱数据处理方法,所述方法至少包括以下步骤:/nS1:获取蛋白质组质谱的下机数据及参数文件;/nS2:对蛋白质组质谱的下机数据进行缺失值处理;/nS3:对步骤S2得到的数据进行归一化处理,然后进行标准化转换;/nS4:根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正,得到蛋白质组质谱数据。/n

【技术特征摘要】
1.一种蛋白质组质谱数据处理方法,所述方法至少包括以下步骤:
S1:获取蛋白质组质谱的下机数据及参数文件;
S2:对蛋白质组质谱的下机数据进行缺失值处理;
S3:对步骤S2得到的数据进行归一化处理,然后进行标准化转换;
S4:根据参数文件中的批次信息对步骤S3得到的数据进行批次效应校正,得到蛋白质组质谱数据。


2.如权利要求1所述的蛋白质组质谱数据处理方法,其特征在于,还包括以下特征中的一项或多项:
a.步骤S2中,缺失值处理的方法包括采用R语言mice包和Hmisc包进行;
b.步骤S3中,归一化处理的方法选自LOESS方法,和/或,标准化转换的方法选自log标准化方法;
c.步骤S4中,批次效应校正的方法包括采用R语言sva包进行;
d.在下机数据进行缺失值处理之前和进行批次效应校正之后,对蛋白质组质谱的整体质量分析,观察处理前后数据的整体分布差异。确认数据处理后进行后续分析的可靠性;
e.每一步步骤的结果都单独存放在各文件夹中,使用Markdown从各文件夹中获取相应结果,并编辑结果呈现形式和报告格式,将所有计算参数、计算过程和结果以HTML报告的形式输出。


3.如权利要求2所述的蛋白质组质谱数据处理方法,其特征在于,还包括以下特征中的一项或多项:
f.特征a中,缺失值处理的方法包括采用R语言mice包的md.pattern()函数和Hmisc包的impute()函数进行;
g.特征c中,批次效应校正的方法包括采用R语言sva包的ComBat()函数进行。


4.如权利要求3所述的蛋白质组质谱数据处理方法,其特征在于,特征f中,所述缺失值处理方法包括如下步骤:
1)使用R语言mice包中的md.pattern()函数生成一个以矩阵/数据框形式展示蛋白质组质谱的下机数据的缺失值模式的表格,其中0表示变量的列中没有缺失,1则表示有缺失值;
2)对于有缺失值的行,采用R语言的Hmisc包的impute()函数采用定值(0)插补的方式进行处理。


5.如权利要求4所述的蛋白质组质谱数据处理方法,其特征在于,还包括以下特征中的一项或多项:
h.步骤1)中,还包括以下步骤:使用aggr()和matrixplot()函数将所述下机数据情况可视化;
i.所述缺失值处理方法还包括如下步骤:
3)对去除缺失值后的下机数据按蛋白表达丰度进行过滤。


6.一种蛋白质组质谱数据的分析方法,其特征在于,包括以下步骤:
对采用权利要求1-5任一所述的蛋白质组质谱数据处理方法得到的蛋白质组质谱数据进行差异分析。


7.如权利要求6所述的蛋白质组质谱数据的分析方法,其特征在于,在进行差异分析之前,对所述蛋白质组质谱数据进行PCA分析。


8.一种蛋白质组质谱数据处理装置,所述装置至少包括:
获取模块,用于获取蛋白质组质谱的下机数据及参数文件;
缺失值处理模块,用于对蛋白质组质谱的下机数据进行缺失值处理;
归一化处理模块,用于对缺失值处理模块得到的数据进行归一化处理,然后进行标准化转换;
批次效应校正模块,用于根据参数文件中的批次信息对归一化处理模块得到的数据进行批次效应校正,得到蛋白质组质谱数据。


9.如权利要...

【专利技术属性】
技术研发人员:桑运霞孙天拥刘强左冰云王凤
申请(专利权)人:苏州扇贝生物科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1