一种个体差异表达蛋白质的识别方法技术

技术编号：32770722 阅读：62 留言：0更新日期：2022-03-23 19:25

本发明专利技术公开了一种个体差异表达蛋白质的识别方法，该方法包括以下步骤：S1、对蛋白质丰度数据进行预处理；S2、验证正常队列的蛋白质丰度数据中是否存在高度显著的蛋白质对；S3、选取个体层面差异表达算法中的参考组；S4、基于参考组采用个体层面差异表达算法识别差异表达蛋白质；该发明专利技术首先基于蛋白质丰度数据的特征，对蛋白质丰度数据进行预处理，去除变异系数高以及缺失值比例高的蛋白质，减少蛋白质定量误差对个体差异蛋白结果的影响；其次基于蛋白质稳定对选取参考组，并且利用迭代的方法，不断优化参考组中存在差异表达的蛋白质，保证了参考组的稳定性，可在个体水平上有效识别差异表达的蛋白质，识别精度高，应用前景好。应用前景好。应用前景好。

全部详细技术资料下载

【技术实现步骤摘要】
一种个体差异表达蛋白质的识别方法

[0001]本专利技术涉及生物
，具体涉及一种个体差异表达蛋白质的识别方法。

技术介绍

[0002]临床蛋白质组学肿瘤分析联盟(CPTAC)开发了关于人类肿瘤组织中基于 LC
‑
MS的蛋白质组学测量的标准工作流程，并将该工作流程应用于来自癌症基因组图谱的结直肠癌、卵巢癌和乳腺癌数据(TCGA)。在这项初步研究之后，还对其他13种癌症类型的蛋白质基因组学进行了全面表征。这些CPTAC研究探索了蛋白质表达的反式作用基因组畸变，基于蛋白质组学重新对分子亚型进行分类，并使用磷酸蛋白质组学确定通路。由于大多数CPTAC研究未对正常组织进行分析，因此无法评估差异表达分析结果的准确性。样本异质性进一步使蛋白质组学分析复杂化，并限制了分析个体改变的癌症蛋白质组的能力。
[0003]目前，基于LC
‑
MS的蛋白质组学已用于肝细胞癌、肺腺癌(LUAD)和胃癌的配对肿瘤和邻近正常组织的研究。这些研究通过功能蛋白质组学提供了癌症基因型与表型更全面的联系。通过使用T检验或Wilcoxon符号秩检验来鉴定癌症相关蛋白，然而，这些检验只能用于检测群体水平的差异表达基因，导致其中缺乏个体水平的精确信息，掩盖了个体间的异质性。
[0004]到目前为止，研究者们已经针对miRNA，IncRNA数据提出了个体差异表达方法，如PenDA，RankComp，Quantile，Peng method。但是由于蛋白质数据与miRNA，IncRN...

【技术保护点】

【技术特征摘要】
1.一种个体差异表达蛋白质的识别方法，其特征在于，该方法包括以下步骤：S1、对蛋白质丰度数据进行预处理；S2、验证正常队列的蛋白质丰度数据中是否存在高度显著的蛋白质对；S3、选取个体层面差异表达算法中的参考组；S4、基于参考组采用个体层面差异表达算法识别差异表达蛋白质。2.如权利要求1所述的个体差异表达蛋白质的识别方法，其特征在于，步骤S1的具体过程为：S11、对蛋白质丰度数据中每个蛋白质在所有样本中缺失值的比例进行统计，通过设置缺失值比例上限对蛋白质进行筛选，去除在蛋白质丰度数据中缺失值比例超过阈值的蛋白质；S12、通过计算蛋白质在同一队列的变异系数，判断蛋白质丰度在不同个体间的差异是由于个体间的异质性还是定量误差导致的；S13、对于输入的蛋白质丰度数据在样本上进行归一化，对蛋白质丰度数据中存在的缺失值，基于贝叶斯的主成分分析方法进行填充。3.如权利要求2所述的个体差异表达蛋白质的识别方法，其特征在于，步骤S12中同一队列中的具有高变异系数的蛋白质被认定为定量误差导致的，并对其进行筛除。4.如权利要求1所述的个体差异表达蛋白质的识别方法，其特征在于，步骤S2的具体过程为：S21、对于每一对蛋白质(P
i
,P
j
)，E
i
与E
j
分别表示他们对应的丰度水平；S22、通过二项分布检验计算偶然观察到该相对次序模式频率(k/n)的概率为：其中，P0为0.5,表示在正常样本中偶然观察到某种特定相对次序的概率；n表示样本的总数，k表示具有确定相对次序(E
i
>E
j or E
i
<E
j
)的样本数量；S23、采用Benjamini and Hochberg方法调整P值以控制FDR，再根据P值判断该蛋白质对是否为高度稳定的蛋白质对。5.如权利要求4所述的个体差异表达蛋白质的识别方法，其特征在于，步骤S3的具体过程为：S31、确定正常样本与肿瘤样本中的稳定对；S32、对于同时存在于正常样本与肿瘤样本中的蛋白质(P
i
,P
j
)，E
i
与E
j
分别表示他们的蛋白质丰度，若在正常样本队列与肿瘤样本队列中E
...

【专利技术属性】
技术研发人员：俞容山，刘亚琛，童梦莎，林雅岚，吴雨娟，林育祥，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人