当前位置: 首页 > 专利查询>厦门大学专利>正文

一种个体差异表达蛋白质的识别方法技术

技术编号:32770722 阅读:62 留言:0更新日期:2022-03-23 19:25
本发明专利技术公开了一种个体差异表达蛋白质的识别方法,该方法包括以下步骤:S1、对蛋白质丰度数据进行预处理;S2、验证正常队列的蛋白质丰度数据中是否存在高度显著的蛋白质对;S3、选取个体层面差异表达算法中的参考组;S4、基于参考组采用个体层面差异表达算法识别差异表达蛋白质;该发明专利技术首先基于蛋白质丰度数据的特征,对蛋白质丰度数据进行预处理,去除变异系数高以及缺失值比例高的蛋白质,减少蛋白质定量误差对个体差异蛋白结果的影响;其次基于蛋白质稳定对选取参考组,并且利用迭代的方法,不断优化参考组中存在差异表达的蛋白质,保证了参考组的稳定性,可在个体水平上有效识别差异表达的蛋白质,识别精度高,应用前景好。应用前景好。应用前景好。

【技术实现步骤摘要】
一种个体差异表达蛋白质的识别方法


[0001]本专利技术涉及生物
,具体涉及一种个体差异表达蛋白质的识别方 法。

技术介绍

[0002]临床蛋白质组学肿瘤分析联盟(CPTAC)开发了关于人类肿瘤组织中基于 LC

MS的蛋白质组学测量的标准工作流程,并将该工作流程应用于来自癌症 基因组图谱的结直肠癌、卵巢癌和乳腺癌数据(TCGA)。在这项初步研究之后, 还对其他13种癌症类型的蛋白质基因组学进行了全面表征。这些CPTAC研 究探索了蛋白质表达的反式作用基因组畸变,基于蛋白质组学重新对分子亚 型进行分类,并使用磷酸蛋白质组学确定通路。由于大多数CPTAC研究未对 正常组织进行分析,因此无法评估差异表达分析结果的准确性。样本异质性 进一步使蛋白质组学分析复杂化,并限制了分析个体改变的癌症蛋白质组的 能力。
[0003]目前,基于LC

MS的蛋白质组学已用于肝细胞癌、肺腺癌(LUAD)和胃 癌的配对肿瘤和邻近正常组织的研究。这些研究通过功能蛋白质组学提供了 癌症基因型与表型更全面的联系。通过使用T检验或Wilcoxon符号秩检验来 鉴定癌症相关蛋白,然而,这些检验只能用于检测群体水平的差异表达基因, 导致其中缺乏个体水平的精确信息,掩盖了个体间的异质性。
[0004]到目前为止,研究者们已经针对miRNA,IncRNA数据提出了个体差异 表达方法,如PenDA,RankComp,Quantile,Peng method。但是由于蛋白质 数据与miRNA,IncRNA数据的差异性。这些方法在蛋白质数据上表现仍有 待提升。

技术实现思路

[0005]本专利技术提供了一种个体差异表达蛋白质的识别方法,该方法允许从精确 的蛋白质信息中识别患者特定的蛋白质缺陷,从而为研究癌症机制提供新的 见解。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]一种个体差异表达蛋白质的识别方法,该方法包括以下步骤:
[0008]S1、对蛋白质丰度数据进行预处理;
[0009]S2、验证正常队列的蛋白质丰度数据中是否存在高度显著的蛋白质对;
[0010]S3、选取个体层面差异表达算法中的参考组;
[0011]S4、基于参考组采用个体层面差异表达算法识别差异表达蛋白质。
[0012]优选地,步骤S1的具体过程为:
[0013]S11、对蛋白质丰度数据中每个蛋白质在所有样本中缺失值的比例进行统 计,通过设置缺失值比例上限对蛋白质进行筛选,去除在蛋白质丰度数据中 缺失值比例超过阈值的蛋白质;
[0014]S12、通过计算蛋白质在同一队列的变异系数,判断蛋白质丰度在不同个 体间的差异是由于个体间的异质性还是定量误差导致的;
[0015]S13、对于输入的蛋白质丰度数据在样本上进行归一化,将蛋白质丰度数 据中还
存在的缺失值,基于贝叶斯的主成分分析方法对缺失值进行填充。
[0016]优选地,步骤S12中同一队列中的具有高变异系数的蛋白质被认定为定 量误差导致的,并对其进行筛除。
[0017]优选地,步骤S2的具体过程为:
[0018]S21、对于每一对蛋白质(P
i
,P
j
),E
i
与E
j
分别表示他们对应的丰度水平;
[0019]S22、通过二项分布检验计算偶然观察到该相对次序模式频率(k/n)的概 率为:
[0020][0021]其中,P0为0.5,表示在正常样本中偶然观察到某种特定相对次序的概率; n表示样本的总数,k表示具有确定相对次序(E
i
>E
j or E
i
<E
j
)的样本数量;
[0022]S23、采用Benjamini andHochberg方法调整P值以控制FDR,再根据P 值判断该蛋白质对是否为高度稳定的蛋白质对。
[0023]优选地,步骤S3的具体过程为:
[0024]S31、确定正常样本与肿瘤样本中的稳定对;
[0025]S32、对于同时存在于正常样本与肿瘤样本中的蛋白质(P
i
,P
j
),E
i
与E
j
分别表示他们的蛋白质丰度,若在正常样本队列与肿瘤样本队列中E
i
与E
j
关 系相同(E
i
>E
j
或E
i
<E
j
),则将蛋白质对(P
i
,P
j
)称为协同对;若在正常样 本与肿瘤样本中E
i
与E
j
关系相反,则将蛋白质对(P
i
,P
j
)称为逆转对,并将 所有与P
i
相关的逆转对中的蛋白质作为P
i
的参考组。
[0026]优选地,步骤S4的具体过程为:
[0027]S41、获取蛋白质P
i
的参考组后,比较正常队列中目标蛋白P
i
与所有参考 蛋白P
j
的表达量的相对关系,参考蛋白中P
j
<P
i
的数量记为a,P
j
>P
i
的数量记 为b;
[0028]S42、比较肿瘤样本M中,目标蛋白P
i
与所有参考蛋白P
j
的表达量的相对 关系,将肿瘤样本M中P
j
<P
i
的数量记为c,P
j
>P
i
的数量记为d;
[0029]S43、利用费雪精准检验得到蛋白质P
i
在肿瘤样本M中差异表达的显著 性,从而识别肿瘤样本M中的蛋白质P
i
是否差异表达。
[0030]优选地,步骤S4还包括用于消除因参考组自身差异表达而引入误差的后 处理过程,所述后处理过程具体为:
[0031]S44、对步骤S43中的差异表达结果进行迭代处理,将上一轮识别为差异 表达的蛋白质从参考组中去除;
[0032]S45、重复步骤S41

S44,直到差异蛋白种类在前后两轮中的变化小于预 先设置的阈值,则迭代结束,否则继续重复步骤S41

S44。
[0033]采用上述技术方案后,本专利技术与
技术介绍
相比,具有如下优点:
[0034]本专利技术提供一种个体差异表达蛋白质的识别方法(Rank

Prot方法),首 先基于蛋白质丰度数据的特征,对蛋白质丰度数据进行了预处理,去除了变 异系数高以及缺失值比例高的蛋白质,减少了蛋白质定量误差本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种个体差异表达蛋白质的识别方法,其特征在于,该方法包括以下步骤:S1、对蛋白质丰度数据进行预处理;S2、验证正常队列的蛋白质丰度数据中是否存在高度显著的蛋白质对;S3、选取个体层面差异表达算法中的参考组;S4、基于参考组采用个体层面差异表达算法识别差异表达蛋白质。2.如权利要求1所述的个体差异表达蛋白质的识别方法,其特征在于,步骤S1的具体过程为:S11、对蛋白质丰度数据中每个蛋白质在所有样本中缺失值的比例进行统计,通过设置缺失值比例上限对蛋白质进行筛选,去除在蛋白质丰度数据中缺失值比例超过阈值的蛋白质;S12、通过计算蛋白质在同一队列的变异系数,判断蛋白质丰度在不同个体间的差异是由于个体间的异质性还是定量误差导致的;S13、对于输入的蛋白质丰度数据在样本上进行归一化,对蛋白质丰度数据中存在的缺失值,基于贝叶斯的主成分分析方法进行填充。3.如权利要求2所述的个体差异表达蛋白质的识别方法,其特征在于,步骤S12中同一队列中的具有高变异系数的蛋白质被认定为定量误差导致的,并对其进行筛除。4.如权利要求1所述的个体差异表达蛋白质的识别方法,其特征在于,步骤S2的具体过程为:S21、对于每一对蛋白质(P
i
,P
j
),E
i
与E
j
分别表示他们对应的丰度水平;S22、通过二项分布检验计算偶然观察到该相对次序模式频率(k/n)的概率为:其中,P0为0.5,表示在正常样本中偶然观察到某种特定相对次序的概率;n表示样本的总数,k表示具有确定相对次序(E
i
>E
j or E
i
<E
j
)的样本数量;S23、采用Benjamini and Hochberg方法调整P值以控制FDR,再根据P值判断该蛋白质对是否为高度稳定的蛋白质对。5.如权利要求4所述的个体差异表达蛋白质的识别方法,其特征在于,步骤S3的具体过程为:S31、确定正常样本与肿瘤样本中的稳定对;S32、对于同时存在于正常样本与肿瘤样本中的蛋白质(P
i
,P
j
),E
i
与E
j
分别表示他们的蛋白质丰度,若在正常样本队列与肿瘤样本队列中E
...

【专利技术属性】
技术研发人员:俞容山刘亚琛童梦莎林雅岚吴雨娟林育祥
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1