蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法技术

技术编号:34958408 阅读:18 留言:0更新日期:2022-09-17 12:37
本发明专利技术公开了一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,该方法包括:基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据,使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹来构建特征图谱;利用卷积神经网络的提取蛋白质特征图谱的深度图特征;利用卷积注意力机制模块对深度图特征进行自适应特征优化;进而使用深度神经网络来预测蛋白质亚细胞定位;使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证,对未知亚细胞定位的蛋白质进行预测;控制蛋白质亚细胞定位的错误发现率,获得高可信度的蛋白质亚细胞定位预测结果。本发明专利技术能高效、准确地实现蛋白质亚细胞定位预测,并促进空间蛋白质组学的未来发展和应用。学的未来发展和应用。学的未来发展和应用。

【技术实现步骤摘要】
蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法


[0001]本专利技术涉及空间蛋白质组学、蛋白质亚细胞定位和人工智能
,尤其涉及一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法。

技术介绍

[0002]在真核细胞中,蛋白质会被分布到不同的亚细胞区隔,从而在不同的生物学条件下执行不同的功能。蛋白质亚细胞定位(Protein Subcellular Localization,PSL)的研究是了解蛋白质功能和调控机制的一个基本步骤,而蛋白质的错误亚细胞定位能导致蛋白质功能障碍甚至疾病的发生。通过单个蛋白质的荧光法测定PSL虽然可靠,但不适合于数千个蛋白质的亚细胞定位研究。因此,稳健、高效的PSL预测方法在生物学和医学研究中发挥着至关重要的作用。
[0003]近年来,基于质谱仪的空间蛋白质组学技术的发展提供了一种高通量的方法来评估蛋白质亚细胞定位,它可以对受控条件下特定细胞中众多蛋白质的亚细胞分离组分的水平进行定量。基于质谱仪的空间蛋白质组学方法,如hyperLOPIT和LOPIT

DC可以帮助精确量化数千种蛋白质在不同亚细胞分离组分的分布。这些涉及的亚细胞分离方法,如差速离心或密度梯度分离等,尽管无法完全纯化特定的细胞器,但是可通过超速离心等分离方法对多个细胞器进行分离,不同的细胞器会在不同的亚细胞分离组分中形成不同的特征定量分布模式,通过分析细胞器的亚细胞分离组分特征定量分布模式能预测蛋白质的亚细胞定位。所以,通过基于质谱仪定量不同亚细胞分离组分的空间蛋白质组学方法,利用经典蛋白质的已知细胞器定位信息作为先验知识,使用机器学习和模式识别等方法解析蛋白质在不同亚细胞分离组分中的特征定量分布模式,能预测未知蛋白质的亚细胞定位。
[0004]基于空间蛋白质组质谱数据中蛋白质在不同亚细胞分离组分的特征定量分布模式,多种传统的无监督聚类和监督聚类方法被用于进行PSL分析。Groen等人使用监督K

最近邻(K

NearestNeighbor,KNN)分类器识别跨高尔基网络PSL。Geladaki等人使用带有径向基函数的加权支持向量机(Support Vector Machine,SVM)对人骨肉瘤U

2OS细胞中进行PSL预测。Crook等人提出了一种基于高斯混合模型的贝叶斯生成分类器(T

Augmented Gaussian Mixture,TAGM),通过分配蛋白质在各细胞器的表达量来计算蛋白质在各细胞器的定位概率。但TAGM模型是以蛋白质在不同亚细胞分离组分的特征定量分布模式为基础,对空间蛋白质组学定量数据的质量有着严格的要求,其鲁棒性较差。
[0005]基于质谱仪的空间蛋白质组学技术为蛋白质的亚细胞定位的预测和研究提供了有效的方法,但目前相应的PSL预测模型大多数基于传统的机器学习算法,相对简单。而蛋白质在不同亚细胞分离组分之间的变化轨迹没有被很好地融合到预测模型中,这表明PSL预测的准确性仍有很大的提升空间。因此,充分利用蛋白质在不同亚细胞分离组分的变化轨迹,结合先进的深度学习模型,有望有效优化PSL预测模型,促进空间蛋白质组学研究,为后续进一步阐明蛋白质的功能调节和疾病的发生机制做出贡献。

技术实现思路

[0006]本专利技术的目的在于提供一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,实现对基于质谱仪的空间蛋白质组学蛋白质亚细胞定位的高效、准确预测。
[0007]为实现上述目的,本专利技术采取的技术方案是:一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其包括以下步骤:
[0008](1)基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据,使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹,从而构建特征图谱;
[0009](2)利用卷积神经网络提取蛋白质特征图谱的深度图特征;
[0010](3)利用卷积注意力机制模块对深度图特征进行自适应特征优化;
[0011](4)以自适应优化特征为输入,使用深度神经网络来预测蛋白质亚细胞定位;
[0012](5)使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证,对未知亚细胞定位的蛋白质进行预测;
[0013](6)控制蛋白质亚细胞定位的错误发现率,获得高可信度的蛋白质亚细胞定位预测结果。
[0014]作为本方案的进一步优选,所述步骤(1)中,首先对每次重复实验中各蛋白质各组分表达水平进行归一化,再使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分之间的变化轨迹,从而构建特征图谱;给定一个蛋白质p,存在f个组分n次重复实验,则通过差分矩阵构建的特征图谱x
p
如下:
[0015][0016]其中:和是蛋白质p第i个和第j个组分表达水平,e是超参数为1e

6,用于零值校正,tanh函数被用来约束x
p
的范围,特征图谱x
p
的范围为[

1,1],当i<j时,则关注各组分之间表达水平的减数变化;i=j时,则关注各组分表达水平与平均水平的变异情况;当i>j时,则关注各组分之间表达水平的倍数变化。
[0017]作为本方案的进一步优选,所述步骤(2)中,以特征图谱x
p
为输入,使用卷积神经网络提取蛋白质特征图谱的深度图特征,其过程如下:
[0018][0019]其中:Conv为卷积函数,BatchNorm为批量归一化函数,ReLU为整流线性函数,MaxPool为最大池化函数,x
p
依次经过卷积层

池化层

卷积层得到深度图特征O
3p

[0020]作为本方案的进一步优选,所述步骤(3)中,使用卷积注意力机制模块CBAM有选择性地关注深度图特征中重要的子集并忽略不相关的信息,从而进行自适应特征优化。
[0021]作为本方案的更进一步优选,所述卷积注意力机制模块CBAM包含的通道注意力机制CA和空间注意力机制SA函数分别如下:
[0022][0023]其中:AvgPool为平均池化函数,MLP为多层感知机函数,Sigmoid为激活函数,CBAM通过CA和SA依次处理得到自适应优化特征操作如下:
[0024][0025]其中:表示元素相乘,是由通道注意力机制提取的通道优化特征。
[0026]作为本方案的进一步优选,所述步骤(4)中,基于自适应优化特征展开作为输入,使用深度神经网络来预测蛋白质亚细胞定位,操作如下:
[0027][0028]其中:Flatten为展开函数,Dense为稠密网络,Dropout为丢失层,Softmax为激活函数;自适应优化特征首先被展开,再依次通过三层深度神经网络,输出蛋白质在各亚细胞中定位的预测概率y'
p

[0029]作为本方案的进一步优选,所述步骤(4)中,输出层使用焦点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于包括以下步骤:(1)基于蛋白质亚细胞分离组分定量的空间蛋白质组质谱数据,使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分中的变化轨迹,从而构建特征图谱;(2)利用卷积神经网络提取蛋白质特征图谱的深度图特征;(3)利用卷积注意力机制模块对深度图特征进行自适应特征优化;(4)以自适应优化特征为输入,使用深度神经网络来预测蛋白质亚细胞定位;(5)使用已知亚细胞定位的蛋白质作为训练集进行五折交叉验证,对未知亚细胞定位的蛋白质进行预测;(6)控制蛋白质亚细胞定位的错误发现率,获得高可信度的蛋白质亚细胞定位预测结果。2.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述步骤(1)中,首先对每次重复实验中各蛋白质各组分表达水平进行归一化,再使用差分矩阵捕获每个蛋白质在不同亚细胞分离组分之间的变化轨迹,从而构建特征图谱;给定一个蛋白质p,存在f个组分n次重复实验,则通过差分矩阵构建的特征图谱x
p
如下:其中:和是蛋白质p第i个和第j个组分表达水平,e是超参数为1e

6,用于零值校正,tanh函数被用来约束x
p
的范围,特征图谱x
p
的范围为[

1,1],当i<j时,则关注各组分之间表达水平的减数变化;i=j时,则关注各组分表达水平与平均水平的变异情况;当i>j时,则关注各组分之间表达水平的倍数变化。3.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述步骤(2)中,以特征图谱x
p
为输入,使用卷积神经网络提取蛋白质特征图谱的深度图特征,其过程如下:其中:Conv为卷积函数,BatchNorm为批量归一化函数,ReLU为整流线性函数,MaxPool为最大池化函数,x
p
依次经过卷积层

池化层

卷积层得到深度图特征4.根据权利要求1所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述步骤(3)中,使用卷积注意力机制模块CBAM有选择性地关注深度图特征中重要的子集并忽略不相关的信息,从而进行自适应特征优化。5.根据权利要求1或4所述的一种蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法,其特征在于,所述卷积注意力机制模块包含的通道注意力机制CA和空间注意力机制
SA函数分别如下:其中:AvgPool为平均池化函数,MLP为多层感知机函数,Sigmoid为激活函数,CBAM通过CA和SA依次处理得到自适应优化特征操作如下:其中:表示元素相乘,是由通道注意力机制提取的通道优化特征。6.根据权利要...

【专利技术属性】
技术研发人员:郭雪江李妍司徒成昊王兵
申请(专利权)人:南京医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1