基于内积自注意力神经网络的蛋白质磷酸化位点预测方法技术

技术编号:29209943 阅读:14 留言:0更新日期:2021-07-10 00:46
一种基于内积自注意力神经网络的蛋白质磷酸化位点预测方法,首先输入氨基酸残基数目为L待进行磷酸化位点预测的蛋白质序列,利用20种常见氨基酸的one

【技术实现步骤摘要】
基于内积自注意力神经网络的蛋白质磷酸化位点预测方法


[0001]本专利技术涉及生物信息学、深度学习与计算机应用领域,具体而言涉及一种基于内积自注意力神经网络的蛋白质磷酸化位点预测方法。

技术介绍

[0002]蛋白质磷酸化是一种广泛存在于真核生物中的翻译后修饰过程,它在能量代谢、信号传导途径、神经活动、细胞周期和凋亡等多种生物过程中起着重要作用。蛋白质磷酸化位点的准确鉴定不仅可以帮助我们理解复杂的蛋白质生物系统,还可以指导基本生物医学药物的设计。
[0003]目前,通过深度学习进行蛋白质磷酸化位点预测的方法有:NetPhos3.0(Blom,N.et al.Prediction of post

translational glycosylation and phosphorylation of proteins from the amino acid sequence[J].Proteomics,2004:4,1633

1649.即:Blom,N等.NetPhos3.0:从氨基酸序列预测蛋白质的翻译后糖基化和磷酸化[J].蛋白质组学,2004,4,1633

1649.)、PPSP(Xue,T.et al.PPSP:prediction of PK

specific phosphorylation site with Bayesian decision theory[J].BMC Bioinformatics,2003:7,163.即:Xue,T等.PPSP:贝叶斯决策理论预测PK特异性磷酸化位点[J].BMC生物信息学,2003:7,163.)、Musite(Gao,J.et al.Musite:a tool for global prediction of general and kinase

specific phosphorylation sites[J].Mol.Cell.Proteomics,2010:9,2586

2600.即:Gao,J等.Musite:用于总体预测一般和激酶特异性磷酸化位点的工具[J].Mol.Cell.蛋白质组学,2010:9,2586

2600.)与MusiteDeep(Wang,D.et al.MusiteDeep:a deep

learning framework for general and kinase

specific phosphorylation site prediction[J].Bioinformatics,2017:33,3909

3916.即:Wang,D等.MusiteDeep:一般和激酶特异性磷酸化位点预测的深度学习框架[J].生物信息学,2017:33,3909

3916.)等。与传统的机器学习方法相比,基于深度学习的方法能够自动提取蛋白质序列中的氨基酸特征和隐藏模式。虽然这些方法取得了不错的效果,但这些方法仅捕获沿氨基酸残留维度的特征。因此,该方法可能忽略了隐藏在蛋白质序列特征向量维中的一些重要特征,而这些特征可能对预测磷酸化位点有用。
[0004]综上所述,现存的蛋白质磷酸化位点预测方法在计算代价、预测精确性方面,距离实际应用的要求还有很大差距,迫切地需要改进。

技术实现思路

[0005]为了克服现有蛋白质磷酸化位点预测方法在计算代价、预测精确性方面的不足,本专利技术提出一种计算代价低、预测精确性高的基于内积自注意力神经网络的蛋白质磷酸化位点预测方法。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种基于内积自注意力神经网络的蛋白质磷酸化位点预测方法,所述方法包括以
下步骤:
[0008]1)输入一个氨基酸残基数目为L的待进行磷酸化位点预测的蛋白质序列,记作S;
[0009]2)使用one

hot编码方式对组成蛋白质的20种常见氨基酸类型进行数字编码,
[0010]如下:
[0011]‘
A

:[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0][0012]‘
C

:[0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0][0013]‘
D

:[0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0][0014]‘
E

:[0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0][0015]‘
F

:[0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0][0016]‘
G

:[0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0][0017]‘
H

:[0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0][0018]‘
I

:[0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0][0019]‘
K

:[0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0][0020]‘
L

:[0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0][0021]‘
M

:[0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0][0022]‘
N

:[0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0][0023]‘
P

:[0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0][0024]‘
Q

:[0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0][0025]‘
R

:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0][0026]‘
S

:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0][0027]‘
T

:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0][0028]‘
V

:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0][0029]‘
W
...

【技术保护点】

【技术特征摘要】
1.一种基于内积自注意力神经网络的蛋白质磷酸化位点预测方法,其特征在于,所述预测方法包括以下步骤:1)输入一个氨基酸残基数目为L的待进行磷酸化位点预测的蛋白质序列,记作S;2)使用one

hot编码方式对组成蛋白质的20种常见氨基酸类型进行数字编码;3)利用20种常见氨基酸类型的one

hot编码,将氨基酸残基数目为L的蛋白质序列S转换为一个L
×
20的特征矩阵,记作M
fea
中第i行第j列元素M
fea(ij)
表示为:其中,T
i
表示蛋白质序列S中第i个残基的类型,A
j
表示20种常见氨基酸类型中的第j种残基类型;4)对蛋白质中的每个残基,根据蛋白质的特征矩阵M
fea
,使用大小为w的滑动窗口,生成一个大小为w
×
20的特征矩阵,记作M;5)搭建内积自注意力神经网络,该网络共有四层,分别为卷积层、内积自注意力层、全连接层以及softmax层,每一层的输出作为下一层的输入;;6)从PhosphoSitePlus数据库中收集N条已有磷酸化位点标签的蛋白质序列,P
i
表示第i条蛋白质序列,i=1,2

,N,将P
i
通过步骤2)至4)生成每个目标残基的特征矩阵M,结合相应的位点标签,构建训练数据集;7)利用步骤6)得到的训练数据集,训练步骤5)搭建的内积自注意力神经网络,训练阶段使用二分类交叉熵损失函数调整网络中的...

【专利技术属性】
技术研发人员:胡俊贾宁欣曾文武殷文杰董明张贵军
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1