当前位置: 首页 > 专利查询>中南大学专利>正文

一种蛋白质功能预测方法、装置、终端设备及介质制造方法及图纸

技术编号:37991022 阅读:7 留言:0更新日期:2023-06-30 10:05
本申请适用于生物信息学技术领域,提供了一种蛋白质功能预测方法、装置、终端设备及介质,通过获取目标蛋白质的序列、相互作用蛋白质的序列、同源蛋白质的序列以及目标蛋白质的结构模板,构建多序列比对;根据多序列比对和结构模板构建三维结构;提取目标蛋白质和相互作用蛋白质的序列特征,得到目标蛋白质和相互作用蛋白质的序列特征;利用蛋白质混合层对序列特征进行混合,得到第一混合特征;对目标蛋白质的序列特征和第一混合特征进行混合,得到第二混合特征;提取三维结构的结构特征;根据第二混合特征和结构特征,得到功能置信分数;根据功能置信分数对目标蛋白质功能进行预测。本申请能提高蛋白质功能预测的准确性。本申请能提高蛋白质功能预测的准确性。本申请能提高蛋白质功能预测的准确性。

【技术实现步骤摘要】
一种蛋白质功能预测方法、装置、终端设备及介质


[0001]本申请属于生物信息学
,尤其涉及一种蛋白质功能预测方法、装置、终端设备及介质。

技术介绍

[0002]蛋白质作为生物大分子是所有细胞和组织不可或缺的组成部分,在生物体的生长、发育、运动、遗传、繁殖等生命活动中发挥着重要作用,了解它们的功能对了解生物系统的行为和寻找药物靶点具有重要意义。
[0003]随着基因组测序和结构基因组学技术的发展,蛋白质实验序列和三维结构得到了大量积累。但是已鉴定的大量蛋白质与其注释的完整性之间的差距却不断扩大。截止至2022年11月,存入蛋白质数据库UniProtKB/Swissprot的近463,700个(约84%)蛋白质序列没有人工注释的功能;蛋白质结构数据库(PDB,Protein Data Bank)中的许多结构也是如此,将近156,300(约74%)个结构缺乏人工注释的功能,即使将计算机自动注释的功能包括在内,仍有将近111,900(约53%)蛋白质结构没有功能注释。目前蛋白质功能预测主要依赖是实验鉴定和手动进行,这极大降低了蛋白质功能预测的准确性,且十分繁琐。

技术实现思路

[0004]本申请实施例提供了一种蛋白质功能预测方法、装置、终端设备及介质,可以解决目前蛋白质功能预测方法准确性低的问题。
[0005]第一方面,本申请实施例提供了一种蛋白质功能预测方法,包括:
[0006]获取目标蛋白质的序列、与目标蛋白质存在相互作用的相互作用蛋白质的序列、与目标蛋白质同源的同源蛋白质的序列以及目标蛋白质的结构模板,并根据同源蛋白质的序列构建多序列比对;
[0007]根据多序列比对和结构模板构建目标蛋白质的三维结构;
[0008]对目标蛋白质的序列和相互作用蛋白质的序列进行序列特征提取,得到目标蛋白质的序列特征和相互作用蛋白质的序列特征;
[0009]利用用于对蛋白质序列特征进行混合的蛋白质混合层,对目标蛋白质的序列特征以及相互作用蛋白质的序列特征进行混合处理,得到目标蛋白质的第一混合特征;
[0010]对目标蛋白质的序列特征以及第一混合特征进行混合处理,得到目标蛋白质的第二混合特征;
[0011]对三维结构进行结构特征提取,得到目标蛋白质的结构特征;
[0012]根据第二混合特征和结构特征,得到目标蛋白质的功能置信分数;
[0013]根据功能置信分数对目标蛋白质功能进行预测。
[0014]可选的,蛋白质混合层包括多个混合处理层。
[0015]可选的,多个混合处理层中的每个混合处理层包括多头注意力层、前馈神经网络层、第一正则化残差连接层以及第二正则化残差连接层;其中,多头注意力层的输入端接收
目标蛋白质的序列特征以及相互作用蛋白质的序列特征,多头注意力层的输出端连接第一正则化残差连接层的第一输入端,第一正则化残差连接层的第二输入端接收目标蛋白质的序列特征以及相互作用蛋白质的序列特征,第一正则化残差连接层的输出端连接前馈神经网络层的输入端,前馈神经网络层的输出端连接第二正则化残差连接层的第一输入端,第二正则化残差连接层的第二输入端接收第一正则化残差连接层输出端输出的数据。
[0016]可选的,对于第u个混合处理层,u=1,2,...,O

1,O表示混合处理层的总数量,该混合处理层的第二正则化残差连接层的输出端分别连接第u+1个混合处理层的多头注意力层的输入端以及第二个混合处理层的第一正则化残差连接层的第一输入端。
[0017]可选的,对于第O个混合处理层,该混合处理层的第二正则化残差连接层的输出端输出第一混合特征。
[0018]可选的,利用用于对蛋白质序列特征进行混合的蛋白质混合层对目标蛋白质的序列特征以及相互作用蛋白质的序列特征进行混合处理,得到目标蛋白质的第一混合特征,包括:
[0019]针对每个混合处理层,通过计算公式
[0020][0021][0022][0023][0024][0025][0026][0027]得到第一混合特征其中,表示目标蛋白质的序列特征和相互作用蛋白质的序列特征组成的序列特征集合,的序列特征组成的序列特征集合,p'0表示目标蛋白质的固定维度序列特征,p'
b
表示第b个相互作用蛋白质的固定维度序列特征,b=1,2,...,m,m表示相互作用蛋白质的总数量,a
i
表示第b个相互作用蛋白质的第i个序列,i=1,2,...,n,n表示蛋白质序列的长度,表示用于在多头注意力层的第i个头部将变换到查询空间Q的可学习的线性投影,变换到查询空间Q的可学习的线性投影,表示用于在多头注意力层的第i个头部将变换到键空间K的可学习的线性投影,表示用于在多头注意力层的第i个头部将变换到值空间V的可
学习的线性投影,W
o
表示将对头注意力特征维度变换到与相同特征维度的可学习的线性投影,W1表示将变换到高维特征空间的可学习的线性投影,W2表示将从高维特征空间恢复到原始特征空间的可学习的线性投影,h表示多头注意力层的头数,d
k
=d
v
=d
model
/h=1280,b1和b2均属于偏置项,MultiHead(
·
)表示多头注意力机制计算函数,FusionLayer(
·
)表示蛋白质混合层计算函数,AddAndNorm(
·
)表示正则化残差连接层,LayerNorm(
·
)表示层归一化计算函数,FFN(
·
)表示前馈神经网络计算函数,ReLU(
·
)表示线性整流函数,Concat(
·
)表示特征连接计算函数,Attention(
·
)表示注意力机制计算函数,表示实数域。
[0028]可选的,对目标蛋白质的序列特征以及第一混合特征进行混合处理,得到目标蛋白质的第二混合特征,包括:
[0029]通过计算公式得到目标蛋白质的第二混合特征v
sp

[0030]可选的,对三维结构进行结构特征提取,得到目标蛋白质的结构特征,包括:
[0031]根据三维结构,构建k近邻图;k近邻图由目标蛋白质的三维结构中每个残基的Cα原子的坐标节点连接相邻的节点构成;三维结构包括多个残基;
[0032]对k近邻图中的每个残基构建初始标量特征s和初始矢量特征V,得到多组初始残基特征;每组初始残基特征包括一残基对应的初始标量特征和初始矢量特征;其中,n表示构建的标量特征数量,v表示构建的矢量特征数量:
[0033]针对每个残基,通过计算公式
[0034]s

=σ((Concat(s,||V
h
||2)W
m
+b)
[0035]V

=σ
+
(||V
h
W
μ
...

【技术保护点】

【技术特征摘要】
1.一种蛋白质功能预测方法,其特征在于,包括:获取目标蛋白质的序列、与所述目标蛋白质存在相互作用的相互作用蛋白质的序列、与所述目标蛋白质同源的同源蛋白质的序列以及所述目标蛋白质的结构模板,并根据所述同源蛋白质的序列构建多序列比对;根据所述多序列比对和所述结构模板构建所述目标蛋白质的三维结构;对所述目标蛋白质的序列和所述相互作用蛋白质的序列进行序列特征提取,得到所述目标蛋白质的序列特征和所述相互作用蛋白质的序列特征;利用用于对蛋白质序列特征进行混合的蛋白质混合层,对所述目标蛋白质的序列特征以及所述相互作用蛋白质的序列特征进行混合处理,得到所述目标蛋白质的第一混合特征;对所述目标蛋白质的序列特征以及所述第一混合特征进行混合处理,得到所述目标蛋白质的第二混合特征;对所述三维结构进行结构特征提取,得到所述目标蛋白质的结构特征;根据所述第二混合特征和所述结构特征,得到所述目标蛋白质的功能置信分数;根据所述功能置信分数对目标蛋白质功能进行预测。2.根据权利要求1所述的预测方法,其特征在于,所述蛋白质混合层包括多个混合处理层;所述多个混合处理层中的每个混合处理层包括多头注意力层、前馈神经网络层、第一正则化残差连接层以及第二正则化残差连接层;其中,所述多头注意力层的输入端接收所述目标蛋白质的序列特征以及所述相互作用蛋白质的序列特征,所述多头注意力层的输出端连接所述第一正则化残差连接层的第一输入端,所述第一正则化残差连接层的第二输入端接收所述目标蛋白质的序列特征以及所述相互作用蛋白质的序列特征,所述第一正则化残差连接层的输出端连接所述前馈神经网络层的输入端,所述前馈神经网络层的输出端连接第二正则化残差连接层的第一输入端,所述第二正则化残差连接层的第二输入端接收所述第一正则化残差连接层输出端输出的数据;对于第u个混合处理层,u=1,2,...,O

1,O表示混合处理层的总数量,该混合处理层的第二正则化残差连接层的输出端分别连接第u+1个混合处理层的多头注意力层的输入端以及第二个混合处理层的第一正则化残差连接层的第一输入端;对于第O个混合处理层,该混合处理层的第二正则化残差连接层的输出端输出所述第一混合特征。3.根据权利要求2所述的预测方法,其特征在于,所述利用用于对蛋白质序列特征进行混合的蛋白质混合层,对所述目标蛋白质的序列特征以及所述相互作用蛋白质的序列特征进行混合处理,得到所述目标蛋白质的第一混合特征,包括:针对每个混合处理层,通过计算公式针对每个混合处理层,通过计算公式
得到所述第一混合特征其中,表示所述目标蛋白质的序列特征和所述相互作用蛋白质的序列特征组成的序列特征集合,用蛋白质的序列特征组成的序列特征集合,p'0表示目标蛋白质的固定维度序列特征,p'
b
表示第b个相互作用蛋白质的固定维度序列特征,b=1,2,...,m,m表示相互作用蛋白质的总数量,a
i
表示第b个相互作用蛋白质的第i个序列,i=1,2,...,n,n表示蛋白质序列的长度,表示用于在多头注意力层的第i个头部将变换到查询空间Q的可学习的线性投影,线性投影,表示用于在多头注意力层的第i个头部将变换到键空间K的可学习的线性投影,K的可学习的线性投影,表示用于在多头注意力层的第i个头部将变换到值空间V的可学习的线性投影,W
o
表示将对头注意力特征维度变换到与相同特征维度的可学习的线性投影,W1表示将变换到高维特征空间的可学习的线性投影,W2表示将从高维特征空间恢复到原始特征空间的可学习的线性投影,特征空间的可学习的线性投影,h表示多头注意力层的头数,d
k
=d
v
=d
model
/h=1280,b1和b2均属于偏置项,MultiHead(
·
)表示多头注意力机制计算函数,FusionLayer(
·
)表示蛋白质混合层计算函数,AddAndNorm(
·
)表示正则化残差连接层,LaterNorm(
·
)表示层归一化计算函数,FFN(
·
)表示前馈神经网络计算函数,ReLU(
·
)表示线性整流函数,Concat(
·
)表示特征连接计算函数,Attention(
·
)表示注意力机制计算函数,表示实数域。4.根据权利要求3所述的预测方法,其特征在于,所述对所述目标蛋白质的序列特征以及所述第一混合特征进行混合处理,得到所述目标蛋白质的第二混合特征,包括:通过计算公式得到所述目标蛋白质的第二混合特征v
sp
;5.根据权利要求4所述的预测方法,其特征在于,所述对所述三维结构进行结构特征提取,得到所述目标蛋白质...

【专利技术属性】
技术研发人员:邓磊郑荣涛
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1