【技术实现步骤摘要】
一种蛋白质交互位点识别方法、装置及介质
[0001]本专利技术涉及数字医疗
,尤其涉及一种蛋白质交互位点识别方法
、
装置及介质
。
技术介绍
[0002]蛋白质是一种在细胞中发挥多种作用的非常重要的生物大分子
。
它们是生命过程的主要驱动力,并参与几乎所有的生理功能
。
蛋白质通过与各种分子的相互作用来执行其生物学功能,包括蛋白质
、
核酸
、
多肽和底物
。
在分子水平上准确识别蛋白
‑
蛋白交互位点
(protein
‑
protein interaction site
,
PPIS)
对于注释蛋白功能
、
理解蛋白
‑
蛋白相互作用网络以及研究各种疾病的机理具有重要意义
。
目前,识别
PPIS
的方法可分为两类:传统的实验室湿实验和计算方法
。
然而,传统的实验室湿实验对
PPIS
的鉴定昂贵且耗时
。
因此,寻求精确的计算方法来预测
PPIS
已成为蛋白功能领域的一个突出的研究热点
。
[0003]近年来,提出了大量的计算方法来预测
PPIS。
其中,基于机器学习的方法和基于深度学习的方法已经成为广泛使用的识别
PPIS
的方法
。
基于机器学习
【技术保护点】
【技术特征摘要】
1.
一种蛋白质交互位点识别方法,其特征在于,包括如下步骤:获取蛋白
‑
蛋白相互作用数据集,将数据集划分为训练集和测试集并进行预处理;获取训练集和测试集中蛋白质链的序列特征表示
、
结构特征表示和边特征表示,将蛋白质链的序列特征表示
、
结构特征表示作为蛋白质链的节点特征信息;将训练集输入预设的
GHGPR
‑
PPIS
模型中,所述
GHGPR
‑
PPIS
模型包括依次连接的5个
GraphHeat
‑
GPR
模块
、
线性层
、
全连接层和
softmax
,其中,所述
GraphHeat
‑
GPR
模块,用于采用热核的卷积处理得到蛋白质链的节点之间的低频信号并对节点特征进行更新,获得第一节点特征;用于将第一节点特征以及边特征送入边缘自注意力模块,更新节点之间的注意力系数,获得更新之后的第二节点特征;用于将第二节点特征与初始的节点特征进行线性组合,送入归一化层作为下一
GraphHeat
‑
GPR
模块的输入;所述线性层,用于将每一层
GraphHeat
‑
GPR
模块的输出结果进行加权组合,得到最终的结果送入全连接层;所述全连接层和
softmax
,用于预测结果;比对真实标签与预测结果,以最小化交叉熵损失函数更新网络参数,直至达到最大迭代次数,训练结束,获得训练好的
GHGPR
‑
PPIS
模型;将测试集输入训练好的
GHGPR
‑
PPIS
模型,得到蛋白
‑
蛋白交互位点
。2.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述预处理包括去除数据集中与相应结构不对应的蛋白质链而处理成新的数据集
。3.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述蛋白质数据的序列特征表示从
PSSM、
隐马尔可夫模型矩阵和每个氨基酸残基的原子特征中获得,其中,所述
PSSM
和隐马尔可夫模型矩阵分别使用
PSI
‑
BLAST
和
HHblits
工具生成,分别产生
N*20
维的序列特征矩阵并进行标准化,其中
N
表示蛋白质链的长度;所述氨基酸残基的原子特征包括原子质量
、B
因子
、
是否为侧链原子
、
电荷
、
连接到其键上的氢原子的数量
、
是否为环的一部分
、
以及原子的范德华半径
。4.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述蛋白质数据的结构特征表示由
14
维矩阵的
DSSP
和氨基酸残基的伪位置嵌入特征组成,所述
14
维矩阵的
DSSP
包括9个维度代表蛋白质链的二级结构状态
、4
个维度是通过使用正弦和余弦函数变换为肽骨架的扭转角
PHI
和
PSI、
以及1个维度是通过将溶剂可及表面积转换为相对溶剂可及性;所述氨基酸残基的伪位置嵌入特征为每个氨基酸残基相对于参考氨基酸残基的相对位置信息
。5.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述蛋白质链的边特征表示包括两个节点之间的欧几里得距离
、
和两个节点形成的向量与蛋白质链第一个氨基酸残基之间的夹角的余弦值
。6.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述采用热核的卷积处理得到蛋白质链的节点之间的低频信号...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。