当前位置: 首页 > 专利查询>大理大学专利>正文

一种蛋白质交互位点识别方法技术

技术编号:39722430 阅读:7 留言:0更新日期:2023-12-17 23:28
本发明专利技术公开一种蛋白质交互位点识别方法

【技术实现步骤摘要】
一种蛋白质交互位点识别方法、装置及介质


[0001]本专利技术涉及数字医疗
,尤其涉及一种蛋白质交互位点识别方法

装置及介质


技术介绍

[0002]蛋白质是一种在细胞中发挥多种作用的非常重要的生物大分子

它们是生命过程的主要驱动力,并参与几乎所有的生理功能

蛋白质通过与各种分子的相互作用来执行其生物学功能,包括蛋白质

核酸

多肽和底物

在分子水平上准确识别蛋白

蛋白交互位点
(protein

protein interaction site

PPIS)
对于注释蛋白功能

理解蛋白

蛋白相互作用网络以及研究各种疾病的机理具有重要意义

目前,识别
PPIS
的方法可分为两类:传统的实验室湿实验和计算方法

然而,传统的实验室湿实验对
PPIS
的鉴定昂贵且耗时

因此,寻求精确的计算方法来预测
PPIS
已成为蛋白功能领域的一个突出的研究热点

[0003]近年来,提出了大量的计算方法来预测
PPIS。
其中,基于机器学习的方法和基于深度学习的方法已经成为广泛使用的识别
PPIS
的方法

基于机器学习的方法利用蛋白质序列和结构信息,如蛋白质原始序列

位置特异性评分矩阵
(Position

specific scoring matrix

PSSM)
和蛋白质二级结构的定义
(Definition of Secondary Structure ofProteins

DSSP)
作为特征

采用机器学习算法,包括随机森林
(Random Forest

RF)、
支持向量机
(Support Vector Machine

SVM)、
朴素贝叶斯和
XGBoost(eXtreme Gradient Boosting)
来预测
PPIS。
虽然基于机器学习的方法具有良好的预测性能,但是深度学习模型的发展和使用进一步提高了
PPIS
识别的精度

[0004]基于深度学习预测
PPIS
的计算方法大致分为三类:基于卷积神经网络
(Convolutional Neural Network

CNN)
的模型,基于循环神经网络
(Recurrent Neural Network

RNN)
的模型,以及基于图卷积神经网络
(Graph Neural Network

GNN)
的模型

基于
CNN
的模型从序列和结构信息中捕获局部上下文特征,如
PSSM

DSSP
,用于
PPIS
预测

例如,
DeepPPISP
使用
TextCNN
从蛋白质序列中提取全局特征,将全局特征与局部特征连接,并输入到全连接
(fully connected layers

FC)
层进行
PPIS
预测
。ProB

site
利用
1D

CNN
将序列信息生成三个不同的特征集,然后将这些特征集组合后输入
FC
层,用于预测
PPIS。
虽然
CNN
的模型可以有效地提取蛋白质序列的局部特征,并取得良好的性能,但是它们忽略了蛋白质序列中的长程依赖特征

[0005]针对蛋白质序列缺乏长程依赖特征的问题,将具有记忆功能的
RNN
引入到
PPIS
的预测研究中

例如,
DELPHI
结合
CNN

RNN
来提取局部和长程依赖特征预测
PPIS。DLPred
利用基于简化的长短期记忆
(Spatiotemporal Long Short

Term Memory

SLSTM)
的深度学习架构来改善不平衡的蛋白质交互位点预测

虽然基于
CNN

RNN
的模型主要利用蛋白质一级序列和二级结构的特征来进行
PPIS
预测,但是这些模型的性能已经达到了瓶颈

因此,利用蛋白质三级结构特征识别
PPIS
的模型在悄然浮现

然而,由于大量蛋白质缺乏确定的三级结构,基于
GNN
的深度学习模型识别
PPIS
的研究仍处于早期阶段

直到最近
Alphafold
的出现,
一种高度精确的蛋白质结构预测工具,通过提供可靠的蛋白质结构缓解了这一限制

[0006]近年来,基于
GNN
的模型在提取高级结构特征的基础上得到了广泛的关注,并取得了良好的效果

例如,
GraphPPIS

PPIS
预测问题转化为图节点分类任务,并采用图卷积网络
(Graph Convolutional Networks

GCN)
来区分相互作用的氨基酸残基和非相互作用的氨基酸残基
。GraphPPIS
在性能方面超过了五种相互竞争的基于序列的方法

另一个例子是
AGAT

PPIS
,这是一个基于
GNN
的方法,它结合了蛋白质结构特征,在
PPIS
预测中取得了迄今为止最好的性能
。AGAT

PPIS
在图注意力网络
(GraphAttention Network

GAT)
的基础上增加了边缘特征,以提供额外的结构信息,并增加平移和旋转不变性

它利用8个
AGAT
层来深入挖掘节点嵌入表示,并使用多层感知器
(Multi

Layer Perceptron

MLP)
...

【技术保护点】

【技术特征摘要】
1.
一种蛋白质交互位点识别方法,其特征在于,包括如下步骤:获取蛋白

蛋白相互作用数据集,将数据集划分为训练集和测试集并进行预处理;获取训练集和测试集中蛋白质链的序列特征表示

结构特征表示和边特征表示,将蛋白质链的序列特征表示

结构特征表示作为蛋白质链的节点特征信息;将训练集输入预设的
GHGPR

PPIS
模型中,所述
GHGPR

PPIS
模型包括依次连接的5个
GraphHeat

GPR
模块

线性层

全连接层和
softmax
,其中,所述
GraphHeat

GPR
模块,用于采用热核的卷积处理得到蛋白质链的节点之间的低频信号并对节点特征进行更新,获得第一节点特征;用于将第一节点特征以及边特征送入边缘自注意力模块,更新节点之间的注意力系数,获得更新之后的第二节点特征;用于将第二节点特征与初始的节点特征进行线性组合,送入归一化层作为下一
GraphHeat

GPR
模块的输入;所述线性层,用于将每一层
GraphHeat

GPR
模块的输出结果进行加权组合,得到最终的结果送入全连接层;所述全连接层和
softmax
,用于预测结果;比对真实标签与预测结果,以最小化交叉熵损失函数更新网络参数,直至达到最大迭代次数,训练结束,获得训练好的
GHGPR

PPIS
模型;将测试集输入训练好的
GHGPR

PPIS
模型,得到蛋白

蛋白交互位点
。2.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述预处理包括去除数据集中与相应结构不对应的蛋白质链而处理成新的数据集
。3.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述蛋白质数据的序列特征表示从
PSSM、
隐马尔可夫模型矩阵和每个氨基酸残基的原子特征中获得,其中,所述
PSSM
和隐马尔可夫模型矩阵分别使用
PSI

BLAST

HHblits
工具生成,分别产生
N*20
维的序列特征矩阵并进行标准化,其中
N
表示蛋白质链的长度;所述氨基酸残基的原子特征包括原子质量
、B
因子

是否为侧链原子

电荷

连接到其键上的氢原子的数量

是否为环的一部分

以及原子的范德华半径
。4.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述蛋白质数据的结构特征表示由
14
维矩阵的
DSSP
和氨基酸残基的伪位置嵌入特征组成,所述
14
维矩阵的
DSSP
包括9个维度代表蛋白质链的二级结构状态
、4
个维度是通过使用正弦和余弦函数变换为肽骨架的扭转角
PHI

PSI、
以及1个维度是通过将溶剂可及表面积转换为相对溶剂可及性;所述氨基酸残基的伪位置嵌入特征为每个氨基酸残基相对于参考氨基酸残基的相对位置信息
。5.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述蛋白质链的边特征表示包括两个节点之间的欧几里得距离

和两个节点形成的向量与蛋白质链第一个氨基酸残基之间的夹角的余弦值
。6.
根据权利要求1所述的一种蛋白质交互位点识别方法,其特征在于,所述采用热核的卷积处理得到蛋白质链的节点之间的低频信号...

【专利技术属性】
技术研发人员:曾新孟凡方李毅
申请(专利权)人:大理大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1