一种蛋白质-配体相互作用预测方法及优化方法技术

技术编号:39836341 阅读:4 留言:0更新日期:2023-12-29 16:20
本发明专利技术属于计算机辅助药物设计技术领域,公开了一种蛋白质

【技术实现步骤摘要】
一种蛋白质

配体相互作用预测方法及优化方法


[0001]本专利技术属于计算机辅助药物设计
,具体涉及一种蛋白质

配体相互作用预测方法及优化方法,尤其涉及一种基于几何图神经网络的蛋白质

配体相互作用预测方法及优化方法


技术介绍

[0002]计算机辅助药物设计中的一项重要任务是发现与致病蛋白具有高结合亲和力的先导化合物

分子对接及虚拟筛选是计算机辅助药物设计中的关键技术之一,而分子对接又是虚拟筛选的核心技术之一

由于结合亲和力的预测在很大程度上依赖于配体在结合口袋中的位置,因此,从众多对接姿态中挑选出最优结合姿态至关重要,这也将影响到虚拟筛选结果的可信度

[0003]对接
(Docking)
即:将一个陌生配体分子对接到蛋白质结合口袋中,产生这个配体分子在结合口袋中具体的配体构象
(Docking Pose)。
对接可分为采样和打分两步:
[0004](1)
采样:指的是在蛋白质口袋处搜索小分子结合时的具体位置和方向

当前的对接软件通常采用随机采样算法
(
比如
Genetic Algorithm
算法和
Monte

Carlo
算法
)
来搜索配体在蛋白质结合口袋中的结合姿态;
[0005](2)
打分:指的是通过打分函数来预测配体不同的结合姿态与蛋白质之间的结合能大小

当前大多数分子对接软件都采用了传统打分函数,比如基于物理的,经验的,基于知识的打分函数

然而,传统打分函数在预测蛋白质

配体相互作用中的表现不尽人意

近些年,应用机器学习
(ML)
和深度学习
(DL)
算法预测蛋白质

配体相互作用已成为一种趋势,如下表1所示为当前常用的打分函数,而且已经被应用于对分子结合姿态进行重新打分和排序,比如
GNINA。
[0006]表
1.
当前常用的打分函数
[0007]模型名称打分函数类型
RTMScore
深度学习
DeepRMSD
深度学习
AutoDock Vina
基于经验的打分函数
G
NINA 1.0
深度学习
[0008]当前用于评估药物结合姿态及结合强度的模型仍然受限于精度和泛化能力,导致传统打分函数在预测蛋白质

配体相互作用中的表现不尽人意,具体表现为:大多数打分函数的预测值并不具备真实的物理含义,且当前的打分函数通常仅适用于某一个场景,难以迁移到其它应用场景

比如,
Pafnucy
可以预测蛋白质

配体晶体结构的结合亲和力,但是在对接和筛选任务中表现很差;
RTMScore
在对接和筛选任务中表现优异,但是其在打分和排序任务中表现很差,且其分数的绝对值并没有实际的物理意义

目前,能够同时适用于打分
(Scoring)、
排序
(Ranking)、
对接
(Docking)
和筛选任务
(Screening Power)
的模型几乎不存在

[0009]当前虚拟筛选中的另一大难题是配体的柔性对接,即将一个陌生小分子对接到蛋白质靶体口袋中时,当前的分子对接程序难以得到较为精确的配体构象
(Docking Pose)。
分子对接的目的是在蛋白质结合口袋中生成接近天然构象的配体结合姿态

衡量对接软件产生的结合姿态质量的常用指标是均方根偏差
RMSD
,即结合姿态与天然构象之间的
RMSD
越大,代表两者差异越大,反之两者结构越相似

[0010]当前分子对接精度受限的原因有两点:
[0011](1)
当前的分子对接默认将蛋白质视为刚体,仅考虑小分子的柔性

而在实际的小分子与蛋白质结合过程中,两者会因为互相作用

互相影响而同时改变结构,直到达到最稳定的构象

因此,这在根本上使得结构本身具备较低的真实性

[0012](2)
打分函数的精度不够,难以捕捉到关键的相互作用信息及结构中的微小差异


技术实现思路

[0013]本专利技术旨在解决至少一种
技术介绍
中存在的技术问题,提供一种蛋白质

配体相互作用预测方法及优化方法,实现打分模型能够同时预测配体结合姿态均方根偏差
RMSD
和与结合强度
pkd
,并且能够在打分

排序

对接和筛选任务中同时具备优异的性能,提高了该领域内模型的普适性和迁移性

[0014]为实现以上技术目的,本专利技术采用以下技术方案:
[0015]一种蛋白质

配体相互作用预测方法,所述方法包括如下步骤:
[0016]步骤
S1
:构建数据集,制作标签数据;
[0017]步骤
S2
:建立蛋白质

配体复合物模型;
[0018]将蛋白质

配体编码成两个图,分别是蛋白质结合口袋图和蛋白质

配体原子交互图;
[0019]所述蛋白质

配体原子交互图为蛋白质

配体相互作用的异构图
G
RR,LL,RL
;所述异构图
G
RR,LL,RL
中共有两类节点和四种边;
[0020]两类节点分别是:蛋白质原子节点和配体原子节点
[0021]四种边分别是:白质节点

蛋白质节点配体节点

配体节点蛋白质节点

配体节点配体节点

蛋白质节点
[0022]步骤
S3
:构建基于边的图注意力网络打分模型;
[0023]所述打分模型包括:特征提取模块
、RMSD
解码器和
pkd
解码器;
[0024]所述特征提取模块包括两个独立的基于边的图注意力层,用于将蛋白质结合口袋图和蛋白质

配体原子交互图中的特征编码成蛋白质

配体相互作用的潜在空间;
[0025]所述
RMSD
解码器和所述
pkd
解码器用于对潜在空间进行解码,分别得到预测的配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种蛋白质

配体相互作用预测方法,其特征在于,所述方法包括如下步骤:步骤
S1
:构建数据集,制作标签数据;步骤
S2
:建立蛋白质

配体复合物模型;将蛋白质

配体编码成两个图,分别是蛋白质结合口袋图和蛋白质

配体原子交互图;所述蛋白质

配体原子交互图为蛋白质

配体相互作用的异构图
G
RR,LL,RL
;所述异构图
G
RR,LL,RL
中共有两类节点和四种边;两类节点分别是:蛋白质原子节点和配体原子节点四种边分别是:白质节点

蛋白质节点配体节点

配体节点蛋白质节点

配体节点配体节点

蛋白质节点步骤
S3
:构建基于边的图注意力网络打分模型;所述打分模型包括:特征提取模块
、RMSD
解码器和
pkd
解码器;所述特征提取模块包括两个独立的基于边的图注意力层,用于将蛋白质结合口袋图和蛋白质

配体原子交互图中的特征编码成蛋白质

配体相互作用的潜在空间;所述
RMSD
解码器和所述
pkd
解码器用于对潜在空间进行解码,分别得到预测的配体结合姿态均方根偏差
RMSD
和蛋白质

配体结合强度
pkd
;步骤
S4
:训练打分模型;将步骤
S2
中编码的两个图输入到步骤
S3
中构建的打分模型中,经过特征提取,蛋白质

配体相互作用潜在空间的编码

解码,反向传播和参数更新,得到训练好的打分模型;步骤
S5
:运用训练好的打分模型,对待测试蛋白质

配体的相互作用进行预测,得到预测的配体结合姿态均方根偏差
RMSD
和蛋白质

配体结合强度
pkd。2.
根据权利要求1所述的预测方法,其特征在于,所述数据集包括验证集

测试集和训练集,并通过分子对接的方式为训练集和验证集的配体产生更多的虚拟结合姿态,扩充训练集和验证集的样本数据;所述数据集的样本数据包括
RMSD
标签数据和
pkd
标签数据;天然配体结合姿态的均方根偏差
RMSD
作为原始的
RMSD
标签数据,其值为0;根据实验测定的结合强度
pkd
作为原始的
pkd
标签数据;虚拟结合姿态
(pose)
的结合强度
pkd
标签数据根据下式计算得到:
pkd
label

pkd
nat

W*RMSD
real
上式中,
pkd
label
为训练集中虚拟结合姿态的
pkd
标签数据;
pkd
nat
为该配体对应的天然结合姿态的结合强度
pkd

W
为结合强度
pkd

RMSD
增加的衰减因子;
RMSD
real
为该虚拟结合姿态
pose
相对于天然结合姿态的均方根偏差
。3.
根据权利要求1所述的预测方法,其特征在于,所述步骤
S2
中,所述异构图
G
RR,LL,RL
只考虑距离配体原子第一距离阈值
D1
以内的蛋白质原子
。4.
根据权利要求3所述的预测方法,其特征在于,所述异构图
G
RE,LL,RL
中,将配体节点以及配体节点之间形成的边定义为配体子图
G
L
,即配体子图将蛋白质节点以及蛋白质节点之间形成的边定义为蛋白质子图
G
R
,即蛋白质子图
在配体子图
G
L
中,定义了七种配体原子类型:
C、N、O、P、S、Hal

DU
;其中,
Hal
代表卤素元素
F、Cl、Br

I

DU
代表除
C、N、O、P、S、Hal
之外的元素类型;如果配体中两原子
i、j
之间存在化学键,则节点之间形成边并提取化学键的理化信息,将其与边长一并作为配体子图
G
L
的边特征;在蛋白质子图
G
R
中,按照蛋白质原子所在的残基类型

元素类型

属于主链原子还是侧链原子

芳香性

电荷量


α

C
的距离来作为蛋白质原子节点特征;当两蛋白质节点的距离来作为蛋白质原子节点特征;当两蛋白质节点之间的距离小于第二距离阈值
d2
时形成边边的长度作为蛋白质子图
G
R
的边特征,第二距离阈值
d2
=5‑
10
埃;如果蛋白质节点与配体节点之间的距离小于第三距离阈值
d3
时,则形成有向边时,则形成有向边其中,的方向是从到相反地,表示从到第三距离阈值
d3
=8‑
15
埃且
d3≤D1≤15

。5.
根据权利要求3所述的预测方法,其特征在于,所述异构图
G
RR,LL,RL
中,还包括用于描述蛋白质

配体原子相对位置的方向特征,具体为:引入一个由配体结合姿态的几何中心

蛋白质节点配体节点和
α

C
原子四个点形成的二面角并引入相邻两个边的夹角分别为
θ1和
θ2;所述方向特征包括:
cos(
θ
1)、cos(
θ
2)、
以及蛋白质原子到配体原子的距离
。6.
根据权利要求3所述的预测方法,其特征在于,所述异构图
G
RR,LL,RL
中,还包括一个描述蛋白质结合口袋的无向图
G
p
:上式中,表示结合口袋图的节点,
ε
p
表示节点之间形成的边;所述蛋白质结合口袋的无向图
G
p
中包含了蛋白质结合口袋处残基的几何特征;所述几何特征包括下述定义:蛋白质距离配体晶体结构小于第四距离阈值

【专利技术属性】
技术研发人员:王泽琛郑良振王晟
申请(专利权)人:上海智峪生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1