当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法技术

技术编号:31167476 阅读:17 留言:0更新日期:2021-12-04 13:04
本发明专利技术公开了一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法,包括:将化合物的分子式转换为原子邻接图,使用图注意力网络学习化合物每个原子的表征向量;将蛋白质氨基酸序列切分为残基序列,使用卷积神经网络模型学习残基的表征向量;构建双向注意力网络模型来融合所有原子和残基的表征向量,得到化合物特征向量和蛋白质特征向量;使用神经网络并根据化合物和蛋白质的特征向量,对化合物与蛋白质之间的相互作用以及亲和力进行预测。本发明专利技术既可以用于化合物和蛋白质相互作用的预测,又能够预测二者之间的结合亲和力,而且预测准确性好。且预测准确性好。且预测准确性好。

【技术实现步骤摘要】
一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法


[0001]本专利技术属于药物预测与分析领域,具体涉及一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法。

技术介绍

[0002]在药物的研发过程中,事先确定靶向特定疾病的靶标蛋白是药物研发的基础,而寻找能够与特定靶标蛋白产生相互作用的化合物分子是药物研发的关键。其中,靶标是指体内与某种疾病的发生密切相关,并能与药物发生特异性结合从而产生治疗效果的生物大分子,主要包括受体、核酸、基因等。药物中的化合物分子通过调控靶标的生物活性以达到治愈或缓解相应疾病的效果。药物化合物与靶标蛋白质之间的相互作用实际上是一种特异性结合的关系,而结合关系的强弱也称之为结合亲和力。鉴定化合物和蛋白质之间的相互作用以及测定二者之间的结合亲和力是药物研发过程中的关键步骤,对药物研发具有重要意义。使用传统的实验方法进行化合物和蛋白质相互作用的鉴定以及结合亲和力的测定存在实验周期漫长且耗资昂贵等问题,也无法进行大规模地应用。开发有效的计算方法来预测化合物和蛋白质之间的相互作用和结合亲和力能够加快昂贵且耗时的实验工作,减少盲目性的生化实验,专注于更少数量而更有可能的化合物分子和靶标蛋白,从而极大地缩短药物研发的周期、降低研发成本以及研发失败所带来的风险。随着基因组学、蛋白质组学以及系统生物学等技术的不断提高,化合物和蛋白质相关的数据呈井喷式增长,为数据驱动的计算方法提供了海量的数据资源。
[0003]传统的计算方法既能用于分析化合物和蛋白质之间相互作用的结合模式,又能计算二者之间的结合亲和力大小,主要包括基于配体、基于结构、以及分子动力学模型等方法。但这些方法都存在一定的局限性,基于配体的方法会受到靶标已知的配体数量的限制,基于结构的方法过度依赖于靶标蛋白的三维结构数据,而分子动力学模型会受到高计算成本的限制。而目前主流的计算方法大都关注于化合物和蛋白质之间相互作用的二分类预测,即预测给定的化合物和蛋白质是否存在相互作用,而忽略了重要的相互作用强度信息,即结合亲和力的大小。虽然目前已存在一些化合物和蛋白质结合亲和力的预测方法,但是这些预测方法的生物可解释性和预测精确度上还有待进一步提高。

技术实现思路

[0004]本专利技术提出一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法,既可以用于化合物和蛋白质相互作用的预测,又能够预测二者之间的结合亲和力,且其生物可解释性和预测准确性较好。
[0005]为实现上述技术目的,本专利技术采用如下技术方案:
[0006]一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法,包括:
[0007]获取化合物的分子式并将其转换为原子邻接图,将原子邻接图和随机初始化的原
子表征向量作为图注意力网络模型的输入,更新和学习得到化合物中所有原子的表征向量;
[0008]获取蛋白质的氨基酸序列,采用滑动窗口的方法从氨基酸序列中提取固定长度的残基,再使用卷积神经网络模型对随机初始化的残基表征向量进行更新和学习;
[0009]根据化合物中所有原子的表征向量和蛋白质中所有残基的表征向量,通过构建的双向注意力网络模型计算每个原子对于残基和每个残基对于原子这两个方向的注意力系数;再利用得到的注意力系数对所有原子表征向量和所有残基表征向量分别进行加权融合,得到融合的化合物特征向量和蛋白质特征向量;
[0010]对化合物特征向量和蛋白质特征向量进行外积运算,将运算结果展开成一维的列向量,作为第一神经网络模型的输入,用于预测化合物与蛋白质之间是否存在相互作用;对于存在相互作用的样本,将外积运算结果展开的一维列向量作为第二神经网络模型的输入,用于预测化合物与蛋白质之间的亲和力大小。
[0011]在更优的技术方案中,使用RDKit工具将化合物分子式转换为原子邻接图G={V,E};其中,V是原子邻接图的节点集合,所有节点与化合物的所有原子一一对应,v
i
∈V表示化合化的第i个原子;E是原子邻接图的边集合,e
ij
∈E第i个原子与第j个原子之间的化学键。
[0012]在更优的技术方案中,所述将原子邻接图和随机初始化的原子表征向量作为图注意力网络模型的输入,更新和学习得到化合物中所有原子的表征向量,具体为:
[0013]A1,按公式计算每两个原子v
i
,v
j
之间的注意力系数α
ij
,其中的分别为原子v
i
,v
j
随机初始化的表征向量,为图注意力网络模型的注意力参数;
[0014]A2,对于化合物每个原子v
i
,根据其所有邻居节点v
j
的表征向量以及其与所有邻居节点v
j
之间的注意力系数α
ij
,采用加权求和的方式更新该原子v
i
的表征向量的表征向量其中的N
i
为原子v
i
的所有邻居节点,化合物中与原子v
i
有化学键连接的所有原子均为原子v
i
的邻居节点。
[0015]在更优的技术方案中,重复步骤A1

A2共K次,各原子融合K次得到的表征向量,得到化合物各原子最终的表征向量。
[0016]在更优的技术方案中,提取的每个残基包括氨基酸序列中相邻的3个氨基酸,则蛋白质的氨基酸序列S={s1,s2,

s
m
}提取得到残基序列为R={r1,r2,

r
l
};其中,s
i
,i=1,2,,m表示蛋白质的第i个氨基酸,r
i
,i=1,2,,l表示残基序列R中的第i个残基,且有l=m

2。
[0017]在更优的技术方案中,所述根据化化合物中所有原子的表征向量和蛋白质中所有残基的表征向量,通过构建的双向注意力网络模型计算每个原子对于残基和每个残基对于原子这两个方向的注意力系数;再利用得到的注意力系数对所有原子表征向量和所有残基表征向量分别进行加权融合,得到融合的化合物特征向量和蛋白质特征向量,具体为:
[0018]B1,将化合物的原子表征向量和蛋白质的残基表征向量都转换为统一的向量维度d,并分别表示为化合物特征矩阵和蛋白质特征矩阵
[0019]B2,融合化合物特征矩阵C和蛋白质特征矩阵P得到相互作用矩阵A,计算公式为:
[0020]A=CUP
T

[0021]式中,U是用于融合化合物与蛋白质特征的参数矩阵,U∈R
d
×
d

[0022]B3,分别计算残基传递到原子的化合物信息I
c
和原子传递到残基的蛋白质信息I
p
,计算公式为:
[0023]I
c
=APW
r2a

[0024]I...

【技术保护点】

【技术特征摘要】
1.一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法,其特征在于,包括:获取化合物的分子式并将其转换为原子邻接图,将原子邻接图和随机初始化的原子表征向量作为图注意力网络模型的输入,更新和学习得到化合物中所有原子的表征向量;获取蛋白质的氨基酸序列,采用滑动窗口的方法从氨基酸序列中提取固定长度的残基,再使用卷积神经网络模型对随机初始化的残基表征向量进行更新和学习;根据化合物中所有原子的表征向量和蛋白质中所有残基的表征向量,通过构建的双向注意力网络模型计算每个原子对于残基和每个残基对于原子这两个方向的注意力系数;再利用得到的注意力系数对所有原子表征向量和所有残基表征向量分别进行加权融合,得到融合的化合物特征向量和蛋白质特征向量;对化合物特征向量和蛋白质特征向量进行外积运算,将运算结果展开成一维的列向量,作为第一神经网络模型的输入,用于预测化合物与蛋白质之间是否存在相互作用;对于存在相互作用的样本,将外积运算结果展开的一维列向量作为第二神经网络模型的输入,用于预测化合物与蛋白质之间的亲和力大小。2.根据权利要求1所述的方法,其特征在于,使用RDKit工具将化合物分子式转换为原子邻接图G={V,E};其中,V是原子邻接图的节点集合,所有节点与化合物的所有原子一一对应,v
i
∈V表示化合化的第i个原子;E是原子邻接图的边集合,e
ij
∈E第i个原子与第j个原子之间的化学键。3.根据权利要求1所述的方法,其特征在于,所述将原子邻接图和随机初始化的原子表征向量作为图注意力网络模型的输入,更新和学习得到化合物中所有原子的表征向量,具体为:A1,按公式计算每两个原子v
i
,v
j
之间的注意力系数α
ij
,其中的分别为原子v
i
,v
j
随机初始化的表征向量,为图注意力网络模型的注意力参数;A2,对于化合物每个原子v
i
,根据其所有邻居节点v
j
的表征向量以及其与所有邻居节点v
j
之间的注意力系数α
ij
,采用加权求和的方式更新该原子v
i
的表征向量的表征向量其中的N
i
为原子v
i
的所有邻居节点,化合物中与原子v
i
有化学键连接的所有原子均为原子v
i
的邻居节点。4.根据权利要求3所述的方法,其特征在于,重复步骤A1

A2共K次,各原子融合K次得到的表征向量,得到化合物各原子最终的表征向量。5.根据权利要求1所述的方法,其特征在于,提取的每个残基包括氨基酸序列中相邻的3个氨基酸,则蛋白质的氨基酸序列S={s1,s2,...s
m
}提取得到残基序列为R={r1,r2,...r
l
};其中,s
i
,i=1,2,,m表示蛋白质的第i个氨基酸,r
i
,i=1,2,,l表示残基序列R中的第i个残基,且有l=m

2。6.根据权利要求1所述的方法,其特征在于,所述根据化化合物中所有原子的表征向量和蛋白质中所有残基的表征向量,通过构建的双向注意力网络模型计算每个原子对于残基和每个残基对于原子这两个方向的注意力系数;再利用得到的注意力系数对所有原子表征向量和所有残基表征向量分别进行加权融合,得到...

【专利技术属性】
技术研发人员:李敏卢长利
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1