一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法技术

技术编号：31167476 阅读：17 留言：0更新日期：2021-12-04 13:04

本发明专利技术公开了一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法，包括：将化合物的分子式转换为原子邻接图，使用图注意力网络学习化合物每个原子的表征向量；将蛋白质氨基酸序列切分为残基序列，使用卷积神经网络模型学习残基的表征向量；构建双向注意力网络模型来融合所有原子和残基的表征向量，得到化合物特征向量和蛋白质特征向量；使用神经网络并根据化合物和蛋白质的特征向量，对化合物与蛋白质之间的相互作用以及亲和力进行预测。本发明专利技术既可以用于化合物和蛋白质相互作用的预测，又能够预测二者之间的结合亲和力，而且预测准确性好。且预测准确性好。且预测准确性好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法

[0001]本专利技术属于药物预测与分析领域，具体涉及一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法。

技术介绍

[0002]在药物的研发过程中，事先确定靶向特定疾病的靶标蛋白是药物研发的基础，而寻找能够与特定靶标蛋白产生相互作用的化合物分子是药物研发的关键。其中，靶标是指体内与某种疾病的发生密切相关，并能与药物发生特异性结合从而产生治疗效果的生物大分子，主要包括受体、核酸、基因等。药物中的化合物分子通过调控靶标的生物活性以达到治愈或缓解相应疾病的效果。药物化合物与靶标蛋白质之间的相互作用实际上是一种特异性结合的关系，而结合关系的强弱也称之为结合亲和力。鉴定化合物和蛋白质之间的相互作用以及测定二者之间的结合亲和力是药物研发过程中的关键步骤，对药物研发具有重要意义。使用传统的实验方法进行化合物和蛋白质相互作用的鉴定以及结合亲和力的测定存在实验周期漫长且耗资昂贵等问题，也无法进行大规模地应用。开发有效的计算方法来预测化合物和蛋白质之间的相互作用和结合亲和力能够加快昂贵且耗时的实验工作，减少盲目性的生化实验，专注于更少数量而更有可能的化合物分子和靶标蛋白，从而极大地缩短药物研发的周期、降低研发成本以及研发失败所带来的风险。随着基因组学、蛋白质组学以及系统生物学等技术的不断提高，化合物和蛋白质相关的数据呈井喷式增长，为数据驱动的计算方法提供了海量的数据资源。
[0003]传统的计算方法既能用于分析化合物和蛋白质之间相互作用的结合模式，又能计算二者

【技术保护点】

【技术特征摘要】
1.一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法，其特征在于，包括：获取化合物的分子式并将其转换为原子邻接图，将原子邻接图和随机初始化的原子表征向量作为图注意力网络模型的输入，更新和学习得到化合物中所有原子的表征向量；获取蛋白质的氨基酸序列，采用滑动窗口的方法从氨基酸序列中提取固定长度的残基，再使用卷积神经网络模型对随机初始化的残基表征向量进行更新和学习；根据化合物中所有原子的表征向量和蛋白质中所有残基的表征向量，通过构建的双向注意力网络模型计算每个原子对于残基和每个残基对于原子这两个方向的注意力系数；再利用得到的注意力系数对所有原子表征向量和所有残基表征向量分别进行加权融合，得到融合的化合物特征向量和蛋白质特征向量；对化合物特征向量和蛋白质特征向量进行外积运算，将运算结果展开成一维的列向量，作为第一神经网络模型的输入，用于预测化合物与蛋白质之间是否存在相互作用；对于存在相互作用的样本，将外积运算结果展开的一维列向量作为第二神经网络模型的输入，用于预测化合物与蛋白质之间的亲和力大小。2.根据权利要求1所述的方法，其特征在于，使用RDKit工具将化合物分子式转换为原子邻接图G＝{V，E}；其中，V是原子邻接图的节点集合，所有节点与化合物的所有原子一一对应，v
i
∈V表示化合化的第i个原子；E是原子邻接图的边集合，e
ij
∈E第i个原子与第j个原子之间的化学键。3.根据权利要求1所述的方法，其特征在于，所述将原子邻接图和随机初始化的原子表征向量作为图注意力网络模型的输入，更新和学习得到化合物中所有原子的表征向量，具体为：A1，按公式计算每两个原子v
i
，v
j
之间的注意力系数α
ij
，其中的分别为原子v
i
，v
j
随机初始化的表征向量，为图注意力网络模型的注意力参数；A2，对于化合物每个原子v
i
，根据其所有邻居节点v
j
的表征向量以及其与所有邻居节点v
j
之间的注意力系数α
ij
，采用加权求和的方式更新该原子v
i
的表征向量的表征向量其中的N
i
为原子v
i
的所有邻居节点，化合物中与原子v
i
有化学键连接的所有原子均为原子v
i
的邻居节点。4.根据权利要求3所述的方法，其特征在于，重复步骤A1
‑
A2共K次，各原子融合K次得到的表征向量，得到化合物各原子最终的表征向量。5.根据权利要求1所述的方法，其特征在于，提取的每个残基包括氨基酸序列中相邻的3个氨基酸，则蛋白质的氨基酸序列S＝{s1，s2，...s
m
}提取得到残基序列为R＝{r1，r2，...r
l
}；其中，s
i
，i＝1，2，，m表示蛋白质的第i个氨基酸，r
i
，i＝1，2，，l表示残基序列R中的第i个残基，且有l＝m
‑
2。6.根据权利要求1所述的方法，其特征在于，所述根据化化合物中所有原子的表征向量和蛋白质中所有残基的表征向量，通过构建的双向注意力网络模型计算每个原子对于残基和每个残基对于原子这两个方向的注意力系数；再利用得到的注意力系数对所有原子表征向量和所有残基表征向量分别进行加权融合，得到...

【专利技术属性】
技术研发人员：李敏，卢长利，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人