当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于过滤曲率的预测蛋白质—配体结合亲和力系统和方法技术方案

技术编号:37971314 阅读:6 留言:0更新日期:2023-06-30 09:46
一种基于过滤曲率的预测一个分子和一个蛋白质的结合亲和力的系统,包括数据存储器、数据整理器和模型预测器。数据整理器使用数据存储器中存储的蛋白质

【技术实现步骤摘要】
一种基于过滤曲率的预测蛋白质

配体结合亲和力系统和方法


[0001]本专利技术属于药物研发
,具体涉及一种药物分子与靶标蛋白的结合亲和力预测系统和方法。
技术背景
[0002]准确预测药物分子和蛋白质的结合亲和力有助于筛选合适的候选药物进行测试,加快药物筛选进程,是发现新药的关键阶段。蛋白质—配体复合物的三维结构被证实在亲和力预测上起到有效的作用。目前,将三维结构用于预测亲和力的方法有基于机器学习的方法和基于深度学习的方法。
[0003]基于机器学习的方法需要专业的知识,严重依赖于特征工程。这意味着在更大的数据集上缺乏通用性。
[0004]基于深度学习的方法中大部分工作将复合物看成是3D网格,然后使用三维卷积神经网络(3D GNNs),例如A
·
S
·
海菲兹等提出的结合亲和力预测系统和方法(A
·
S
·
海菲兹,I
·
瓦拉赫,M
·
迪萨巴.结合亲和力预测系统和方法:中国,201580036059.9[P],2019

03

26)。然而一个复合物在空间发生旋转后3D网格就会变化,这使3D GNNs对同一个复合物的亲和力预测对复合物的空间位置敏感。
[0005]图神经网络克服了这方面的困难,3D建模蛋白质—配体复合物的空间结构,预测其亲和力。在复合物的空间结构方面,Li,Shuangli等提出了一种SIGN图神经网络将初等几何的距离和角度纳入到3D建模中,并且考虑了分子间的长距离信息(Li,Shuangli,Jingbo Zhou,Tong Xu,Liang Huang,Fan Wang,Haoyi Xiong,Weili Huang,Dejing Dou,and Hui Xiong.Structure

aware interactive graph neural networks for the prediction ofprotein

ligandbinding affinity.In Proceedings ofthe 27thACM SIGKDD Conference on Knowledge Discovery&Data Mining,2021.975

985.)。然而这种图神经网络在预测亲和力的损失误差上还不是很理想。
[0006]不理想的原因有以下三点:第一,3D建模时高端的几何信息,例如代数拓扑中的持续同调和微分几何中的曲率等尚未纳入其中。这些几何结构已经被用作分子指纹,并利用机器学习在亲和力预测上取得良好的效果。
[0007]第二,蛋白质—配体复合物构成的图是一个异质图。SIGN因基于过于依赖低通过滤器的图注意力机制(GAT)而不适合于异质图的情形。实际上对于基于低频信息的图神经网络都不适合于蛋白质—配体复合物。
[0008]第三,和其他的图神经网络一样,SIGN在更新结点信息时过于强调图的结构,即中心结点对邻居结点的依赖性,而忽略了中心结点的不同属性对邻居结点不同属性的依赖性的差异。

技术实现思路

[0009]本专利技术为克服上述现有技术中不足,提供一种基于过滤曲率层的用于预测一个分子和一个蛋白的结合亲和力的系统和方法。本专利技术通过基于自适应图注意力机制和距离、角度和曲率空间信息的SIHN图神经网络学习蛋白质—配体复合物的3D空间结构来大步提高预测的精度。
[0010]本专利技术的一种用于预测一个分子和一个蛋白的结合亲和力的系统,由一个数据存储器、一个数据整理器和一个模型预测器组成。所述数据整理器使用所述存储器存储的数据生成图和图的结构,并将所述图和图的结构提供给模型预测模块预测亲和力,其中
[0011]一个数据存储器,用来存储蛋白质—配体信息。所述蛋白质—配体信息蕴含原子的坐标、原子的属性和亲和力信息。所述原子属性包括:原子类型、pybel原子属性和SMARTS属性。
[0012]数据整理器,包括:一个数据预处理模块、图模块和一个结构模块,被配置来:将所述数据预处理模块用于所述的一个数据存储器中存入的数据以生成结合亲和力、原子坐标和分子间原子对共现频率。所述分子间的原子对是指原子对的一个原子来自于配体,另一个原子来自于蛋白质,并且两个原子间的欧氏距离不超过预制阈值。
[0013]将所述图模块用于数据预处理模块生成的结合亲和力、原子坐标和原子属性以生成图。具体地,设置一个短距阈值,以原子和原子属性为图的结点和结点的属性。如果两个原子之间的欧氏距离不超过短距阈值,则相应的结点连一条边。所述边的权重为所述欧氏距离,图的标签为亲和力。
[0014]将所述结构模块用于所述的图以生成图的结构:分子间的边的类型、各类型边的数量和边的过滤曲率。其中所述分子间的边是指图的连接蛋白质原子和配体原子的边,所述边的类型是指边的两端点的原子对类型。
[0015]所述结构模块包含长距特征层和曲率特征层,其中所述长距特征层使用所述的图生成分子间的边的类型和各类型边的数量;
[0016]曲率特征层使用所述的图生成边的过滤曲率。
[0017]模型预测器使用所述数据整理器所生成的图以产生所述一种分子和一种靶蛋白的结合亲和力的预测和原子对共现频率的逼近。其中,
[0018]所述模型预测器由过滤曲率模块和SIHN模块组成,所述过滤曲率模块使用所述的数据整理器生成的边的过滤曲率和权重产出边的初始表示。
[0019]SIHN模块使用所述的数据整理器生成的图和图的结构及过滤曲率模块生成的边的初始表示产出亲和力预测和分子间原子对的共现频率逼近。
[0020]进一步地,所述的曲率特征层使用图模块生成的图产生图的边的过滤曲率,具体过程为:
[0021]设置一串过滤值,对每一个过滤值,从所述的图中删掉权重超过所述过滤值的边以产出一个过滤子图,计算所述子图的各个边的曲率。将所述图中一个边在各个过滤子图中的曲率按过滤值从小到大的顺序拼接起来,如果所述边没有出现在某个过滤子图中则将所述边在所述过滤子图中的曲率设为零,得到的向量即是所述边的过滤曲率。其中,
[0022]所述的曲率是Ricci曲率的离散化模式,例如Ollivier Ricci曲率和Forman Ricci曲。
[0023]进一步地,所述过滤曲率模块使用一个dense层将数据整理器生成的边的过滤曲率嵌入到高维向量空间,并对所嵌入的向量做softmax运算得到边的曲率嵌入,对边的权重的向上取整后将其嵌入到高维空间中得到边的权重嵌入,将边的曲率嵌入和权重嵌入拼接起来并经过另一个dense层生成边的初始表示。
[0024]进一步地,所述的SIHN模块由一个PHAL组和一个池化组组成。所述的PHAL组应用所述的数据整理器产生的图和图的结构以及所述的过滤曲率模块生成的边的初始表示产出边的表示和结点的表示。所述池化组使用所述PHA本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于过滤曲率的预测一个分子和一个蛋白质结合亲和力的系统,其特征在于,所述系统由一个数据存储器、一个数据整理器和一个模型预测器组成,所述数据整理器使用所述存储器存储的数据生成图和图的结构,并将所述图和图的结构提供给模型预测模块预测亲和力,其中,数据存储器,用来存储蛋白质—配体信息,所述蛋白质—配体信息蕴含原子的坐标、原子的属性和结合亲和力信息,所述原子属性包括:原子类型、pybel原子属性和SMARTS属性;数据整理器,包括:一个数据预处理模块、一个图模块和一个结构模块,被配置来:将所述数据预处理模块用于所述的一个数据存储器中存入的数据以生成结合亲和力、原子坐标和分子间原子对共现频率,所述分子间的原子对是指原子对的一个原子来自于配体,另一个原子来自于蛋白质,并且两个原子间的欧氏距离不超过预制阈值,以及将所述图模块用于数据预处理模块生成的结合亲和力、原子坐标和原子属性以构建图,具体地,设置一个短距阈值,以原子和原子属性为图的结点和结点的属性,如果两个原子之间的欧氏距离不超过短距阈值,则在相应的结点间添加一条边,所述边的权重为所述欧氏距离,图的标签为亲和力,以及将所述结构模块用于所构建的图以生成图的结构:分子间的边的类型、各类型边的数量和边的过滤曲率,其中所述分子间的边是指图的连接蛋白质原子和配体原子的边,所述边的类型是指边的两端点的原子对类型,以及所述结构模块包含长距特征层和曲率特征层,其中所述长距特征层使用构建的图生成分子间的边的类型和各类型边的数量,以及曲率特征层使用所构建的图生成边的过滤曲率;模型预测器使用所述数据整理器所生成的图和结构以产生所述一种分子和一种靶蛋白的结合亲和力的预测和原子对共现频率的逼近,所述模型预测器由过滤曲率模块和SIHN模块组成,其中,所述过滤曲率模块使用所述数据整理器生成的边的过滤曲率和权重产出边的初始表示,以及所述SIHN模块使用所述的数据整理器生成的图和图的结构及过滤曲率模块生成的边的初始表示产出亲和力预测和分子间原子对的共现频率逼近。2.根据权利要求1所述的系统,其特征在于,所述的曲率特征层使用图模块生成的图生成图的边的过滤曲率,具体过程为:设置一串过滤值,对每一个过滤值,从所述图中删掉权重超过所述过滤值的边以产出一个过滤子图,计算所述子图的各个边的曲率,将所述图中一个边在各个过滤子图中的曲率按过滤值从小到大的顺序拼接起来,如果所述边没有出现在某个过滤子图中则将所述边在所述过滤子图中的曲率设为零,得到的向量即是所述边的过滤曲率,其中,所述的曲率是Ricci曲率的离散化模式。3.根据权利要求1所述的系统,其特征于,所述过滤曲率模块使用一个dense层将数据整理器生成的边的过滤曲率嵌入到高维向量空间,并对所嵌入的向量做softmax运算得到边的曲率嵌入,对边的权重的向上取整后将其嵌入到高维空间中得到边的权重嵌入,将边的曲率嵌入和权重嵌入拼接起来并经过另一个dense层生成边的初始表示。4.根据权利要求1所述的系统,其特征在于,所述的SIHN模块由一个PHAL组和一个池化
组组成,所述的PHAL组应用所述的数据整理器产生的图和图的结构以及所述的过滤曲率模块生成的边的初始表示产出边的表示和结点的表示,所述池化组使用所述PHAL组产生的边的表示和结点表示以及数据整理器生成的边的类型以产出原子对的共现频率和亲和力的预测;所述池化组包含一个边池化和一个原子池化,边池化使用PHAL组产生的边的表示和数据整理器生成的边的类型产出各类型原子对的共现频率逼近,原子池化使用PHAL组产生的结点的表示产出亲和力的预测;所述的边池化包含一个激活函数是ReLU的dense层、一个分类池化层、一个线性层和一个softmax层,其中所述dense层将PHAL组产生的边的表示嵌入到128维空间,所述分类池化层从数据整理器生成的边的类型中选取36类边,将每一类边在dense层中的表示加起来形成一个36行的矩阵,所述选取的36类边为边(a,b),其中a来自蛋白质中的C(碳)、N(氮)、O(氧)、S(硫)原子,而b则是再来配体中的C、N、O、S、Cl(氯)、F(氟)、P(磷)、I(碘)、Br(溴)原子,所述线性层将分类池化层生成的矩阵转化为一个36维向量,所述softmax层将所述的向量转化为所述分子间原子对的共现频率逼近;所述的原子池化包括图的池化层、激活函数都是ReLU的三个dense层和一个线性层,所述图的池化层将PHAL组产生的结点表示相加得到一个向量,所述的三个dense层依次排列,前一个dense层的输出,作为后一个dense层的输入,将图的池化层所得到向量依次嵌入128*4、128*2和128维向量空间,所述的线性层将所得的128维向量映射为一个实数,即亲和力预测值。5.根据权利要求4,其特征在于,所述的PHAL组由多个PHAL组成,其中第一个PHAL以数据整理器生成的图、过滤曲率模块生成的边的初始表示为输入生成边的表示和结点的表示,其余PHAL使用前一个PHAL生成的边的表示和结点的表示以及过滤曲率模块生成的边的初始表示为输入生成边的表示和结点的表示;其中,所述PHAL由一个结点到边层、一个边到边层和一个边到结点层组成,所述的结点到边层将所述PHAL输入中的边的初始表示和所述边的两端结点的表示(属性)拼接起来,经过dense层产出边的表示,所述边到边层使用所述结点到边层生成的边的中间表示生成边的表示,所述的边到结点层使用所述PHAL输入中的结点表示(属性)、边的初始表示和所述边到边层生成的边的表示生成结点表示。6.根据权利要求5,其特征在于,所述的边到边层包含一个定向线图元,一个图分类元,多个个性图注意力元和一个拼接元;其中,所述定向线图元使用数据整理器生成的图和结点到边层生成的边的中间表示构造图的一个定向线图,具体流程为给所述的图的每一个边指定两个方向形成两个有向边,将有向边作为所述定向线图的结点,将所述的中间表示作为定向线图中相应结点的属性,以所述图中定向边的头部是另一个定向边的尾部为依据构造所述定向线图中的相应的一个结点到另一个结点的边,以所述两个定向边的夹角作为所述定向线图的边的权重;所述图分类元将所述定向线图元生成的定向线图划分为多个子图,具体地,将角度区间(0
°
,180
°
]划为多个相同大小的区间,对每一个区间,定向线图中删掉权重不在所述区间的边而得到一个子图;所述的个性图注意力元由一个拼接层、一个激活函数是tanh()的dense层、一个乘法层
和一个加法层组成,所述拼接层将一个结点的属性和所述结点的邻居结点的属性拼接成一个向量,所述dense层使用所述向量产生一个向量,向量的维数和所述邻居结点的属性维数一致,所述乘法层将dense层生成的向量和所述的邻居结点属性做元素乘积,得到所述邻居的传递向量,所述加法层将每一个邻居的传递向量都加到所述结点的属性上得到结点的局部表示;所述拼接元将线图中的每个结点的局部表示拼接起来得到所述边的一个表示。7.根据权利要求5,其特征在于,所述的边到结点层是一个多头自适应图注意力机制,包含多个头部元和一个均值元,其中所述每一个头部元使用边到结点层的输入中的结点表示(属性)和边的表示生成结点的表示,所述的均值元将每一个结点在多个头部元生成的表示取平均值得到每一个结点的表示;所述的头部元由一个边初始表示线性层、一个边表示线性层、一个结点表示线性层、一个拼接层、一个激活函数为tanh()的dense层、一个乘法层和一个加法层组成,所述边初始表示线性层、边的表示线性层和结点表示线性层分别将边到结点层的输入中的边的初始表示、边的表示和中心结点的表示(属性)分别嵌入到相同的向量空间中,所述拼接层将中心结点的嵌入、一个边的表示的嵌入和所述边初始表示的嵌入拼接起来,所述的dense层将所述拼接嵌入成区间[

1,1]中的一个实数,所述乘法层将所述实数和所述边的表示的嵌入作数量乘法运算得到边的传递向量,所述加法层将邻居各个邻居边的传递向量加到所述中心结点的嵌入上。8.一种基于过滤曲率的预测一个分子和一个蛋白质结合亲和力的方法,包括:步骤一:将反映蛋白质—配体数据存储在一个数据存储器中,所述蛋白质—配体数据蕴含原...

【专利技术属性】
技术研发人员:吴剑秋陈红阳
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1