当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于多壳层和扩展连接性指纹的药靶亲和力预测方法技术

技术编号:37776058 阅读:17 留言:0更新日期:2023-06-06 13:47
本发明专利技术公开了一种基于多壳层和扩展连接性指纹的药靶亲和力预测方法,使用PDBbind数据库中的蛋白质

【技术实现步骤摘要】
一种基于多壳层和扩展连接性指纹的药靶亲和力预测方法


[0001]本专利技术涉及生物学信息学、计算机应用
,更具体地说,特别涉及一种基于多壳层和扩展连接性指纹的药靶亲和力预测方法。

技术介绍

[0002]从第一种药物诞生到今天,学术研究人员和工业工作人员一直致力于药物的发现和开发,以对抗各种疾病。药物发现和开发的流程通常由靶点识别开始,以临床试验结束。由于需要大量的分析和测试,而且失败的风险很高,开发一种新药的整个过程通常需要10

20年,并且需要大量的投资,从5亿美元到26亿美元不等。药物

靶点亲和力的预测是在药物发现中发现关键和先导化合物的最关键步骤之一。
[0003]小分子药物的发现通常通过高通量筛选(HTS)识别命中化合物所针对的蛋白质靶点。随后优化命中化合物以获得具有良好药效学和药代动力学特性的先导化合物。随着计算机技术的发展和大量蛋白质配体结构数据的出现,计算机辅助药物发现在过去几十年中在新的小分子药物开发中发挥了重要作用,而药物靶点结合亲和力(DTA)的准确预测是计算机辅助药物设计中关键的一环。DTA预测的主要目标之一是设计合适的评分函数(SF)来计算相对或绝对结合自由能,以区分针对特定靶点的强结合剂和弱结合剂(或非结合剂)。如果没有可靠的评分函数,就很难保证计算机辅助药物设计中涉及的各项任务的性能。DTA的快速准确预测将避免许多耗时且复杂的实验。
[0004]如何准确预测DTA仍然是计算生物学和计算化学领域的关键挑战。在过去的几十年里,人们做出了广泛的努力来开发新的SF或改进现有的SF来提高DTA预测的性能。然而,要进一步开发最能模拟真实生理场景的DTA预测方法还有很大的挑战。

技术实现思路

[0005]本专利技术的目的在于提供一种基于多壳层和扩展连接性指纹的药靶亲和力预测方法,以克服现有技术所存在的缺陷。
[0006]为了达到上述目的,本专利技术采用的技术方案如下:
[0007]一种基于多壳层和扩展连接性指纹的药靶亲和力预测方法,包括以下步骤:
[0008]S1、初始化参数,包括设置壳层数量num_shells、切块大小patch_size、Transformer的多头注意力数量num_heads、最终特征向量维度projection_dim和Transformer的层数n;
[0009]S2、对蛋白质

配体复合物进行壳层建模;
[0010]S3、统计PDBbind v2019数据集中所有原子种类,得到蛋白质原子类型数量protein_atom_types和配体原子类型数量ligand_atom_types;
[0011]S4、对于所有的壳层,计算位于该壳层的特异蛋白质原子

配体原子对的数目,得到复合物在单个壳层的扩展连接性原子对特征;
[0012]S5、判断是否计算完所有壳层的扩展连接性原子对特征,如是则堆叠所有壳层的
特征向量,得到整个复合物的特征向量,并转至步骤S6,否则转至步骤S4;
[0013]S6、对复合物的特征向量进行切片,得到num_patch个切片,其中单个切片是一个长度为projection_dim的特征向量;
[0014]S7、对各个切片进行位置编码,并将切片的位置信息通过嵌入层后和切片的特征向量求和,得到加入位置信息的切片特征向量;
[0015]S8、将得到的切片作为序列输入n层相同的Transformer模型,学习到切片的表征向量,每层Transformer模型由多头注意力机制、层标准化和两层全连接网络组成;
[0016]S9、判断是否达到最大迭代次数n,如是则将特征向量作为最终的表征输出,转至步骤S10,否则将特征向量作为切片序列,转至步骤S8;
[0017]S10、将最终的表征向量进行层标准化、全局平均池化并输入最终的全连接层得到亲和力强度的预测值。
[0018]进一步地,所述步骤S2具体包括:
[0019]S21、根据小分子配体各原子的三维坐标,计算出小分子配体的几何中心点O;
[0020]S22、以几何中心点O为中心,划分一系列壳层,其中第一个壳层和几何中心点O的距离为d0,第K个壳层和第K

1的壳层之间的距离为d
s
,其中K=2,3,4,

,num_shells;
[0021]S23、对所有的蛋白质原子,计算其与几何中心点O的距离d,若d<d0,则标记为第一层原子,若d>d0+(num_shells

1)*d
s
,则忽略该原子,否则标记为第(d

d0)/d
s
+1层原子。
[0022]进一步地,所述步骤S3具体包括:
[0023]S31、根据Python开源化学信息学软件RDKit的解释,从标准数据格式文件中获得配体原子类型,根据ECIF方法提出的原子连接性考虑原子的六个特征来定义配体原子,包括原子符号、显式化合价、连接的重原子数量、连接氢的数量、原子芳香性、环结构,最终获得了70种配体原子类型;
[0024]S32、,在基于字典的映射中,根据PDB结构文件中的残基和原子标签,将原子类型手动分配给22种不同的原子类型。
[0025]进一步地,所述步骤S4具体包括:
[0026]S41、统计所有配体原子和单个壳层内的所有蛋白质原子的种类和数量;
[0027]S42、将蛋白质原子和配体原子两两组合构成蛋白

配体原子对,将protein_atom_types种蛋白质原子和ligand_atom_types种配体原子组成protein_atom_types行ligand_atom_types列的特异性原子对矩阵,矩阵中的每个元素为对应特异性原子对组合的数量;
[0028]S43、所述特异性原子对矩阵为单个壳层的扩展连接性原子对特征。
[0029]进一步地,所述步骤S6具体包括:
[0030]S61、整个复合物的特征向量为壳层、蛋白质原子类型和配体原子类型组成的三维数组,在这三个维度上使用3D

CNN按照预先定义的patch_size切片,得到num_patch个切片;
[0031]S62、将卷积后各切片的特征展平,得到各个切片的特征向量,特征向量的长度为卷积滤波器数量projection_dim。
[0032]进一步地,所述步骤S8具体包括:
[0033]S81、特征向量v通过LayerNormalization和多头注意力机制得到第一中间临时结果x1(用于在神经网络中进行残差连接),将特征向量v和第一中间临时结果x1进行残差连
接得到第二中间临时结果x2;
[0034]S82、将第二中间临时结果x2通过LayerNormalization和两层全连接层得到第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多壳层和扩展连接性指纹的药靶亲和力预测方法,其特征在于,包括以下步骤:S1、初始化参数,包括设置壳层数量num_shells、切块大小patch_size、Transformer的多头注意力数量num_heads、最终特征向量维度projection_dim和Transformer的层数n;S2、对蛋白质

配体复合物进行壳层建模;S3、统计PDBbind v2019数据集中所有原子种类,得到蛋白质原子类型数量protein_atom_types和配体原子类型数量ligand_atom_types;S4、对于所有的壳层,计算位于该壳层的特异蛋白质原子

配体原子对的数目,得到复合物在单个壳层的扩展连接性原子对特征;S5、判断是否计算完所有壳层的扩展连接性原子对特征,如是则堆叠所有壳层的特征向量,得到整个复合物的特征向量,并转至步骤S6,否则转至步骤S4;S6、对复合物的特征向量进行切片,得到num_patch个切片,其中单个切片是一个长度为projection_dim的特征向量;S7、对各个切片进行位置编码,并将切片的位置信息通过嵌入层后和切片的特征向量求和,得到加入位置信息的切片特征向量;S8、将得到的切片作为序列输入n层相同的Transformer模型,学习到切片的表征向量,每层Transformer模型由多头注意力机制、层标准化和两层全连接网络组成;S9、判断是否达到最大迭代次数n,如是则将特征向量作为最终的表征输出,转至步骤S10,否则将特征向量作为切片序列,转至步骤S8;S10、将最终的表征向量进行层标准化、全局平均池化并输入最终的全连接层得到亲和力强度的预测值。2.根据权利要求1所述的基于多壳层和扩展连接性指纹的药靶亲和力预测方法,其特征在于,所述步骤S2具体包括:S21、根据小分子配体各原子的三维坐标,计算出小分子配体的几何中心点O;S22、以几何中心点O为中心,划分一系列壳层,其中第一个壳层和几何中心点O的距离为d0,第K个壳层和第K

1的壳层之间的距离为d
s
,其中K=2,3,4,

,num_shells;S23、对所有的蛋白质原子,计算其与几何中心点O的距离d,若d<d0,则标记为第一层原子,若d>d0+(num_shells

1)*...

【专利技术属性】
技术研发人员:彭绍亮潘亮王小奇
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1