基于几何特征编码图注意力网络的分子性质预测方法技术

技术编号:39654338 阅读:8 留言:0更新日期:2023-12-09 11:23
本发明专利技术提出一种基于几何特征编码图注意力网络的分子性质预测方法,包括如下步骤:步骤一,根据待预测分子的二维和三维结构信息,构建分子以原子为节点的分子图

【技术实现步骤摘要】
基于几何特征编码图注意力网络的分子性质预测方法


[0001]本专利技术设计人工智能
,具体设计一种基于几何特征编码图注意力网络的分子性质预测方法,在药物设计

化学计算以及材料筛选等领域具有良好的应用前景


技术介绍

[0002]生物和化学领域的科学研究工作通常需要处理大量的计算和实验数据,特别是在药物开发

化学合成等研究方向

面对大批量的化学分子数据的高通量计算和筛选,为了尽可能减少计算成本,研究人员利用机器学习等手段进行分子表征学习实现高通量的分子筛选,比如使用分子描述符来表示分子特征,常用的描述符有
(1)
分子指纹:通过将分子拆分为特定的子结构

官能团并采用二进制编码进行分子表示,
(2)SMILES
字符串:通过将分子的元素

化学键等特征以字符串的形式进行表述

因此,传统的机器学习算法构建分子描述符需要大量的特征工程,不利于大规模数据的高通量筛选

[0003]近几年,随着大数据和人工智能技术高速发展,深度神经网络作为主流的人工智能技术,在辅助药物开发

化学催化反应筛选等领域得到广泛关注,但相关研究工作主要是将深度学习在图像处理

自然语言处理的经典方法进行迁移使用,对分子数据进行一维序列表示或二维的分子图结构表示,然而实际的药物分子性质十分复杂,分子的空间结构特征与分子的物理化学性质密切相关

针对分子性质预测的深度学习模型,在充分考虑分子的序列和图结构信息的基础上,还应当对分子的三维空间结构特征进行编码,进一步提升深度学习模型对于分子性质预测的性能


技术实现思路

[0004]本专利技术提供了一种基于几何特征编码图注意力网络的分子性质预测方法,通过构建两种类型的分子图,使用多头注意力机制引导分子图节点特征向量聚合更新并融合分子三维结构的几何特征,提高分子性质预测的准确性

[0005]为实现分子性质预测,本专利技术采取以下的技术方案:
[0006]步骤一,根据待预测分子的二维和三维结构信息,构建所述分子以原子为节点的分子图
G
a
和以化学键连接的原子对为节点的分子图
G
b
,其中分子图
G
b
的每个节点由一个化学键及其端点的两个原子构成,节点信息还应当包含原子的空间位置坐标

[0007]步骤二,通过对分子的二维和三维特征进行编码进而生成两种类型分子图的节点特征向量,所述分子图
G
a
通过嵌入层将节点的原子序数

原子形式电荷

原子杂化方式和原子连接化学键的数量信息进行编码形成节点的二维特征,并使用高斯核函数将节点原子间的距离信息进行编码得到节点的三维特征;所述分子图
G
b
通过嵌入层将节点的化学键类型和两端的原子序数

端点原子连接其余化学键的数量进行编码形成节点的二维特征,使用高斯核函数将和节点间的最短距离
D
b
信息进行编码得到节点的三维特征

[0008]步骤三,通过基于多头自注意力机制引导的图神经网络,对步骤二获得的分子图节点特征进行聚合更新,分子图
G
a
将节点原子间最短路径信息以及原子间的空间距离信息
进行特征编码作为图注意力参数的一部分;分子图
G
b
将节点化学键之间的最短路径信息和最短距离
D
b
信息进行特征编码作为图注意力特征的一部分

[0009]步骤四,对所述分子图
G
a

G
b
的三维结构的几何信息进行特征编码,采用叉乘运算和残差连接的方式将几何特征与步骤三获得的分子图节点特征进行融合

其中对分子图
G
a
将节点原子间的欧式距离作为几何特征编码;分子图
G
b
将节点化学键间的空间夹角作为几何特征编码

[0010]步骤五,对步骤四获得的分子图节点特征进行合并,使用全连接网络和图池化操作对分子图
G
a

G
b
的节点级特征向量进行全局聚合,从而生成分子图的图级特征,实现目标分子的性质预测

[0011]其中,对于步骤二,进一步包括对于分子数据缺少二维结构如原子形式电荷

化学键等信息的情况,依据分子数据的三维结构,原子间距离信息按照升序排列,选取包含所有原子的最少原子对,将这些原子对作为相同类型化学键的端点,进而可以利用步骤一构建分子图
G
b

[0012]对于步骤三,进一步包括使用
Floyd
算法得到二维分子图节点间的最短路径信息,分子图
G
a
节点的最短路径信息为路径上节点的原子类型信息;分子图
G
b
节点的最短路径信息为路径上节点的原子类型和化学键类型信息

通过可学习的权重矩阵将步骤三所述的节点特征

节点间的最短路径和距离信息进行相加,得到分子图节点间的自注意力系数

[0013]对于步骤四,进一步包括分子图
G
b
节点化学键之间的空间夹角是将节点间最短距离
D
b
对应的原子对作为公共端点

对于分子图
G
a
的节点间原子对距离和分子图
G
b
的节点间化学键夹角信息,使用基函数和可学习的权重矩阵进行特征编码进而得到高维的几何特征向量

[0014]与现有技术相比,本申请具有以下的有益效果:
[0015]i)
构建两种类型的分子图能够从原子和化学键两个方面获取分子图的特征信息,更全面的编码分子图的二维和三维结构信息

[0016]ii)
使用多头自注意力机制对分子图节点特征聚合更新,能够将分子图的二维拓扑信息和三维空间位置信息用于引导节点特征聚合,提高分子图节点特征聚合效果

[0017]iii)
对分子三维结构的空间几何特征进行编码,进一步融合分子的三维结构信息,能够提升分子性质预测的准确性

附图说明
[0018]图1为本专利技术实施例提供的基于几何特征编码图注意力网络的分子性质预测方法的流程示意图

[0019]图2为本专利技术实施例提供的基于几何特征编码图注意力网络的模型结构图

[0020]图3为本专利技术提供的分子图自定义的节点生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:包括如下步骤:步骤一,根据待预测分子的二维和三维结构信息,构建分子以原子为节点的分子图
G
a
和以化学键连接的原子对为节点的分子图
G
b
;其中,分子图
G
b
的每个节点由一个化学键及其端点的两个原子构成,节点信息还应当包含原子的空间位置坐标;步骤二,通过对分子的二维和三维特征进行编码进而生成两种类型分子图的节点特征向量,分子图
G
a
通过嵌入层将节点的原子序数

原子形式电荷

原子杂化方式和原子连接化学键的数量信息进行编码形成节点的二维特征,并使用高斯核函数将节点原子间的距离信息进行编码得到节点的三维特征;分子图
G
b
通过嵌入层将节点的化学键类型和两端的原子序数

端点原子连接其余化学键的数量进行编码形成节点的二维特征,使用高斯核函数将和节点间的最短距离
D
b
信息进行编码得到节点的三维特征;步骤三,通过基于多头自注意力机制引导的图神经网络,对步骤二获得的分子图节点特征进行聚合更新,分子图
G
a
将节点原子间最短路径信息以及原子间的空间距离信息进行特征编码作为图注意力参数的一部分;分子图
G
b
将节点化学键之间的最短路径信息和最短距离
D
b
信息进行特征编码作为图注意力特征的一部分;步骤四,对分子图
G
a

G
b
的三维结构的几何信息进行特征编码,采用叉乘运算和残差连接的方式将几何特征与步骤三获得的分子图节点特征进行融合;其中,对分子图
G
a
将节点原子间的欧式距离作为几何特征编码;分子图
G
b
将节点化学键间的空间夹角作为几何特征编码;步骤五,对步骤四获得的分子图节点特征进行合并,使用全连接网络和图池化操作对分子图
G
a

G
b
的节点级特征向量进行全局聚合,从而生成分子图的图级特征,实现目标分子的性质预测
。2.
根据权利要求1所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤二中,对于分子数据缺少二维结构包括原子形式电荷

化学键的情况,依据分子数据的三维结构,原子间距离信息按照升序排列,选取包含所有原子的最少原子对,将这些原子对作为相同类型化学键的端点,进而利用步骤一构建分子图
G
b
。3.
根据权利要求1所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤二中,针对分子图
G
a
中每个节点,节点的二维特征表示为:中每个节点,节点的二维特征表示为:表示节点原子信息,
Deg
i
为节点连接化学键数量,
N
a
为节点数;三维分子结构的节点三维特征为:
W1,W2,W3为可学习的权重矩阵,
GELU()
为激活函数,
N
i
表示节点的分子图节点补集,表示分子图
G
a
节点
i

j
的距离
。4.
根据权利要求1所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤二中,针对分子图
G
b
中每个节点,节点的二维特征为:中每个节点,节点的二维特征为:为节点化学键类型,和表示化学键两端的原子信息;分子图
G
b
节点间的最短距离
D
b
定义如下:任意节点和表示为和
B

A
分别代表节点的化学键和端点原子,节点间的最短距离
D
b
为节点的端点原子之间的空间距离的最小值,其表达式为:
R
为节点的端点原子
A
的空间位置坐标,对于存在共用端点原子的节点之间的最短距离为零
。5.
根据权利要求1或2所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤二中,对于分子数据缺少原子形式电荷的情况,分子图的节点特征仅保留原子序数信息;分子图
G
a
节点特征为分子图
G
b
节点特征
6.
根据权利要求1所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤三中,使用
Floyd
算法得到二维分子图节点间的最短路径信息,分子图
G
a
节点的最短路径信息为路径上节点的原子类型信息;分子图
G
b
节点的最短路径信息为路径上节点的原子类型和化学键类型信息;通过可学习的权重矩阵将步骤三中的节点特征

节点间的最短路径和距离信息进行相加,得到分子图节点间的自...

【专利技术属性】
技术研发人员:白相志张亚男
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1