【技术实现步骤摘要】
基于几何特征编码图注意力网络的分子性质预测方法
[0001]本专利技术设计人工智能
,具体设计一种基于几何特征编码图注意力网络的分子性质预测方法,在药物设计
、
化学计算以及材料筛选等领域具有良好的应用前景
。
技术介绍
[0002]生物和化学领域的科学研究工作通常需要处理大量的计算和实验数据,特别是在药物开发
、
化学合成等研究方向
。
面对大批量的化学分子数据的高通量计算和筛选,为了尽可能减少计算成本,研究人员利用机器学习等手段进行分子表征学习实现高通量的分子筛选,比如使用分子描述符来表示分子特征,常用的描述符有
(1)
分子指纹:通过将分子拆分为特定的子结构
、
官能团并采用二进制编码进行分子表示,
(2)SMILES
字符串:通过将分子的元素
、
化学键等特征以字符串的形式进行表述
。
因此,传统的机器学习算法构建分子描述符需要大量的特征工程,不利于大规模数据的高通量筛选
。
[0003]近几年,随着大数据和人工智能技术高速发展,深度神经网络作为主流的人工智能技术,在辅助药物开发
、
化学催化反应筛选等领域得到广泛关注,但相关研究工作主要是将深度学习在图像处理
、
自然语言处理的经典方法进行迁移使用,对分子数据进行一维序列表示或二维的分子图结构表示,然而实际的药物分子性质十分复杂,分子的空间结构特征与分子的物理化学性质密切 ...
【技术保护点】
【技术特征摘要】
1.
一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:包括如下步骤:步骤一,根据待预测分子的二维和三维结构信息,构建分子以原子为节点的分子图
G
a
和以化学键连接的原子对为节点的分子图
G
b
;其中,分子图
G
b
的每个节点由一个化学键及其端点的两个原子构成,节点信息还应当包含原子的空间位置坐标;步骤二,通过对分子的二维和三维特征进行编码进而生成两种类型分子图的节点特征向量,分子图
G
a
通过嵌入层将节点的原子序数
、
原子形式电荷
、
原子杂化方式和原子连接化学键的数量信息进行编码形成节点的二维特征,并使用高斯核函数将节点原子间的距离信息进行编码得到节点的三维特征;分子图
G
b
通过嵌入层将节点的化学键类型和两端的原子序数
、
端点原子连接其余化学键的数量进行编码形成节点的二维特征,使用高斯核函数将和节点间的最短距离
D
b
信息进行编码得到节点的三维特征;步骤三,通过基于多头自注意力机制引导的图神经网络,对步骤二获得的分子图节点特征进行聚合更新,分子图
G
a
将节点原子间最短路径信息以及原子间的空间距离信息进行特征编码作为图注意力参数的一部分;分子图
G
b
将节点化学键之间的最短路径信息和最短距离
D
b
信息进行特征编码作为图注意力特征的一部分;步骤四,对分子图
G
a
和
G
b
的三维结构的几何信息进行特征编码,采用叉乘运算和残差连接的方式将几何特征与步骤三获得的分子图节点特征进行融合;其中,对分子图
G
a
将节点原子间的欧式距离作为几何特征编码;分子图
G
b
将节点化学键间的空间夹角作为几何特征编码;步骤五,对步骤四获得的分子图节点特征进行合并,使用全连接网络和图池化操作对分子图
G
a
和
G
b
的节点级特征向量进行全局聚合,从而生成分子图的图级特征,实现目标分子的性质预测
。2.
根据权利要求1所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤二中,对于分子数据缺少二维结构包括原子形式电荷
、
化学键的情况,依据分子数据的三维结构,原子间距离信息按照升序排列,选取包含所有原子的最少原子对,将这些原子对作为相同类型化学键的端点,进而利用步骤一构建分子图
G
b
。3.
根据权利要求1所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤二中,针对分子图
G
a
中每个节点,节点的二维特征表示为:中每个节点,节点的二维特征表示为:表示节点原子信息,
Deg
i
为节点连接化学键数量,
N
a
为节点数;三维分子结构的节点三维特征为:
W1,W2,W3为可学习的权重矩阵,
GELU()
为激活函数,
N
i
表示节点的分子图节点补集,表示分子图
G
a
节点
i
和
j
的距离
。4.
根据权利要求1所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤二中,针对分子图
G
b
中每个节点,节点的二维特征为:中每个节点,节点的二维特征为:为节点化学键类型,和表示化学键两端的原子信息;分子图
G
b
节点间的最短距离
D
b
定义如下:任意节点和表示为和
B
和
A
分别代表节点的化学键和端点原子,节点间的最短距离
D
b
为节点的端点原子之间的空间距离的最小值,其表达式为:
R
为节点的端点原子
A
的空间位置坐标,对于存在共用端点原子的节点之间的最短距离为零
。5.
根据权利要求1或2所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤二中,对于分子数据缺少原子形式电荷的情况,分子图的节点特征仅保留原子序数信息;分子图
G
a
节点特征为分子图
G
b
节点特征
6.
根据权利要求1所述的一种基于几何特征编码图注意力网络的分子性质预测方法,其特征在于:在步骤三中,使用
Floyd
算法得到二维分子图节点间的最短路径信息,分子图
G
a
节点的最短路径信息为路径上节点的原子类型信息;分子图
G
b
节点的最短路径信息为路径上节点的原子类型和化学键类型信息;通过可学习的权重矩阵将步骤三中的节点特征
、
节点间的最短路径和距离信息进行相加,得到分子图节点间的自...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。