当前位置: 首页 > 专利查询>武汉大学专利>正文

融合元路径的分子异质图性质预测方法、存储介质及装置制造方法及图纸

技术编号:38619341 阅读:13 留言:0更新日期:2023-08-31 18:24
本发明专利技术公开了一种融合元路径的分子异质图性质预测方法及装置,涉及化学分子图学习技术领域,该方法包括将每个分子建模为异质图;预定义一个元路径模板库,以进行节点类型和边缘类型描述;进行分子图的局部路径结构的学习,将异质图分解成不同的关系子图;对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块;将所有节点的表征输入关系关注力模块,将节点在不同关系子图下的特征向量按权相加;将所有节点的嵌入向量读出成分子图的特征向量,输入回归器预测得到属性值;得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。本发明专利技术可以有效学习分子图特征并用于分子属性回归预测任务。预测任务。预测任务。

【技术实现步骤摘要】
融合元路径的分子异质图性质预测方法、存储介质及装置


[0001]本专利技术涉及化学分子图学习
,具体涉及一种融合元路径的分子异质图性质预测方法及装置。

技术介绍

[0002]药物发现是一个极为耗时、复杂且昂贵的过程,通常需要测试成千上万的化合物,然而其中只有少部分候选化学分子具有实用价值。准确高效的分子特性预测有助于快速筛选具有特定目标特性的新分子,有效提高药物发现的成功率,节省大量资源和时间,对于发现新的有效药物和其他化学材料具有重要意义。因此,准确预测分子的化学特性可以起到药物设计的辅助作用,提高药物发现的开发效率,是一项极具研究价值的任务。
[0003]分子表示学习是建立化学信息学与深度学习联系的关键步骤,高效的分子表示学习对于分子特性预测的关键。在早期的一些分子表示算法中,分子首先会被编码为保留分子结构和特征的向量,比如采用SIMILES表示法,将化学分子编码为序列化的文本形式,然而这种非几何的字符串形式丢失信息较多,不能充分利用分子的拓扑信息,对于分子的拓扑结构和属性信息的表达能力是有限的。
[0004]随着深度学习的发展,设计图学习模型来学习分子图特征在近几年取得了显著的研究进展,在处理分子性质预测任务方面表现出了良好效果。图神经网络(GraphNeural Network,简称GNN)是一类直接应用于图结构数据的深度学习模型,以端到端的方式处理各种与图学习相关的任务。由于分子是天然的图结构,分子的原子和化学键可以对应于图结构的节点和边的特征,而图神经网络是图学习的有力工具,因此通过图神经网络有助于有效学习分子的结构和特征。目前,使用图神经网络处理分子上的图学习任务是一个极具潜力的研究方向,大多数现有的基于图的分子学习方法是针对同质图而设计的,忽略了原子节点或边的不同类型,也忽略了来自不同化官能团的原子之间的高阶相互作用。由于化学分子的性质主要由关键功能基团决定的,而这些功能基团是由几种路径模式组合而成的,因此学习捕捉分子中这些关键基团有助于更好的学习分子特征。可见,当前亟需一种能够有效学习融合宏观化学特征的分子表示方法,从而实现更好的分子性质回归预测效果。

技术实现思路

[0005]针对现有技术中存在的缺陷,本专利技术的目的在于提供一种融合元路径的分子异质图性质预测方法及装置,可以有效学习分子图特征并用于分子属性回归预测任务。
[0006]为达到以上目的,本专利技术提供的一种融合元路径的分子异质图性质预测方法,具体包括以下步骤:
[0007]将每个分子建模为异质图,且异质图中包括节点集合、边集合、节点类型集合和边类型集合;
[0008]预定义一个元路径模板库,且一个元路径建模一种化学基团的路径结构,以进行节点类型和边缘类型描述;
[0009]基于元路径进行分子图的局部路径结构的学习,并在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图均只包含一种边类型的同质图;
[0010]对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新;
[0011]将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量;
[0012]基于门控循环单元更新节点的嵌入向量,并基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值;
[0013]采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。
[0014]在上述技术方案的基础上,所述将每个分子建模为异质图,其中,对于异质图,具体表示为:
[0015]G=(V,E,M,R)
[0016]其中,G表示异质图,V表示节点集合,E表示边集合,M表示节点类型集合,R表示边类型集合,一个原子被表示为一个节点v,且v∈V,一个边e用于描述两个原子之间的化学键,即两个节点之间的化学键,节点类型映射为V

M,边类型映射φ为E

R。
[0017]在上述技术方案的基础上,所述基于元路径进行分子图的局部路径结构的学习,具体步骤包括:
[0018]给定一个分子图,对所有预定义的元路径模板执行BFS图遍历算法,匹配出当前分子图中所有的元路径实例;
[0019]通过连接每个元路径实例中的源节点和目标节点,构建元路径连接。
[0020]在上述技术方案的基础上,所述对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新,具体步骤包括:
[0021]给定一个由r类型的边连接的原子对(v
i
,v
j
),将节点v
i
的特征向量由线性层将离散特征向量投射为连续向量h
i
,将节点v
j
的特征向量由线性层将离散特征向量投射为连续向量h
j

[0022]通过一个具有可学习权重w
r
的函数,将h
i
和h
j
转化为高维的隐藏嵌入向量,拼接后得到一个聚合的特征向量m;
[0023]在每个聚合的特征向量m上乘以一个注意力向量来实现邻居注意力策略,输出为每个邻居节点的重要性得分μ,μ用于说明在关系类型r下,邻居节点v
i
对节点v
j
的影响程度;
[0024]邻居节点的重要性得分μ使用Softmax函数,将邻接点的重要性得分转换成邻接点的影响系数α,具体的:
[0025]h
i
=Linear(x
i
),W
r
=Linear(e
ij
)
[0026]m=[W
r
h
i
;W
r
h
j
][0027]μ=ReLU(Wm)
[0028][0029]其中,x
i
表示原始的节点特征向量,投射到一个连续向量h
i
中,e
ij
表示原始的边特征向量,被转换和重塑为关系权重W
r
,W表示一个权重矩阵,将拼接起来的的节点嵌入向量映射成一个重要性分数μ,Linear表示线性函数,ReLU表示激活函数;
[0030]汇总邻居信息来更新源节点v
i
的嵌入向量,将邻接节点嵌入与邻接点影响系数整合在一起,作为下一层的输入,具体的:
[0031][0032]其中,h

表示下一层的输入,f表示激活函数,N
i
表示节点v
i
的邻接节点集合。
[0033]在上述技术方案的基础上,所述将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合元路径的分子异质图性质预测方法,其特征在于,具体包括以下步骤:将每个分子建模为异质图,且异质图中包括节点集合、边集合、节点类型集合和边类型集合;预定义一个元路径模板库,且一个元路径建模一种化学基团的路径结构,以进行节点类型和边缘类型描述;基于元路径进行分子图的局部路径结构的学习,并在分子图上构建基于元路径的原子连接后,根据边的类型将异质图分解成不同的关系子图,每个关系子图均只包含一种边类型的同质图;对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新;将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量;基于门控循环单元更新节点的嵌入向量,并基于读出函数将所有节点的嵌入向量读出成分子图的特征向量,输入至回归器预测得到属性值;采用平均绝对误差作为损失函数,基于优化器求解最小损失得到最优模型参数,最小化损失函数直至模型收敛,输出模型,实现分子异质图性质预测。2.如权利要求1所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述将每个分子建模为异质图,其中,对于异质图,具体表示为:G=(V,E,M,R)其中,G表示异质图,V表示节点集合,E表示边集合,M表示节点类型集合,R表示边类型集合,一个原子被表示为一个节点v,且v∈V,一个边e用于描述两个原子之间的化学键,即两个节点之间的化学键,节点类型映射为V

M,边类型映射φ为E

R。3.如权利要求1所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述基于元路径进行分子图的局部路径结构的学习,具体步骤包括:给定一个分子图,对所有预定义的元路径模板执行BFS图遍历算法,匹配出当前分子图中所有的元路径实例;通过连接每个元路径实例中的源节点和目标节点,构建元路径连接。4.如权利要求1所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述对于每个关系子图,将关系子图的邻接矩阵和节点向量输入邻居注意力模块,以实现节点的嵌入向量的更新,具体步骤包括:给定一个由r类型的边连接的原子对(v
i
,v
j
),将节点v
i
的特征向量由线性层将离散特征向量投射为连续向量h
i
,将节点v
j
的特征向量由线性层将离散特征向量投射为连续向量h
j
;通过一个具有可学习权重w
r
的函数,将h
i
和h
j
转化为高维的隐藏嵌入向量,拼接后得到一个聚合的特征向量m;在每个聚合的特征向量m上乘以一个注意力向量来实现邻居注意力策略,输出为每个邻居节点的重要性得分μ,μ用于说明在关系类型r下,邻居节点v
i
对节点v
j
的影响程度;邻居节点的重要性得分μ使用Softmax函数,将邻接点的重要性得分转换成邻接点的影响系数α,具体的:
h
i
=Linear(x
i
),W
r
=Linear(e
ij
)m=[W
r
h
i
;W
r
h
j
]μ=ReLU(Wm)其中,x
i
表示原始的节点特征向量,投射到一个连续向量h
i
中,e
ij
表示原始的边特征向量,被转换和重塑为关系权重W
r
,W表示一个权重矩阵,将拼接起来的的节点嵌入向量映射成一个重要性分数μ,Linear表示线性函数,ReLU表示激活函数;汇总邻居信息来更新源节点v
i
的嵌入向量,将邻接节点嵌入与邻接点影响系数整合在一起,作为下一层的输入,具体的:其中,h

表示下一层的输入,f表示激活函数,N
i
表示节点v
i
的邻接节点集合。5.如权利要求4所述的一种融合元路径的分子异质图性质预测方法,其特征在于,所述将所有节点的表征输入关系关注力模块,学习不同类型关系的权重,将节点在不同关系子图下的特征向量按权相加,以更新所有节点的嵌入向量,具体步骤包括:创建关系关注力模块,关系关注力模块用于学习不同类型关系R={R

,R

,R
#
,R

,R
M
}的权重{W

,W

,W
#
,W

【专利技术属性】
技术研发人员:杜博纪颖万国佳
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1