一种基于全局注意力机制的分子毒性预测方法技术

技术编号：41068344 阅读：4 留言：0更新日期：2024-04-24 11:23

一种基于全局注意力机制的分子毒性预测方法：本发明专利技术涉及深度学习、分子特征提取和分子毒性预测等领域。本方法针对现有的基于深度学习的分子毒性预测方法对于分子特征的利用过于局限，而且传统的基于图神经网络的分子特征提取方法造成大量远程原子关联信息的丢失问题。本发明专利技术所采用的技术方案是：一种基于全局注意力机制的分子毒性预测方法，包括将分子毒性数据集中的分子转换为图结构数据、提出一种新的分子特征提取机制、提出一种基于全局注意力机制的分子毒性预测网络模型三个部分，可以有效地提取分子特征，全面地考虑到分子中原子和化学键的局部邻接关系以及全局的依赖性，从而获得更好的分子毒性预测效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习、分子特征提取和分子毒性预测等领域。

技术介绍

1、1.分子毒性预测

2、分子毒性预测是指通过使用计算方法或机器学习技术，对分子结构的毒性进行预测。由于药物的安全性是最重要的性质之一，化学毒理学预测在药物发现的研究中受到越来越多的关注。计算机毒理学在药物发现中的应用有助于提高效率、降低成本、减少动物实验，同时为研究人员提供更全面的信息，促进安全、高效的新药开发。

3、具体而言，首先需要收集包含分子结构和相应毒性标签的数据集，该数据可以来自实验室测定的毒性实验数据。随后，通过将分子结构转化为计算机可处理的表示形式，采用各种机器学习模型如图神经网络(gnn)等，模型能够学习分子结构与毒性之间的关联，训练好的模型可以用于快速而准确地预测候选化合物的毒性。

4、2.深度学习神经网络

5、深度学习神经网络是一种强大的机器学习模型，由多个层次的神经网络组成，每一层包含多个神经元。这些神经元通过连接按照特定模式组织，使得信息能够在网络中传递和处理。典型的深度学习神经网络具有多个隐藏层，每个隐藏层由众多神经元组成，通过非线性的激活函数处理输入，实现对更加抽象和复杂特征的学习。

6、训练深度学习神经网络使用反向传播算法，通过计算模型输出与真实值之间的误差，并使用梯度下降等优化算法，调整网络的权重和偏置，最小化误差。这一过程在训练集上迭代进行，直到网络能够在给定输入上产生准确的输出。

7、深度学习神经网络的优势在于其能够自动学习输入数据中的特征表示，而无需

8、在化学领域，深度学习神经网络的强大特征提取和分类能力使其能够学习化学反应和其产物之间的映射关系。通过学习已知的化学反应产物，模型可以预测未知化学反应的产物，为化学合成和药物研发等领域提供有力的支持。

9、3.基于深度学习的分子特征提取

10、在深度学习中提取分子特征是分子表示学习的一个关键任务。深度学习方法可以学习分子中的抽象和高级特征，从而更好地捕捉分子结构与性质之间的关系。

11、分子图神经网络(graph neural networks，gnns)是一种深度学习模型，专门设计用于处理图结构数据，因此在分子学中得到了广泛应用。gnns通过图卷积层(graphconvolutional layer)进行信息传递。在每一层，节点通过聚合其邻居节点的信息来更新自身的表示。然而，图卷积层只能通过邻居节点传递信息，忽略了远程节点对于分子性质的影响。

12、自注意力机制(self-attention mechanism)是一种用于处理序列数据的机制，最初广泛用于自然语言处理领域。它在深度学习中的应用，特别是在自然语言处理和计算机视觉任务中，取得了显著的成功。而自注意力机制在图神经网络中的应用通常称为graphtransformer。这种方法允许模型在处理图数据时，动态地为每个节点分配不同的注意力权重，以便更好地捕捉节点之间的关系，从而更好地提取特征。

技术实现思路

1、本专利技术所解决的技术问题是，针对现有的基于深度学习的分子毒性预测方法对于分子特征的利用过于局限，而且传统的基于图神经网络的分子特征提取方法造成大量远程原子关联信息的丢失问题，提出一种将自注意力机制和图神经网络结合的，从而从更深层次提取分子特征的分子毒性预测方法。

2、本专利技术所采用的技术方案是：一种基于全局注意力机制的分子毒性预测方法，包括如下步骤：

3、步骤1：将分子毒性数据集中的分子转换为图结构数据

4、步骤2：提出一种新的分子特征提取机制

5、步骤3：提出一种基于全局注意力机制的分子毒性预测网络模型

6、三个步骤，分别说明如下：

7、步骤1：将分子毒性数据集中的分子转换为图结构数据

8、将毒性数据集中的分子转换为图结构数据的主要目的是利用图神经网络(gnn)等图结构化模型来捕捉分子之间的复杂关系和结构信息。如图1所示，图结构数据能够更自然地表示分子的拓扑结构，其中原子是节点，键是边，有助于保留分子的空间信息和化学上的相互作用。通过将分子转换为图形表示，可以更有效地进行分子毒性预测、化合物活性预测等任务，提高模型对分子结构特征的学习能力，进而为药物发现和毒性评估提供更准确的预测。

9、进一步的，步骤1的具体步骤如下所示：

10、步骤101：读取数据集中的smiles格式字符串，使用化学信息处理工具，对每个分子进行结构解析，将其转换为图形式。包括将原子映射到图中的节点，键映射到图中的边。

11、步骤102：将分子的结构信息映射到图的表示形式，一个分子对应生成一个dgl图。每个原子成为图的一个节点，每个键成为图的一条边。节点特征中包含有关原子的信息，包括原子类型、手性、形式电荷、部分电荷、芳香原子、杂化、氢键供体、氢键受体、环大小在3和8之间时，原子所属的环数等，采用one-hot编码，边特征中包含有关键的信息，包括是否为单键、双键、三键、芳香键、键是否共轭、键是否位于任何大小的环中、键的立体构型等，采用one-hot编码。

12、步骤103：将每个分子的图表示收集到一个图数据集中。每个图包含节点、边和相应的特征信息。为后续的网络训练提供数据。

13、步骤2：提出一种新的分子特征提取机制

14、为了同时获取分子的局部和整体特征，本专利技术创新性地提出一种新的分子特征提取机制。本专利技术中的分子特征提取机制主要思想为，首先根据分子图的结构对相邻的原子特征和化学键特征进行聚合，得到分子的局部特征，然后对聚合后的特征进行自注意力操作，该操作可以考虑到原子或化学键特征之间不同的关联特征，即可以实现对分子中任意的原子或化学键之间关联信息的提取，得到分子的全局特征，最后再对该特征进行提取浓缩，综合得到分子的总体特征。通过这种方法，可以尽可能全面地考虑到分子中原子和化学键的局部邻接关系以及全局的依赖性，从而尽可能多地提取到分子的特征，得到更好的预测效果。

15、首先，根据步骤1得到分子图数据，每一个分子被转换为无向图g，都带有节点特征xv和边特征evw。然后经过一个节点特征编码器，这个编码器由节点度数嵌入矩阵wd构成，可以将每一个节点的入度数嵌入到节点特征的维度，并与原始节点特征加和得到新的特征。

16、然后，将带有新特征的分子图g输入一个消息传递神经网络(mpnn)，该网络可以对每个原子的周围环境进行编码，这个网络由图卷积层和门控循环单元(gated recurrentunit，gru)构成。图卷积层首先对输入的图g进行图卷积操作，将每一个节点和边及其邻居节点和边的特征加权求和得到聚合后的特征向量，映射到隐藏层维度。然后将该向量输入gru中，作为本文档来自技高网...

【技术保护点】

1.一种基于全局注意力机制的分子毒性预测方法，包括如下步骤：

2.根据权利要求1所述的一种基于全局注意力机制的分子毒性预测方法，步骤1)的特征为：

3.根据权利要求1所述的一种基于全局注意力机制的分子毒性预测方法，步骤2)的特征为：

4.根据权利要求1所述的一种基于全局注意力机制的分子毒性预测方法，步骤3)特征为：

【技术特征摘要】

1.一种基于全局注意力机制的分子毒性预测方法，包括如下步骤：

2.根据权利要求1所述的一种基于全局注意力机制的分子毒性预测方法，步骤1)的特征为：

3....

【专利技术属性】
技术研发人员：赵鑫，张书溢，张涛，曹亚慧，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人