一种基于分层信息提取机制的化学反应理论产量预测方法技术

技术编号：40977434 阅读：9 留言：0更新日期：2024-04-18 21:24

一种基于分层信息提取机制的化学反应理论产量预测方法：本方法属于深度学习、化学反应属性预测领域。本方法针对现有的基于深度学习的化学反应理论产量预测方法对化学反应的注意力过于局限、并且传统的化学反应特征的提取方法造成大量化学反应特征的丢失的问题。本发明专利技术所采用的技术方案是：一种基于分层信息提取机制的化学反应理论产量预测方法，包括提出一种新的化学反应特征提取方法、提出一种新的化学反应分层信息提取机制和提出一种基于分层信息提取浓缩机制的化学反应理论产量预测网络架构三个部分，可以有效的提取化学反应特征，提取反应的局部和全局信息并且准确进行化学反应理论产量预测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习、化学反应特征提取和化学反应理论产量预测等领域。

技术介绍

1、1.化学反应理论产量预测

2、化学反应理论产量预测在化学和医药等领域中具有重要的作用，化学反应理论产量预测可以帮助化学工程师和研究人员了解未知化学方程式的可能产量，对指导后续的化学实验具有重要作用。在药物研发和有机合成领域，理论产量预测可以帮助研究人员预测化合物的合成产量，从而选择最有效的反应路径和条件。这对于设计合成路线、优化反应步骤和改进合成方法非常重要，可以加快新药的开发过程和提高化学合成的效率。

3、具体而言，化学反应理论产量预测，就是根据提供的化学反应方程式，推测该化学反应可能的产物产量。而传统的化学反应产量预测，可能需要反应物的比例关系、反应环境的ph值、反应的平衡常数以及反应物的初始量，推导出产物的理论产量。这个计算过程基于化学反应的平衡定律，即化学反应在达到平衡时，反应物和产物的摩尔比例将满足一定的平衡常数关系。

4、而在实际的生产领域，研究人员首先可能无法明确了解一个反应如此详细的信息，并且在实际工程中经常需要面对的问题是面对大量的产量未知的反应，如何从其中挑选理论产量最高的反应，在这一个过程中，对于研究人员来说，最需要知道的是在统一度量下，哪一个反应的产量最高，而不需要知道每个反应的实际产量值，而将每个反应的都进行详细地产量研究，无疑会极大拖延研发速度。因此需要引入新的工具对反应的理论产量进行快速地、较为准确地预测，便于研究人员快速缩小化学反应的选择范围。基于残差块的卷积神经网络技术2.深度学习神经网络

5、深度学习神经网络是一种机器学习模型，它由多个神经网络层组成，每一层都包含许多神经元(或称为节点)。这些层之间的连接是按照特定的模式组织的，允许信息在网络中传递和处理。深度学习神经网络通常具有多个隐藏层。每个隐藏层都由许多神经元组成，这些神经元接收来自前一层神经元的输入，并通过一些非线性的转换函数(如激活函数)处理这些输入。这样的层级结构使得网络能够学习更加抽象和复杂的特征表示。

6、深度学习神经网络的训练过程是通过反向传播算法来实现的。在训练过程中，网络接收一组已知的输入数据，并生成对应的输出。通过计算输出与真实值之间的误差，并使用梯度下降等优化算法，网络的权重和偏置被调整以最小化误差。这个过程重复进行多次，直到网络能够在给定输入上产生准确的输出。

7、深度学习神经网络的优势在于它可以自动学习输入数据中的特征表示，而无需人工手动设计特征。这使得深度学习在处理大规模、高维度的数据(如图像、文本和音频)方面非常有效。通过增加网络的深度，深度学习模型可以学习到更加复杂和抽象的特征表示，从而提高模型的表达能力和性能。

8、正是深度学习神经网络这种强大的特征提取和归类能力，使得其可以通过学习已知的化学反应产量，从而归类出这些化学反应和其产量之间的某种映射关系，从而进行未知化学反应产量的预测。

9、3.在深度学习中的化学反应特征提取

10、现阶段的自然语言处理模型，都不可避免的需要进行分词操作。这是因为在自然语言处理任务中，文本通常以句子或段落的形式存在，而模型无法直接处理这些连续的文本。因此，需要将文本转换为一系列离散的“记号”(token)。而对于化学反应理论产量预测来说，这一步可以是认为是对化学反应特征的提取。

11、这个过程通常包括以下几个步骤分词(tokenization)：

12、(1)将输入文本切分成单词、子词(subwords)或字符等离散单元。分词的目的是将连续的文本转换为离散的token，使得自然语言处理模型可以对其进行处理。常见的分词方法包括基于空格的分词、基于规则的分词以及基于机器学习的分词算法。

13、(2)构建字典(vocabulary)：根据分词结果构建一个字典，将每个token映射到一个唯一的整数索引。这个字典用于将文本中的token转换为模型可以理解的数字表示形式。

14、(3)数字化(numericalization)：使用字典将分词后的文本转换为对应的数字表示。每个token被替换为它在字典中的整数索引，从而生成一个数字序列。

15、传统的基于自然语言处理模型的化学反应理论产量预测在分词上，仅仅是采用最简单将每个化学字母分隔开，如图1所示，这无疑是极大的抹去了化学反应本身的特征。因此本专利技术在化学反应的特征提取上也进行了创新。

技术实现思路

1、本专利技术所解决的技术问题是，针对现有的基于深度学习的化学反应理论产量预测方法对化学反应的注意力过于局限、并且传统的化学反应特征的提取方法造成大量化学反应特征的丢失的问题，提出一种将全局注意力和局部注意力结合的，并且从更深层次提取化学反应特征的化学反应理论产量预测方法。

2、本专利技术所采用的技术方案是：一种基于分层信息提取机制的化学反应理论产量预测方法，包括如下步骤：

3、步骤1：提出一种新的化学反应特征提取方法

4、步骤2：提出一种新的化学反应分层信息提取机制

5、步骤3：提出一种基于分层信息提取机制的化学反应理论产量预测网络架构

6、三个步骤，分别说明如下：

7、步骤1：一种新的化学反应特征提取方法

8、区别于传统的自然语言处理模型中的化学反应的处理方式，在本专利技术中，为了尽可能的挖掘反应隐藏的特征，提出了一种新的反应特征提取方法。

9、首先，通过调研大量的化学反应过程，可以明确大多数化学反应如果总结到最后，都可以认为是反应物分子之间的某一个子结构之间发生反应，从而生成新的结构，从而生成新的产物分子。因此，对于化学反应来说，反应物和产物分子中的子结构无疑会对反应的发生提供重要信息，因此本模型提出，在模型的输入阶段，将过去传统给transformer网络架构中的token过程进行改进，通过反应的smiles信息，提取反应物和产物中原子之间距离为0，1，2的子结构，并称之为“基团”，将这些基团看作是化学反应方程式的一种分词。

10、这种新的分词方式，克服了传统的transformer网络中的token过程无法有效提取化学反应中有效特征的问题。通过提取原子之间距离为0，1，2这三种情况下的基团，基本可以做到即覆盖了反应物和产物中的原子，又尽量保留了反应物和产物中不同原子之间的结构关系，最大可能的保留反应信息。

11、为了进一步提取不同基团之间的信息，本专利技术又改进了传统的word2vec词向量模式，提出了一种基团嵌入方法。

12、进一步的步骤1的具体步骤如下所示：

13、步骤101：根据输入的反应方程的smiles格式字符串，依次提取反应中的反应物和化合物，然后将其转换为化学分子对象，然后计算反应中的指定距离的基团，并保存为变量datas。如分子op(＝o)(o)op(＝o)(o)o，提取原子距离为1的基团，可以得到″op″、″o＝p(o)(o)本文档来自技高网...

【技术保护点】

1.一种基于分层信息提取机制的化学反应理论产量预测方法，其特征是包含以下三个步骤：

2.根据权利要求1所述的一种基于分层信息提取机制的化学反应理论产量预测方法，步骤1)的特征为：

3.根据权利要求1所述的一种基于分层信息提取机制的化学反应理论产量预测方法，步骤2)的特征为：

4.根据权利要求1所述的一种基于分层信息提取机制的化学反应理论产量预测方法，步骤3)特征为：

【技术特征摘要】

1.一种基于分层信息提取机制的化学反应理论产量预测方法，其特征是包含以下三个步骤：

2.根据权利要求1所述的一种基于分层信息提取机制的化学反应理论产量预测方法，步骤1)的特征为：

【专利技术属性】
技术研发人员：赵鑫，李浩僮，张涛，曹亚慧，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人