确定目标化合物的反应物的方法、设备、装置、介质制造方法及图纸

技术编号：24358138 阅读：42 留言：0更新日期：2020-06-03 03:00

本公开提供了一种确定目标化合物的反应物的方法、设备、装置、介质，所述方法包括：获取所述目标化合物的拓扑结构的表征向量，其中，所述拓扑结构包括结点和边，所述边表示相连的结点之间的关联关系，所述拓扑结构的表征向量包括结点的表征向量和边的表征向量；利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量；按照所述目标化合物的文本表示，基于所述结点的特征向量生成序列向量；基于所述序列向量，利用翻译神经网络生成所述反应物的表征向量。

Method, equipment, device and medium for determining reactant of target compound

全部详细技术资料下载

【技术实现步骤摘要】
确定目标化合物的反应物的方法、设备、装置、介质
本公开涉及人工智能化学领域，具体的涉及一种确定目标化合物的反应物的方法、设备、装置、介质。
技术介绍
人工智能(ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。近年来，属于人工智能领域的深度学习方法被应用于化学领域，例如，基于深度学习方法来预测化合物的反应物。典型的方法是将基于化学反应规则的先验知识与执行候选排序的神经网络相结合，通过将先验知识库中所有规则应用于给定化合物来得到反应物的可能性排序，从而实现给定化合物的反应物的智能预测。然而，上述基于化学反应规则预测化合物的反应物的过程在根本上依赖于基于化学反应规则的先验知识，这些化学反应规则仅适用于具有非常特定的反应物和产物的有限的反应集，因此不能对知识库之外的反应物做出准确的预测。此外，由于化学反应规则只关注反应中心的局部分子环境，使得其必然不足以代表基础化学。进一步地，上述化学反应规则并未考虑到立体化学的知识，忽略了化合物的拓扑结构特征对于反应物预测的影响。由于基于化学反应规则预测化合物的反应物过程中的以上缺陷，影响了反应物预测的准确性，也限制了基于深度学习方法来进行反应物预测的实际应用。
技术实现思路
本公开提供一种确定目标化合物的反应物的方法、设备、装置、介质，用于准确的确定目标化合物的反应物。根据本公开的一方面，提供了一种确定目标化合物的反应物...

【技术保护点】
1.一种确定目标化合物的反应物的方法，包括：/n获取所述目标化合物的拓扑结构的表征向量，其中，所述拓扑结构包括结点和边，所述边表示相连的结点之间的关联关系，所述拓扑结构的表征向量包括结点的表征向量和边的表征向量；/n利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量；/n按照所述目标化合物的文本表示，基于所述结点的特征向量生成序列向量；/n基于所述序列向量，利用翻译神经网络生成所述反应物的表征向量。/n

【技术特征摘要】
1.一种确定目标化合物的反应物的方法，包括：
获取所述目标化合物的拓扑结构的表征向量，其中，所述拓扑结构包括结点和边，所述边表示相连的结点之间的关联关系，所述拓扑结构的表征向量包括结点的表征向量和边的表征向量；
利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量；
按照所述目标化合物的文本表示，基于所述结点的特征向量生成序列向量；
基于所述序列向量，利用翻译神经网络生成所述反应物的表征向量。

2.根据权利要求1所述的方法，其中，所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本。

3.根据权利要求2所述的方法，其中，所述生成序列向量包括：
对于所述目标化合物的文本表示中的原子文本，将结点的特征向量作为所述原子文本的表征向量；
对于所述目标化合物的文本表示中的非原子文本，生成随机向量作为所述非原子文本的表征向量；和
按照所述目标化合物的文本表示，对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序，生成所述序列向量。

4.根据权利要求1所述的方法，还包括：获取所述目标化合物的文本表示：
基于简化分子线性输入规范或国际化合物标识，获取所述目标化合物的文本表示。

5.根据权利要求1所述的方法，其中，所述目标化合物包括n个反应物，对于第i个反应物，生成所述第i个反应物的表征向量包括：在第i时间步，所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布，
基于当前时间步的向量概率分布生成所述第i个反应物的表征向量，
其中，所述翻译神经网络包括编码神经网络和解码神经网络。

6.根据权利要求5所述的方法，还包括：利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络，其中，
所述目标化合物作为训练化合物，所述训练化合物包括n个标签反应物，通过减小所述翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值，来训练所述拓扑结构特征提取神经网络和翻译神经网络，
所述交叉熵损失函数表示为：
其中，ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量，vi表示所述训练化合物的第i个标签反应物的向量。

7.一种确定目标化合物的反应物的设备，包括：
获取单元，配置成获取所述目标化合物的拓扑结构的表征向量，其中，所述拓扑结构包括结点和边，所述边表示相连的结点之间的关联关系，所述拓扑结构的表征向量包括结点的...

【专利技术属性】
技术研发人员：毛科龙，赵沛霖，
申请(专利权)人：腾讯科技深圳有限公司，深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人