确定目标化合物的反应物的方法、设备、装置、介质制造方法及图纸

技术编号:24358138 阅读:42 留言:0更新日期:2020-06-03 03:00
本公开提供了一种确定目标化合物的反应物的方法、设备、装置、介质,所述方法包括:获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量;基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。

Method, equipment, device and medium for determining reactant of target compound

【技术实现步骤摘要】
确定目标化合物的反应物的方法、设备、装置、介质
本公开涉及人工智能化学领域,具体的涉及一种确定目标化合物的反应物的方法、设备、装置、介质。
技术介绍
人工智能(ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。近年来,属于人工智能领域的深度学习方法被应用于化学领域,例如,基于深度学习方法来预测化合物的反应物。典型的方法是将基于化学反应规则的先验知识与执行候选排序的神经网络相结合,通过将先验知识库中所有规则应用于给定化合物来得到反应物的可能性排序,从而实现给定化合物的反应物的智能预测。然而,上述基于化学反应规则预测化合物的反应物的过程在根本上依赖于基于化学反应规则的先验知识,这些化学反应规则仅适用于具有非常特定的反应物和产物的有限的反应集,因此不能对知识库之外的反应物做出准确的预测。此外,由于化学反应规则只关注反应中心的局部分子环境,使得其必然不足以代表基础化学。进一步地,上述化学反应规则并未考虑到立体化学的知识,忽略了化合物的拓扑结构特征对于反应物预测的影响。由于基于化学反应规则预测化合物的反应物过程中的以上缺陷,影响了反应物预测的准确性,也限制了基于深度学习方法来进行反应物预测的实际应用。
技术实现思路
本公开提供一种确定目标化合物的反应物的方法、设备、装置、介质,用于准确的确定目标化合物的反应物。根据本公开的一方面,提供了一种确定目标化合物的反应物的方法,包括:获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量;基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。根据本公开的一些实施例,所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本。根据本公开的一些实施例,所述生成序列向量包括:对于所述目标化合物的文本表示中的原子文本,将结点的特征向量作为所述原子文本的表征向量;对于所述目标化合物的文本表示中的非原子文本,生成随机向量作为所述非原子文本的表征向量;以及,按照所述目标化合物的文本表示,对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序,生成所述序列向量。根据本公开的一些实施例,所述确定目标化合物的反应物的方法,还包括获取所述目标化合物的文本表示:基于简化分子线性输入规范或国际化合物标识,获取所述目标化合物的文本表示。根据本公开的一些实施例,所述目标化合物包括n个反应物,对于第i个反应物,生成所述第i个反应物的表征向量包括:在第i时间步,所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布,基于当前时间步的向量概率分布生成所述第i个反应物的表征向量,其中,所述翻译神经网络包括编码神经网络和解码神经网络。根据本公开的一些实施例,所述确定目标化合物的反应物的方法,还包括:利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络,其中,所述目标化合物作为训练化合物,所述训练化合物包括n个标签反应物,所述训练单元配置成通过减小所述翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值,来训练所述拓扑结构特征提取神经网络和翻译神经网络,所述交叉熵损失函数表示为:其中,ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量,vi表示所述训练化合物的第i个标签反应物的向量。根据本公开的另一方面,还提供了一种确定目标化合物的反应物的设备,包括:获取单元,配置成获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;拓扑结构特征提取单元,配置成利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;排序单元,配置成按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量;翻译单元,配置成基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。根据本公开的一些实施例,所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本,所述排序单元配置成:对于所述目标化合物的文本表示中的原子文本,将结点的特征向量作为所述原子文本的表征向量;对于所述目标化合物的文本表示中的非原子文本,生成随机向量作为所述非原子文本的表征向量;和按照所述目标化合物的文本表示,对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序,生成所述序列向量。根据本公开的一些实施例,所述获取单元还配置成:基于简化分子线性输入规范或国际化合物标识,获取所述目标化合物的文本表示。根据本公开的一些实施例,所述目标化合物包括n个反应物,对于第i个反应物,所述翻译单元配置成:在第i时间步,利用所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布,基于当前时间步的向量概率分布生成所述第i个反应物的表征向量,其中,所述翻译神经网络包括编码神经网络和解码神经网络。根据本公开的一些实施例,所述确定目标化合物的反应物的设备,还包括训练单元,配置成利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络,其中,所述目标化合物作为训练化合物,所述训练化合物包括n个标签反应物,所述训练单元配置成通过减小所述翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值,来训练所述拓扑结构特征提取神经网络和翻译神经网络,所述交叉熵损失函数表示为:其中,ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量,vi表示所述训练化合物的第i个标签反应物的向量。根据本公开的又一方面,还提供了一种确定目标化合物的反应物的装置,包括:处理器;和存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述处理器运行时,执行如上所述的确定目标化合物的反应物的方法。根据本公开的又一方面,还提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如上所述的确定目标化合物的反应物的方法。根据本公开提供的确定目标化合物的反应物的方法,基于目标化合物的拓扑结构的表征向量和文本表示来生成反应物的表征向量,从而提高反应物预测的准确性。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了根据本公本文档来自技高网...

【技术保护点】
1.一种确定目标化合物的反应物的方法,包括:/n获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;/n利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;/n按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量;/n基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。/n

【技术特征摘要】
1.一种确定目标化合物的反应物的方法,包括:
获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的表征向量和边的表征向量;
利用拓扑结构特征提取神经网络基于所述目标化合物的拓扑结构的表征向量生成结点的特征向量;
按照所述目标化合物的文本表示,基于所述结点的特征向量生成序列向量;
基于所述序列向量,利用翻译神经网络生成所述反应物的表征向量。


2.根据权利要求1所述的方法,其中,所述目标化合物的文本表示包括原子文本和除所述原子文本之外的非原子文本。


3.根据权利要求2所述的方法,其中,所述生成序列向量包括:
对于所述目标化合物的文本表示中的原子文本,将结点的特征向量作为所述原子文本的表征向量;
对于所述目标化合物的文本表示中的非原子文本,生成随机向量作为所述非原子文本的表征向量;和
按照所述目标化合物的文本表示,对所述原子文本的表征向量以及所述非原子文本的表征向量进行排序,生成所述序列向量。


4.根据权利要求1所述的方法,还包括:获取所述目标化合物的文本表示:
基于简化分子线性输入规范或国际化合物标识,获取所述目标化合物的文本表示。


5.根据权利要求1所述的方法,其中,所述目标化合物包括n个反应物,对于第i个反应物,生成所述第i个反应物的表征向量包括:在第i时间步,所述翻译神经网络基于输入的所述序列向量生成当前时间步的向量概率分布,
基于当前时间步的向量概率分布生成所述第i个反应物的表征向量,
其中,所述翻译神经网络包括编码神经网络和解码神经网络。


6.根据权利要求5所述的方法,还包括:利用交叉熵损失函数训练所述拓扑结构特征提取神经网络和翻译神经网络,其中,
所述目标化合物作为训练化合物,所述训练化合物包括n个标签反应物,通过减小所述翻译神经网络在第i时间步生成的反应物的表征向量与所述训练化合物的第i个标签反应物的向量之间的交叉熵值,来训练所述拓扑结构特征提取神经网络和翻译神经网络,
所述交叉熵损失函数表示为:
其中,ei表示所述翻译神经网络在第i时间步生成的反应物的表征向量,vi表示所述训练化合物的第i个标签反应物的向量。


7.一种确定目标化合物的反应物的设备,包括:
获取单元,配置成获取所述目标化合物的拓扑结构的表征向量,其中,所述拓扑结构包括结点和边,所述边表示相连的结点之间的关联关系,所述拓扑结构的表征向量包括结点的...

【专利技术属性】
技术研发人员:毛科龙赵沛霖
申请(专利权)人:腾讯科技深圳有限公司深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1