用于图到序列模型方法的对抗性自动编码器架构技术

技术编号：35020542 阅读：28 留言：0更新日期：2022-09-24 22:49

图到序列(G2S)架构被配置为使用对象的图数据来生成新对象的序列数据。该过程可以与可以表示为图数据和序列数据的对象类型一起使用。例如，这样的数据是分子数据，其中每个分子可以表示为分子图和SMILES。示例还包括图像到文本或/和图像到语音转换的深度学习中的热门任务。图像可以自然地表示为图，而文本和语音可以原生表示为序列。G2S架构可以包括图编码器和样本生成器，其在潜在空间中产生潜在数据，可以利用对象的属性来对这些潜在数据设置条件。潜在数据被输入到鉴别器中以获得真实或假的对象，并被输入到解码器中以生成新对象的序列数据。序列数据。序列数据。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于图到序列模型方法的对抗性自动编码器架构
相关申请的交叉引用
[0001]本专利申请要求于2020年2月19日提交的申请号为62/978,721的美国临时申请的优先权，其临时内容通过具体引用整体并入本文。

技术介绍

[0002]本公开涉及一种用于将化学品从一种格式转换为另一种格式(例如从图模型转换为序列模型)的方法的对抗性自动编码器架构。
[0003]相关技术描述
[0004]深度神经网络(DNN)是最近为复杂数据处理和人工智能(AI)而创建的计算机系统架构。DNN包括机器学习模型，该模型采用多个非线性计算单元的隐藏层来预测一组接收到的输入的输出。DNN可以出于各种目的以各种配置提供，并继续开发以提高性能和预测能力。
[0005]深度学习在其整个开发过程中已经被用于各种目的，例如从图片或其他功能生成文本。最近，DNN已被用于生物标志物的开发、药物发现和药物再利用。在某种程度上，正在使用计算机技术来代替或增强标准药物的发现，以抵消识别潜在药物并在潜在药物作为商业药物销售之前使其通过监管程序所花费的大量时间和成本。虽然标准药物发现流水线包括许多阶段，但找到一组可能改变特定蛋白质或信号通路活性的初始分子仍然是一个问题。
[0006]可以通过去除不显示显著前景的化合物来提高新药候选物的命中率。这些化合物可以在早期阶段使用机器学习模型被确定为不适合进行进一步研究，该机器学习模型可以用于估计化合物的性质并指导药物优化过程。机器学习可用于使用变分自动编码器、图卷积和图消息传递网络来学习分子的有用潜在...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练模型以生成对象的方法，其特征在于，所述方法包括自动编码器步骤，所述自动编码器步骤包括：提供变分、对抗性或变分和对抗性组合的自动编码器架构，该自动编码器架构被配置为图到序列(G2S)模型；将多个真实对象的图数据输入到所述G2S模型的编码器中；利用所述G2S模型的解码器从潜在空间数据生成序列数据；从所述G2S模型的鉴别器生成鉴别器输出数据；对所述编码器和所述解码器执行优化；以及报告训练的G2S模型。2.根据权利要求1所述的方法，其特征在于，所述方法包括自动编码器步骤，所述自动编码器步骤包括：获得多个真实对象的图数据；将所述图数据输入到编码器中；利用所述编码器从所述图数据生成在潜在空间中具有潜在向量的潜在数据；获取所述真实对象的属性数据；将来自所述图数据的潜在向量与在潜在空间中的属性数据连接；将潜在空间数据输入到解码器中；利用所述解码器从所述潜在空间数据生成序列数据，其中所述序列数据表示真实对象并且包括符号logits；计算所述序列数据的符号logits与所获得的图数据的序列数据之间的对数似然性；将潜在空间数据输入到鉴别器中；从所述鉴别器生成鉴别器输出数据，其中所述鉴别器输出数据包括鉴别器logits；计算所述鉴别器logits和标签“1”的对数似然性，其中标签“1”是所述鉴别器的真实输出数据；对所述编码器和解码器执行梯度下降步骤；以及报告训练的G2S模型。3.根据权利要求1所述的方法，其特征在于，还包括生成器步骤，所述生成器步骤包括：将正态分布的样本数据输入到所述G2S模型的生成器中；利用所述鉴别器生成鉴别器样本数据；对所述生成器执行优化；以及报告生成器训练的G2S模型。4.根据权利要求2所述的方法，其特征在于，还包括生成器步骤，所述生成器步骤包括：获得正态分布的样本；将样本数据输入到生成器中；利用所述生成器生成样本潜在向量，其中所述样本潜在向量在潜在空间中；将所述属性数据与所述样本潜在向量连接；将潜在空间数据输入到所述鉴别器中以获得具有样本logits的鉴别器样本数据；计算鉴别器输出logits和标签“1”的对数似然性，其中标签“1”是所述鉴别器的真实输出数据；
计算所述生成器的雅可比钳位项；对所述生成器执行梯度下降步骤；以及报告生成器训练的G2S模型。5.根据权利要求3所述的方法，其特征在于，还包括鉴别器步骤，所述鉴别器步骤包括：计算所述鉴别器的有效性；使用计算出的有效性对所述鉴别器执行优化；以及报告鉴别器训练的G2S模型。6.根据权利要求4所述的方法，其特征在于，还包括鉴别器步骤，所述鉴别器步骤包括：计算鉴别器输出logits和标签“0”的对数似然性，其中标签“0”是所述鉴别器的假输出数据；使用来自鉴别器logits和标签“1”的对数似然性，以及来自鉴别器logits和标签“0”的对数似然性的结果，对所述鉴别器执行梯度下降步骤；以及报告鉴别器训练的G2S模型。7.根据权利要求5所述的方法，其特征在于，还包括：降低所述自动编码器步骤的学习率；以及执行所述自动编码器步骤、生成器步骤和鉴别器步骤的至少一个迭代。8.根据权利要求1所述的方法，其特征在于，还包括：获得具有序列数据的真实对象数据和所述序列数据中的序列的属性数据；以及将所述序列数据转换为图数据。9.根据权利要求5所述的方法，其特征在于，还包括执行优化协议以优化所述对象的生成，每个对象具有预定属性。10.根据权利要求9所述的方法，其特征在于，所述优化协议基于所述预定属性对所述对象的生成进行条件设置，其中，所述条件是直接传递到所述G2S模型的所述潜在空间中的所述预定属性的真实值向量。11.根据权利要求6所述的方法，其特征在于，还包括优化协议，所述优化协议包括增强学习协议，所述增强学习协议包括：a)将正态分布的样本数据输入到所述生成器中；b)利用所述生成器获得样本潜在向量；c)使用所述解码器获得生成对象；d)计算所述生成对象的属性，所计算的属性具有期望属性；e)当生成对象的子集的计算属性充分接近所述期望属性时，所述生成器和解码器的参数发生改变以提供所述潜在空间的改进的潜在流形，所述改进的潜在流形具有期望对象，所述期望对象具有期望属性的；f)重复步骤a)至e)直到收敛；以及g)提供至少一个具有所述期望属性的对象。12.根据权利要求11所述的方法，其特征在于，所述期望属性选自溶解度、亲脂性、药物相似性的定量估计、与目标分子的Tanimoto相似性或其组合。13.根据权利要求6所述的方法，其特征...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：英矽智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人