用于图到序列模型方法的对抗性自动编码器架构技术

技术编号:35020542 阅读:28 留言:0更新日期:2022-09-24 22:49
图到序列(G2S)架构被配置为使用对象的图数据来生成新对象的序列数据。该过程可以与可以表示为图数据和序列数据的对象类型一起使用。例如,这样的数据是分子数据,其中每个分子可以表示为分子图和SMILES。示例还包括图像到文本或/和图像到语音转换的深度学习中的热门任务。图像可以自然地表示为图,而文本和语音可以原生表示为序列。G2S架构可以包括图编码器和样本生成器,其在潜在空间中产生潜在数据,可以利用对象的属性来对这些潜在数据设置条件。潜在数据被输入到鉴别器中以获得真实或假的对象,并被输入到解码器中以生成新对象的序列数据。序列数据。序列数据。

【技术实现步骤摘要】
【国外来华专利技术】用于图到序列模型方法的对抗性自动编码器架构
相关申请的交叉引用
[0001]本专利申请要求于2020年2月19日提交的申请号为62/978,721的美国临时申请的优先权,其临时内容通过具体引用整体并入本文。

技术介绍


[0002]本公开涉及一种用于将化学品从一种格式转换为另一种格式(例如从图模型转换为序列模型)的方法的对抗性自动编码器架构。
[0003]相关技术描述
[0004]深度神经网络(DNN)是最近为复杂数据处理和人工智能(AI)而创建的计算机系统架构。DNN包括机器学习模型,该模型采用多个非线性计算单元的隐藏层来预测一组接收到的输入的输出。DNN可以出于各种目的以各种配置提供,并继续开发以提高性能和预测能力。
[0005]深度学习在其整个开发过程中已经被用于各种目的,例如从图片或其他功能生成文本。最近,DNN已被用于生物标志物的开发、药物发现和药物再利用。在某种程度上,正在使用计算机技术来代替或增强标准药物的发现,以抵消识别潜在药物并在潜在药物作为商业药物销售之前使其通过监管程序所花费的大量时间和成本。虽然标准药物发现流水线包括许多阶段,但找到一组可能改变特定蛋白质或信号通路活性的初始分子仍然是一个问题。
[0006]可以通过去除不显示显著前景的化合物来提高新药候选物的命中率。这些化合物可以在早期阶段使用机器学习模型被确定为不适合进行进一步研究,该机器学习模型可以用于估计化合物的性质并指导药物优化过程。机器学习可用于使用变分自动编码器、图卷积和图消息传递网络来学习分子的有用潜在表示。
[0007]人工神经网络(ANN)是一类机器学习(ML)模型,它基于生物神经元的概念,广泛应用于分类、回归、聚类和对象生成等各种人工智能任务。通常,单个人工神经元接受所谓的输入信号(例如,通常表示为N维真值向量),并输出输入乘以应用了一些线性或非线性函数(例如sigmoid或双曲正切)的神经元的可学习权重之和。通常,ANN包括大量的逐层组织的人工神经元。每个ANN都有输入层、隐藏层和输出层。DNN是具有一个或多个隐藏层的ANN。
[0008]由于ML中几乎所有任务都是根据优化问题制定的,因此每个DNN都有一定的训练和验证程序,这些程序基于反向传播算法。例如,在训练阶段进行二进制分类的情况下,针对训练样本(例如,可获得真实标签的样本)计算一些损失函数(例如,二进制交叉熵),然后将聚合误差反向传播到DNN输入层。这个过程通常重复多次,直到协议在模型上收敛。验证阶段训练的DNN预测看不见的对象的标签(例如,模型在训练期间看不到对象),并且计算一些质量度量来估计训练的DNN模型的功效。
[0009]在一些实例中,以更简单的形式和在低维空间中表示复杂的高维对象是有益的。
因此,存在称为自动编码器(AE)的特定DNN。AE包括两个DNN:编码器和解码器。编码器将输入信号压缩到称为潜在表示的低维空间中。解码器采用输入对象的潜在表示,并返回重建的输入信号。AE的训练目标是最小化输入信号与重建信号之间的误差。
[0010]生成对抗网络(GAN)是一种基于范式对抗学习的DNN,并且能够生成现实对象,例如图像、文本、语音和分子以及其他对象。在这个概念中,表示为DNN的两个参与者之间存在最小最大(minimax)比较,它们是生成器和鉴别器。生成器获取一些样本数据(例如,典型地从原始对象数据的标准正态分布或均匀分布中采样数据)并产生假样本。鉴别器获取样本并决定该样本是从真实分布(例如,来自真实训练集)还是从生成器产生的假样本中提取。生成器和鉴别器相互竞争,并且证明了这样的最小最大比较具有纳什均衡。生成器和鉴别器都通过反向传播进行训练,其中一个的误差就是另一个的收益。GAN可以很容易地扩展为有条件的生成。
[0011]对抗性自动编码器(AAE)是基于GAN的AE模型。它具有三个DNN组件:编码器、解码器和鉴别器。在AAE中,编码器与生成器相同,因此编码器用于两个目的:1)它像编码器一样将对象压缩到潜在空间中;2)它接收样本数据(例如,通常来自原始对象数据的标准正态分布或对象的其他训练数据)并输出假样本(例如,对象的)在潜在空间中,就像生成器一样。像往常一样,解码器将潜在空间的点映射到对象中。AAE和GAN架构之间的明显区别在于,在AAE中,鉴别器不是对对象进行分类,而是对其潜在表示进行分类(例如,通过使用编码器获得)。
[0012]编码器和生成器不相同的架构称为对抗性正则化自动编码器(ARAE)。在ARAE的情况下,对AAE中的潜在空间没有限制,部分原因是显式生成器可以在潜在空间中诱导任何分布。因此,ARAE比AAE更灵活。
[0013]被称为序列对序列(Seq2Seq)的DNN是AE架构的特例,其中编码器和解码器都是循环神经网络(RNN)。在Seq2Seq的情况下,编码器的输入和解码器的输出是符号序列。
[0014]被称为图到序列(G2S)的DNN是有条件的AAE/ARAE模型,其接收图表示对象,然后输出序列或字符串表示对象。G2S的某些方面是通过使用图表示来保持对象的结构和拓扑信息。G2S编码器将图压缩到保留其结构关系的潜在点,然后G2S解码器将潜在点映射到序列或字符串中。因此,G2S模型在许多情况下可能是有用的。但是,G2S建模仍然可以改进。
[0015]因此,在对象是可以表示为序列(例如,SMILES)的复杂图(例如,分子)的情况下,改进G2S模型将是有利的。

技术实现思路

[0016]在一些实施例中,一种用于训练模型以生成对象的计算机实现的方法可以具有自动编码器步骤,包括:提供变分、对抗性或变分和对抗性的组合的自动编码器架构,其被配置为图到序列(G2S)模型;将用于多个真实对象的图数据输入到G2S模型的编码器中;利用G2S模型的解码器从潜在空间数据生成序列数据;从G2S模型的鉴别器生成鉴别器输出数据;对编码器和解码器执行优化;以及报告训练的G2S模型。
[0017]在一些实施例中,用于训练模型以生成对象的计算机实现的方法可以包括自动编码器步骤,例如如下:提供被配置为图到序列(G2S)模型的对抗性自动编码器架构;获得用于多个真实对象的图数据;将图数据输入到编码器中;利用编码器从图数据生成在潜在空
间中具有潜在向量的潜在数据;获得真实对象的属性数据;将来自图数据的潜在向量与在潜在空间中的属性数据连接;将潜在空间数据输入到解码器中;利用所述解码器从所述潜在空间数据生成序列数据,其中所述序列数据表示真实对象并且包括符号logits;计算所述序列数据的logits与所获得的图数据的序列数据之间的对数似然性;将潜在空间数据输入到鉴别器中;从鉴别器生成鉴别器输出数据,其中鉴别器输出数据包括鉴别器logits;计算鉴别器logits和标签“1”的对数似然性,其中标签“1”是鉴别器的真实输出数据;对编码器和解码器执行梯度下降步骤;以及报告训练的G2S模型。报告可以通过物理报告(例如,纸)或电子报告,电子报告可以显示在计算系统的显示屏上,或者报告可以将模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练模型以生成对象的方法,其特征在于,所述方法包括自动编码器步骤,所述自动编码器步骤包括:提供变分、对抗性或变分和对抗性组合的自动编码器架构,该自动编码器架构被配置为图到序列(G2S)模型;将多个真实对象的图数据输入到所述G2S模型的编码器中;利用所述G2S模型的解码器从潜在空间数据生成序列数据;从所述G2S模型的鉴别器生成鉴别器输出数据;对所述编码器和所述解码器执行优化;以及报告训练的G2S模型。2.根据权利要求1所述的方法,其特征在于,所述方法包括自动编码器步骤,所述自动编码器步骤包括:获得多个真实对象的图数据;将所述图数据输入到编码器中;利用所述编码器从所述图数据生成在潜在空间中具有潜在向量的潜在数据;获取所述真实对象的属性数据;将来自所述图数据的潜在向量与在潜在空间中的属性数据连接;将潜在空间数据输入到解码器中;利用所述解码器从所述潜在空间数据生成序列数据,其中所述序列数据表示真实对象并且包括符号logits;计算所述序列数据的符号logits与所获得的图数据的序列数据之间的对数似然性;将潜在空间数据输入到鉴别器中;从所述鉴别器生成鉴别器输出数据,其中所述鉴别器输出数据包括鉴别器logits;计算所述鉴别器logits和标签“1”的对数似然性,其中标签“1”是所述鉴别器的真实输出数据;对所述编码器和解码器执行梯度下降步骤;以及报告训练的G2S模型。3.根据权利要求1所述的方法,其特征在于,还包括生成器步骤,所述生成器步骤包括:将正态分布的样本数据输入到所述G2S模型的生成器中;利用所述鉴别器生成鉴别器样本数据;对所述生成器执行优化;以及报告生成器训练的G2S模型。4.根据权利要求2所述的方法,其特征在于,还包括生成器步骤,所述生成器步骤包括:获得正态分布的样本;将样本数据输入到生成器中;利用所述生成器生成样本潜在向量,其中所述样本潜在向量在潜在空间中;将所述属性数据与所述样本潜在向量连接;将潜在空间数据输入到所述鉴别器中以获得具有样本logits的鉴别器样本数据;计算鉴别器输出logits和标签“1”的对数似然性,其中标签“1”是所述鉴别器的真实输出数据;
计算所述生成器的雅可比钳位项;对所述生成器执行梯度下降步骤;以及报告生成器训练的G2S模型。5.根据权利要求3所述的方法,其特征在于,还包括鉴别器步骤,所述鉴别器步骤包括:计算所述鉴别器的有效性;使用计算出的有效性对所述鉴别器执行优化;以及报告鉴别器训练的G2S模型。6.根据权利要求4所述的方法,其特征在于,还包括鉴别器步骤,所述鉴别器步骤包括:计算鉴别器输出logits和标签“0”的对数似然性,其中标签“0”是所述鉴别器的假输出数据;使用来自鉴别器logits和标签“1”的对数似然性,以及来自鉴别器logits和标签“0”的对数似然性的结果,对所述鉴别器执行梯度下降步骤;以及报告鉴别器训练的G2S模型。7.根据权利要求5所述的方法,其特征在于,还包括:降低所述自动编码器步骤的学习率;以及执行所述自动编码器步骤、生成器步骤和鉴别器步骤的至少一个迭代。8.根据权利要求1所述的方法,其特征在于,还包括:获得具有序列数据的真实对象数据和所述序列数据中的序列的属性数据;以及将所述序列数据转换为图数据。9.根据权利要求5所述的方法,其特征在于,还包括执行优化协议以优化所述对象的生成,每个对象具有预定属性。10.根据权利要求9所述的方法,其特征在于,所述优化协议基于所述预定属性对所述对象的生成进行条件设置,其中,所述条件是直接传递到所述G2S模型的所述潜在空间中的所述预定属性的真实值向量。11.根据权利要求6所述的方法,其特征在于,还包括优化协议,所述优化协议包括增强学习协议,所述增强学习协议包括:a)将正态分布的样本数据输入到所述生成器中;b)利用所述生成器获得样本潜在向量;c)使用所述解码器获得生成对象;d)计算所述生成对象的属性,所计算的属性具有期望属性;e)当生成对象的子集的计算属性充分接近所述期望属性时,所述生成器和解码器的参数发生改变以提供所述潜在空间的改进的潜在流形,所述改进的潜在流形具有期望对象,所述期望对象具有期望属性的;f)重复步骤a)至e)直到收敛;以及g)提供至少一个具有所述期望属性的对象。12.根据权利要求11所述的方法,其特征在于,所述期望属性选自溶解度、亲脂性、药物相似性的定量估计、与目标分子的Tanimoto相似性或其组合。13.根据权利要求6所述的方法,其特征...

【专利技术属性】
技术研发人员:A
申请(专利权)人:英矽智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1