当前位置: 首页 > 专利查询>梁燕专利>正文

目标分子的获得方法技术

技术编号:38368290 阅读:10 留言:0更新日期:2023-08-05 17:33
本公开提供一种目标分子的获得方法,其包括:取出SMILES中的不重复字符与填充字符一起作为字符集,将SMILES中的每一个字符以及该字符的前后文分别作为标签和训练数据,输入词嵌入模型得到每种字符的词向量,以获得训练数据集;通过训练数据集对待训练的神经网络模型进行训练,得到VecVAE模型;将诱导分子的词向量输入VecVAE模型,获得重构后词向量;采用相似性度量的方法获得与重构后的向量最相似的词向量,将最相似的词向量对应的字符作为解码字符;以及将该解码字符输入词嵌入模型获得目标分子。分子。分子。

【技术实现步骤摘要】
目标分子的获得方法


[0001]本公开涉及一种目标分子的获得方法。

技术介绍

[0002]新分子设计对新技术的发展有着至关重要的作用,它代表了一个国家的工业和科技水平。在药物发现与清洁能源等领域,传统的分子设计方法是一个类似于“炒菜”的试错过程,它耗时耗能且效率相对低下。
[0003]近年来,以深度生成模型为基础的分子设计工作得到了快速发展。
[0004]2016年,Rafael Gomez

Bombarelli等人提出了一种逆向分子设计方法Character VAE(CVAE),CVAE将VAE(Variational Auto

Encoder)与多层感知机(Multilayer Perceptron,MLP)联合训练,构造一个依据属性值分层的隐藏空间,并在隐藏空间中进行优化,找到符合预期属性值的分子。但CVAE面临解码有效性较低的问题。因此,2017年Matt J.Kusner等人提出了将SMILES语法融入VAE的GVAE(Grammar Variational Auto

Encoder)方法,GVAE将SMILES语法知识加入数据预处理过程中,提取出了更合理的数据特征。2018年Hanjun Dai[48]等人提出在VAE中加入语义验证器的SD

VAE(Syntax

Directed Variational Auto

Encoder)方法,SD

VAE通过语法制导翻译(Syntax

Directed Translation,SDT)实现对VAE解码器的动态约束,将语义检查加入SMILES的生成过程中,指导解码器生成符合语义的SMILES。
[0005]由于分子的SMILES表示与自然语言处理领域的文本数据十分相似,因此自然语言处理领域中的词嵌入技术可以很自然的应用于提取化学文本数据特征。如利用Word2Vec模型学习SMILES字符间关系,提取字符前后文语义的方法,该方法在化学预测方面已经发展出大量应用,如预测蛋白质序列的mol2vec方法,以及反向虚拟筛选治疗靶点的IVS2vec方法。Word2Vec模型将SMILES视为表示分子的“句子”,每个字符当作一种“单词”,利用每个字符的前后文训练生成每个字符的词向量表示,词向量表示包含了字符本身以及字符前后文的语义信息。
[0006]然而,在基于SMILES的分子设计工作中,解码出有效分子是十分困难的,因为SMILES的细微改动就可能导致生成无效分子。同时,单纯解码出有效分子意义不大,生成模型必须在保证解码分子有效的前提下,尽可能的生成与原分子不同的新分子。更重要的是,生成模型的最终目标是产生符合特定属性值的新分子,而不是仅仅生成有效的新分子。因此,CVAE定义了根据属性值分层的隐藏空间,这保证了CVAE能够在隐藏空间中进行优化,找到符合特定属性值的新分子。但CVAE在解码过程中生成了大量无效分子,导致分子设计过程效率十分低下。

技术实现思路

[0007]为了解决上述技术问题之一,本公开提供了一种目标分子的获得方法。
[0008]根据本公开的一个方面,提供了一种目标分子的获得方法,其包括:
[0009]取出SMILES中的不重复字符与填充字符一起作为字符集,将SMILES中的每一个字符以及该字符的前后文分别作为标签和训练数据,输入词嵌入模型得到每种字符的词向量,以获得训练数据集;
[0010]通过训练数据集对待训练的神经网络模型进行训练,得到VecVAE模型;
[0011]将诱导分子的词向量输入VecVAE模型,获得重构后词向量;
[0012]采用相似性度量的方法获得与重构后的向量最相似的词向量,将最相似的词向量对应的字符作为解码字符;以及
[0013]将该解码字符输入词嵌入模型获得目标分子。
[0014]根据本公开的至少一个实施方式的目标分子的获得方法,所述词嵌入模型包括Word2Vec模型或者GloVe模型。
[0015]根据本公开的至少一个实施方式的目标分子的获得方法,所述VecVAE模型包括:
[0016]编码器:所述编码器将输入数据通过多层神经网络降维成向量,然后通过两个不同的全连接层分别拟合出输入数据的均值和方差,以定义隐藏空间;
[0017]重采样层:重采样层通过从隐藏空间中随机采样获得随机隐藏向量;
[0018]解码器:解码器将重采样得到的随机隐藏向量通过多层神经网络重构为重构后的词向量。
[0019]根据本公开的至少一个实施方式的目标分子的获得方法,在VecVAE模型中,最后一层激活函数为linear,重构loss为MSE。
[0020]根据本公开的至少一个实施方式的目标分子的获得方法,采用相似性度量的方法获得与重构后的向量最相似的词向量包括:以向量空间距离作为相似性度量方法,获得与重构后的向量最相似的词向量。
[0021]根据本公开的至少一个实施方式的目标分子的获得方法,当采用Word2Vec模型时,所述向量空间距离为欧氏距离;当采用GloVe模型时,所述向量空间距离为曼哈顿距离。
附图说明
[0022]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0023]图1是根据本公开的一个实施方式的目标分子的获得方法的流程图。
具体实施方式
[0024]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0025]需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0026]除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分
离、互换和/或重新布置。
[0027]在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
...

【技术保护点】

【技术特征摘要】
1.一种目标分子的获得方法,其特征在于,包括:取出SMILES中的不重复字符与填充字符一起作为字符集,将SMILES中的每一个字符以及该字符的前后文分别作为标签和训练数据,输入词嵌入模型得到每种字符的词向量,以获得训练数据集;通过训练数据集对待训练的神经网络模型进行训练,得到VecVAE模型;将诱导分子的词向量输入VecVAE模型,获得重构后词向量;采用相似性度量的方法获得与重构后的向量最相似的词向量,将最相似的词向量对应的字符作为解码字符;以及将该解码字符输入词嵌入模型获得目标分子。2.如权利要求1所述的目标分子的获得方法,其特征在于,所述词嵌入模型包括Word2Vec模型或者GloVe模型。3.如权利要求1所述的目标分子的获得方法,其特征在于,所述VecVAE模型包括:编码器:所述编码器将输入数据通过多层神...

【专利技术属性】
技术研发人员:梁燕谭胖
申请(专利权)人:梁燕
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1