基于半监督变分自编码器的分子性质预测方法及系统技术方案

技术编号:37574636 阅读:17 留言:0更新日期:2023-05-15 07:51
本发明专利技术公开了基于半监督变分自编码器的分子性质预测方法及系统,属于人工智能技术领域,本发明专利技术要解决的技术问题为如何利用少量有标签样本数据训练VAE模型,提高分子性质预测精度,技术方案为:生成无标签分子数据集;搭建基于变分自编码器的分子性质预测模型;搭建两个具有相同网络结构的预测器网络模型,预测器网络模型以编码器网络模型输出的无标签分子样本的连续隐藏分子表征向量z_mean作为输入,通过有标签分子样本分别训练两个具有相同网络结构的预测器网络模型,预测时,以两个具有相同网络结构的预测器网络模型输出结果的均值作为最终预测结果;设计变分自编码器损失函数。数。数。

【技术实现步骤摘要】
基于半监督变分自编码器的分子性质预测方法及系统


[0001]本专利技术涉及人工智能
,具体地说是一种基于半监督变分自编码器的分子性质预测方法及系统。

技术介绍

[0002]VAE是一种基于变分推断(Variational Inference, Variational Bayesian methods)的概率模型(Probabilistic Model),它属于生成模型(当然也是无监督模型)。普通的VAE模型用于分子性质预测需要大量的有标签分子进行训练,然而催化剂分子性质数据需要通过实验获取,成本极高,造成有标签样本数据量有限,普通的VAE模型难以对分子性质进行精准的预测。
[0003]故如何利用少量有标签样本数据训练VAE模型,提高分子性质预测精度是目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术的技术任务是提供一种基于半监督变分自编码器的分子性质预测方法及系统,来解决如何利用少量有标签样本数据训练VAE模型,提高分子性质预测精度的问题。
[0005]本专利技术的技术任务是按以下方式实现的,一种基于半监督变分自编码器的分子性质预测方法,该方法具体如下:生成无标签分子数据集;搭建基于变分自编码器的分子性质预测模型;具体如下:将无标签分子数据集中的无标签分子样本以120
×
19的向量形式输入到编码器网络模型中,通过编码器网络模型得到对应无标签分子样本的连续隐藏分子表征向量z_mean与middle;将无标签分子样本的连续隐藏分子表征向量z_mean与middle经过变分采样层得到一个196维的向量z_samp和一个196
×
2维的向量z_mean_log_var,再将向量z_samp输入到解码器网络模型进行处理;搭建两个具有相同网络结构的预测器网络模型,预测器网络模型以编码器网络模型输出的无标签分子样本的连续隐藏分子表征向量z_mean作为输入,通过有标签分子样本分别训练两个具有相同网络结构的预测器网络模型,预测时,以两个具有相同网络结构的预测器网络模型输出结果的均值作为最终预测结果;设计变分自编码器损失函数。
[0006]作为优选,生成无标签分子数据集具体如下:收集得到由SMILES字符串编码方式构成的字段与分子性质字段组成的有标签分子数据集;其中,分子性质包括活性、选择性及固体量;根据有标签分子数据集得到分子碎片库:使用开源化学信息软件RDKit中的BRICSDecompose函数进行分子碎片生成;
通过分子碎片库拼接的方式得到由SMILES字符串编码方式构成的字段组成的无标签分子数据集。
[0007]更优地,通过分子碎片库拼接的方式得到由SMILES字符串编码方式构成的字段组成的无标签分子数据集具体如下:使用ReplaceSubstructs函数对分子碎片库中的碎片进行两两拼接得到大量分子官能团;通过ReplaceSubstructs函数将分子官能团分别和目标近似分子结构在预定处结合为完整的分子,得到无标签分子数据集。
[0008]作为优选,所述编码器网络模型包括一个输入层、三个一维卷积层、四个BatchNorm层、一个全连接隐藏层及一个输出层;其中,编码器网络模型的输入层的维度为120
×
19,120为指定的分子SMILES最大字符个数;19为有标签分子数据集中所有分子SMILES字符串中不重复字符的个数;编码器网络模型的输出层有两个头,分别为向量z_mean与middle,z_mean与middle均为维度为196的向量。
[0009]作为优选,所述解码器网络模型包括一个输入层、一个全连接隐藏层、一个BatchNorm层、三个GRU层、及一个输出层;其中,解码器网络模型的输入层有196个神经元,用于接收向量z_samp;解码器网络模型的输出层有19个神经元,激活函数为softmax。
[0010]作为优选,所述预测器网络模型包括一个输入层、三个全连接隐藏层、两个BatchNorm层、三个Dropout层及一个输出层;预测器网络模型的输入层有196个神经元,用于接收编码器网络模型输出的向量z_mean;预测器网络模型的输出层有1个神经元,激活函数为linear。
[0011]作为优选,变分自编码器损失函数包括解码器网络模型的交叉熵损失、变分自编码器的KL散度损失、两个具有相同网络结构的预测器网络模型的MSE损失及两个具有相同网络结构的预测器网络模型的权重正交损失;其中,KL散度损失用于训练变分自编码器的隐藏特征分布;KL散度损失函数具体如下:其中,,;p1表示变分自编码器的隐藏特征分布;p2表示变分自编码器的目标分布;为标准差;为均值;N1、N2均表示正态分布;两个具有相同网络结构的预测器网络模型的MSE损失是两个具有相同网络结构的预测器网络模型输出值之间的MSE损失以及两个具有相同网络结构的预测器网络模型各自的有标签分子样本输出值与对应实际值之间的MSE损失之和;公式如下:MSE

=MSE(y1,y2)+MSE(y
true
,y1)+ MSE(y
true
,y2);其中,y1表示其中一个预测器网络模型的有标签分子样本的输出值;y2表示另一个预测器网络模型的有标签分子样本的输出值;y
true
表示两个具有相同网络结构的预测器网络模型的有标签分子样本的对应实际值;两个具有相同网络结构的预测器网络模型的权重正交损失具体如下:
其中,C为输出层权重的维度,与分别为两个预测器输出层第j维的权重;T表示向量转置。
[0012]一种基于半监督变分自编码器的分子性质预测系统,该系统包括生成器、编码器、解码器、搭建器以及设计器;生成器用于生成无标签分子数据集;编码器用于利用无标签分子数据集中的无标签分子样本以120
×
19的向量形式得到对应无标签分子样本的连续隐藏分子表征向量z_mean与middle;解码器用于利用无标签分子样本的连续隐藏分子表征向量z_mean与middle经过变分采样层得到一个196维的向量z_samp和一个196
×
2维的向量z_mean_log_var,再对向量z_samp进行处理;搭建器用于搭建两个具有相同网络结构的预测器网络模型,预测器网络模型以编码器输出的无标签分子样本的连续隐藏分子表征向量z_mean作为输入,通过有标签分子样本分别训练两个具有相同网络结构的预测器网络模型,预测时,以两个具有相同网络结构的预测器网络模型输出结果的均值作为最终预测结果;设计器用于设计变分自编码器损失函数。
[0013]一种电子设备,包括:存储器和至少一个处理器;其中,所述存储器上存储有计算机程序;所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的基于半监督变分自编码器的分子性质预测方法。
[0014]一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的基于半监督变分自编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督变分自编码器的分子性质预测方法,其特征在于,该方法具体如下:生成无标签分子数据集;搭建基于变分自编码器的分子性质预测模型;具体如下:将无标签分子数据集中的无标签分子样本以120
×
19的向量形式输入到编码器网络模型中,通过编码器网络模型得到对应无标签分子样本的连续隐藏分子表征向量z_mean与middle;将无标签分子样本的连续隐藏分子表征向量z_mean与middle经过变分采样层得到一个196维的向量z_samp和一个196
×
2维的向量z_mean_log_var,再将向量z_samp输入到解码器网络模型进行处理;搭建两个具有相同网络结构的预测器网络模型,预测器网络模型以编码器网络模型输出的无标签分子样本的连续隐藏分子表征向量z_mean作为输入,通过有标签分子样本分别训练两个具有相同网络结构的预测器网络模型,预测时,以两个具有相同网络结构的预测器网络模型输出结果的均值作为最终预测结果;设计变分自编码器损失函数。2.根据权利要求1所述的基于半监督变分自编码器的分子性质预测方法,其特征在于,生成无标签分子数据集具体如下:收集得到由SMILES字符串编码方式构成的字段与分子性质字段组成的有标签分子数据集;其中,分子性质包括活性、选择性及固体量;根据有标签分子数据集得到分子碎片库:使用开源化学信息软件RDKit中的BRICSDecompose函数进行分子碎片生成;通过分子碎片库拼接的方式得到由SMILES字符串编码方式构成的字段组成的无标签分子数据集。3.根据权利要求2所述的基于半监督变分自编码器的分子性质预测方法,其特征在于,通过分子碎片库拼接的方式得到由SMILES字符串编码方式构成的字段组成的无标签分子数据集具体如下:使用ReplaceSubstructs函数对分子碎片库中的碎片进行两两拼接得到分子官能团;通过ReplaceSubstructs函数将分子官能团分别和目标近似分子结构在预定处结合为完整的分子,得到无标签分子数据集。4.根据权利要求1所述的基于半监督变分自编码器的分子性质预测方法,其特征在于,所述编码器网络模型包括一个输入层、三个一维卷积层、四个BatchNorm层、一个全连接隐藏层及一个输出层;其中,编码器网络模型的输入层的维度为120
×
19,120为指定的分子SMILES最大字符个数;19为有标签分子数据集中所有分子SMILES字符串中不重复字符的个数;编码器网络模型的输出层有两个头,分别为向量z_mean与middle,z_mean与middle均为维度为196的向量。5.根据权利要求1所述的基于半监督变分自编码器的分子性质预测方法,其特征在于,所述解码器网络模型包括一个输入层、一个全连接隐藏层、一个BatchNorm层、三个GRU层、及一个输出层;其中,解码器网络模型的输入层有196个神经元,用于接收向量z_samp;解码器网络模
型的输出层有19个神经元,激活函数为softmax。6.根据权利要求1所述的基于半监督变分自编码器的分子性质预测方法,其特征在于,所述预测器网络模型包括一个输入层、三个全连接隐藏层、两个BatchNorm层、三个D...

【专利技术属性】
技术研发人员:李中伟傅燕嵩却立勇
申请(专利权)人:烟台国工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1