基于半监督变分自编码器的分子性质预测方法及系统技术方案

技术编号：37574636 阅读：17 留言：0更新日期：2023-05-15 07:51

本发明专利技术公开了基于半监督变分自编码器的分子性质预测方法及系统，属于人工智能技术领域，本发明专利技术要解决的技术问题为如何利用少量有标签样本数据训练VAE模型，提高分子性质预测精度，技术方案为：生成无标签分子数据集；搭建基于变分自编码器的分子性质预测模型；搭建两个具有相同网络结构的预测器网络模型，预测器网络模型以编码器网络模型输出的无标签分子样本的连续隐藏分子表征向量z_mean作为输入，通过有标签分子样本分别训练两个具有相同网络结构的预测器网络模型，预测时，以两个具有相同网络结构的预测器网络模型输出结果的均值作为最终预测结果；设计变分自编码器损失函数。数。数。

全部详细技术资料下载

【技术实现步骤摘要】
基于半监督变分自编码器的分子性质预测方法及系统

[0001]本专利技术涉及人工智能
，具体地说是一种基于半监督变分自编码器的分子性质预测方法及系统。

技术介绍

[0002]VAE是一种基于变分推断（Variational Inference, Variational Bayesian methods）的概率模型（Probabilistic Model），它属于生成模型（当然也是无监督模型）。普通的VAE模型用于分子性质预测需要大量的有标签分子进行训练，然而催化剂分子性质数据需要通过实验获取，成本极高，造成有标签样本数据量有限，普通的VAE模型难以对分子性质进行精准的预测。
[0003]故如何利用少量有标签样本数据训练VAE模型，提高分子性质预测精度是目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术的技术任务是提供一种基于半监督变分自编码器的分子性质预测方法及系统，来解决如何利用少量有标签样本数据训练VAE模型，提高分子性质预测精度的问题。
[0005]本专利技术的技术任务是按以下方式实现的，一种基于半监督变分自编码器的分子性质预测方法，该方法具体如下：生成无标签分子数据集；搭建基于变分自编码器的分子性质预测模型；具体如下：将无标签分子数据集中的无标签分子样本以120
×
19的向量形式输入到编码器网络模型中，通过编码器网络模型得到对应无标签分子样本的连续隐藏分子表征向量z_mean与middle；将无标签分子样本的连续隐藏分子表征向量z_mean与m...

【技术保护点】

【技术特征摘要】
1.一种基于半监督变分自编码器的分子性质预测方法，其特征在于，该方法具体如下：生成无标签分子数据集；搭建基于变分自编码器的分子性质预测模型；具体如下：将无标签分子数据集中的无标签分子样本以120
×
19的向量形式输入到编码器网络模型中，通过编码器网络模型得到对应无标签分子样本的连续隐藏分子表征向量z_mean与middle；将无标签分子样本的连续隐藏分子表征向量z_mean与middle经过变分采样层得到一个196维的向量z_samp和一个196
×
2维的向量z_mean_log_var，再将向量z_samp输入到解码器网络模型进行处理；搭建两个具有相同网络结构的预测器网络模型，预测器网络模型以编码器网络模型输出的无标签分子样本的连续隐藏分子表征向量z_mean作为输入，通过有标签分子样本分别训练两个具有相同网络结构的预测器网络模型，预测时，以两个具有相同网络结构的预测器网络模型输出结果的均值作为最终预测结果；设计变分自编码器损失函数。2.根据权利要求1所述的基于半监督变分自编码器的分子性质预测方法，其特征在于，生成无标签分子数据集具体如下：收集得到由SMILES字符串编码方式构成的字段与分子性质字段组成的有标签分子数据集；其中，分子性质包括活性、选择性及固体量；根据有标签分子数据集得到分子碎片库：使用开源化学信息软件RDKit中的BRICSDecompose函数进行分子碎片生成；通过分子碎片库拼接的方式得到由SMILES字符串编码方式构成的字段组成的无标签分子数据集。3.根据权利要求2所述的基于半监督变分自编码器的分子性质预测方法，其特征在于，通过分子碎片库拼接的方式得到由SMILES字符串编码方式构成的字段组成的无标签分子数据集具体如下：使用ReplaceSubstructs函数对分子碎片库中的碎片进行两两拼接得到分子官能团；通过ReplaceSubstructs函数将分子官能团分别和目标近似分子结构在预定处结合为完整的分子，得到无标签分子数据集。4.根据权利要求1所述的基于半监督变分自编码器的分子性质预测方法，其特征在于，所述编码器网络模型包括一个输入层、三个一维卷积层、四个BatchNorm层、一个全连接隐藏层及一个输出层；其中，编码器网络模型的输入层的维度为120
×
19，120为指定的分子SMILES最大字符个数；19为有标签分子数据集中所有分子SMILES字符串中不重复字符的个数；编码器网络模型的输出层有两个头，分别为向量z_mean与middle，z_mean与middle均为维度为196的向量。5.根据权利要求1所述的基于半监督变分自编码器的分子性质预测方法，其特征在于，所述解码器网络模型包括一个输入层、一个全连接隐藏层、一个BatchNorm层、三个GRU层、及一个输出层；其中，解码器网络模型的输入层有196个神经元，用于接收向量z_samp；解码器网络模
型的输出层有19个神经元，激活函数为softmax。6.根据权利要求1所述的基于半监督变分自编码器的分子性质预测方法，其特征在于，所述预测器网络模型包括一个输入层、三个全连接隐藏层、两个BatchNorm层、三个D...

【专利技术属性】
技术研发人员：李中伟，傅燕嵩，却立勇，
申请(专利权)人：烟台国工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人