一种单一体系的分子生成方法技术

技术编号:39657811 阅读:29 留言:0更新日期:2023-12-09 11:26
本发明专利技术公开了一种单一体系的分子生成方法,属于深度学习及分子生成技术领域,要解决的技术问题为如何准确高效的生成分子

【技术实现步骤摘要】
一种单一体系的分子生成方法


[0001]本专利技术涉及深度学习
,具体地说是一种单一体系的分子生成方法


技术介绍

[0002]在化学研发领域,关于如何去设计

生成新的分子,一直以来都在不断困扰着相关的研发人员

虽然在各自领域中,研发人员都是带着各自的约束条件来设计分子,但是面对庞大化学空间,研发专家也会面临重重困难

只能通过通过文献查询,来获取蛛丝马迹

随着深度学习技术不断发展,
AI+
化学的研发手段也变得越来越重要

借助深度学习技术的分子生成课题也变得越来越成熟

随着各研发工厂的信息化程度越来越高,相应的分子结构数据也得到了大量的积累,这也给分子生成的课题带来极大助益

[0003]如何准确高效的生成分子,是需要解决的技术问题


技术实现思路

[0004]本专利技术的技术任务是针对以上不足,提供一种单一体系的分子生成方法,来解决如何准确高效的生成本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种单一体系的分子生成方法,其特征在于,包括如下步骤:以目标单一体系的分子为目标分子,基于分子结构相似度

从公开的化合物分子数据库中检索与目标分子结构相似的分子作为相似分子,基于目标分子和相似分子组成分子数据集,分子数据集中分子由
SMILES
表达式组成;对于分子数据集中每个分子,对分子进行预处理,从
SMILES
表达式中筛选出分子包含的元素,元素之间通过空格间隔,并以预处理后的分子
SMILES
表达式作为样本构建样本数据集;构建分子生成模型,并基于样本数据集

通过
Next Token Prediction
训练任务对所述分子生成模型进行模型训练,得到训练后分子生成模型,所述分子生成模型为含有双通道注意力机制的
Transformer
模型,训练后分子生成模型用于预测输出分子
SMILES
表达式中每个元素以及元素概率值;对于目标分子,对分子进行预处理,从
SMILES
表达式中筛选出分子包含的元素,元素之间通过空格间隔,并以预处理后的分子
SMILES
表达式作为样本构建微调数据集;基于微调数据集

通过强化学习方法对训练后分子生成模型进行参数调整,得到最终分子生成模型,通过最终分子生成模型预测输出目标单一体系下分子
SMILES
表达式中每个元素以及元素概率值;对于预测输出的目标单一体系下分子
SMILES
表达式,通过人工验证的方式对每个分子进行验证筛选
。2.
根据权利要求1所述的单一体系的分子生成方法,其特征在于,通过正则化方法从
SMILES
表达式中筛选出分子包含的元素,元素之间通过空格间隔
。3.
根据权利要求1所述的单一体系的分子生成方法,其特征在于,所述分子生成模型包括输入层

嵌入层

位置编码层

编码器

解码器
、softmax
层以及全连接层,编码器和解码器的多头注意力机制模块中均配置有双通道;基于样本数据集

通过
Next Token Prediction
训练任务对所述分子生成模型进行模型训练时,执行如下操作:将预处理后的分子
SMILES
表达式输入输入层;以预处理后的分子
SMILES
表达式为输入,通过嵌入层进行元素提取,输出元素向量;以预处后的分子
SMILES
表达式为输入,通过位置编码层计算元素在分子
SMILES
表达式中的位置,得到元素位置向量,并将元素位置向量和元素向量相加,得到元素矩阵作为输入矩阵;将输入矩阵输入编码器,基于多头注意力机制模块中双通道进行编码计算,得到编码后元素向量;将编码后元素向量输入解码器,基于多头注意力机制模块中双通道进行解码计算,并与
softmax
层和全连接层预测输出分子
SMILES
表达式中每个元素以及元素概率值;将输入矩阵中元素作为真实值,...

【专利技术属性】
技术研发人员:张浩李中伟祝艺玮鲍雨谢爱锋
申请(专利权)人:烟台国工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1