一种基于深度强化学习的含能化合物分子结构生成方法技术

技术编号:31014999 阅读:20 留言:0更新日期:2021-11-30 02:54
本发明专利技术提供一种基于深度强化学习的含能化合物分子结构生成方法,包括如下步骤:建立含能化合物和类含能化合物的SMILES分子结构数据集并生成分子结构词汇表,通过调用分子结构字典对SMILES分子结构进行分词器编码,将SMILES分子结构编码成数字序列;将编码后的类含能化合物数字序列化的分子结构通过循环神经网络进行深度学习,调节超参数得到优化的深度学习预训练模型;调用数字序列化的类含能化合物分子结构与深度学习预训练模型进入循环神经网络进行强化学习,调节超参数得到优化的深度强化学习模型;调用深度强化学习模型,调节超参数控制指纹相似度生成新型含能化合物分子结构,通过分子结构标准化得到结构正确的分子结构,并进行模型效果评价。并进行模型效果评价。并进行模型效果评价。

【技术实现步骤摘要】
一种基于深度强化学习的含能化合物分子结构生成方法


[0001]本专利技术属于含能化合物分子领域,特别是涉及一种基于深度强化学习的含能化合物分子结构生成方法。

技术介绍

[0002]含能化合物是先进武器装备实现发射和毁伤的动力源和威力源,用于推进剂、炸药等领域的高能量物质。含能化合物具有高能量密度、高感度、自反应性等特点,易引发突发性的意外事故,准确、可靠地设计分子结构,全面预测和评估其特性对降低人员伤害、减少经济损失、提高研发效率具有重要意义。
[0003]在公告号CN105844028,名称为“一种含能化合物计算机辅助设计系统”的中国专利技术专利中,公开了采用基于碎片分子组合库生成模块进行分子结构设计的方法,碎片输入模块、结构预筛选模块、物化参数预测模块,用于辅助设计、开发新型含能化合物分子结构。以上公开的专利通过输入碎片分子组合库模块进行分子结构设计的方法,可以获得直接获得输入碎片分子相关的分子结构,但是以上的分子结构设计方法对分子结构组合拼装的难度大、要求高、成本高,不利于新型含能化合物的发现和研发。

技术实现思路

[0004]本专利技术提供一种基于深度强化学习的含能化合物分子结构生成方法,解决分子结构设计方法对分子结构组合拼装的难度大、要求高、成本高,不利于新型含能化合物的发现和研发的技术问题,提供一种高效、低成本的基于深度强化学习分子结构的生成方法,通过对含能化合物的深度学习和强化学习得到学习模型,进一步自动生成含能化合物分子结构,此方法具有操作简单、方便,且特别适合化合物实验样本较少且样本差异性较大的分子结构设计。
[0005]为解决上述技术问题,本专利技术提供一种基于深度强化学习的含能化合物分子结构生成方法,包括如下步骤:
[0006]S1:建立含能化合物和类含能化合物的SMILES分子结构数据集并生成分子结构词汇表,通过调用分子结构字典对SMILES分子结构进行分词器编码,将SMILES分子结构编码成数字序列;
[0007]S2:将编码后的类含能化合物数字序列化的分子结构通过循环神经网络进行深度学习,调节超参数得到优化的深度学习预训练模型;
[0008]S3:调用数字序列化的类含能化合物分子结构与深度学习预训练模型进入循环神经网络进行强化学习,调节超参数得到优化的深度强化学习模型;
[0009]S4:调用深度强化学习模型,调节超参数控制指纹相似度生成新型含能化合物分子结构,通过分子结构标准化得到结构正确的分子结构,并进行模型效果评价。
[0010]进一步地,所述S1中SMILES分子结构由表示元素、键与连接关系的字母组成;所述分子结构词汇表是结合SMILES分子结构数据集与SMILES分子结构编码规则生成,分子结构
词汇表由35个Tokenizer字符组成,调用Tokenizer函数将SMILES分子结构转化为数字序列的分子结构;所述类含能化合物数字序列化的分子结构长度为136,确保含能化合物和类含能化合物的SMILES分子结构数字化序列的唯一性。
[0011]进一步地,所述S2包括如下步骤:
[0012]S21:将类含能化合物经数字化序列的分子结构数据集分批次输入循环神经网络进行训练;
[0013]S22:调整每批次训练的超参数,保留每批次交叉熵损失函数曲线到达平稳状态的模型后作为深度学习预训练模型。
[0014]进一步地,所述S3包括如下步骤:
[0015]S31:将类含能化合物经数字化序列的分子结构数据集和深度学习预训练模型输入循环神经网络;
[0016]S32:调整每次训练的超参数,调整每批次训练的超参数,保留每批次交叉熵损失函数曲线到达平稳状态的模型后作为深度强化学习模型。
[0017]进一步地,所述S4包括如下步骤:
[0018]S41:运行强化学习训练模型,批量生成数字序列的分子数据;
[0019]S42:对批量生成的数字序列数据依次进行数据解码和分子数据标准化;
[0020]S43:对标准化后的分子数据,过滤无效分子和去除重复分子;
[0021]S44:当生成的分子数量达到预先设定的分子数量时,保存生成的分子结构数据。
[0022]进一步地,所述循环神经网络包括嵌入层、门控循环单元、密集连接层和激活函数;类含能化合物数字序列化作为嵌入层的输入,嵌入层的输出作为门控循环单元层的输入,门控循环单元层的输出作为密集连接层的输入,密集连接层的输出作为激活函数的输入,其中嵌入层、门控循环单元层、密集连接层和激活函数依次循环执行。
[0023]进一步地,所述门控循环单元为三层,所述三层GRU的输入输出依次连接,每层有512个神经元组成,每个神经元可由下述公式得出:
[0024]z
t
=σ(U
z
h
t
‑1+W
z
x
t
+b
z
)
[0025]r
t
=σ(U
r
h
t
‑1+W
r
x
t
+b
r
)
[0026][0027][0028]式中:r
t
,z
t
分别对应GRU门结构的选择门、遗忘门和更新门。x
t
为t时刻该层隐藏层的输入,h
t
为第t时刻当前层的输出,h
t
‑1为上一时刻第t

1时刻当前层的输出值作为当前时刻的输入,U,W,V为各层之间的权重系数,b
t
为当前层的偏移量;
[0029]进一步地,所述密集连接层为线性层,采用Softmax函数,具体函数如下:
[0030]σ(z)=(σ1(z),...,σ
m
(z))
[0031][0032]式中z为GRU层输出;
[0033]所述激活函数采用Sigmoid函数,具体函数如下:
[0034][0035]式中x为网络单元输入值。
[0036]进一步地,所述超参数包括学习率、训练步数、批数量,所述学习率取0.001、训练步数取10000、批数量取4000;所述循环神经网络结构,深度学习和深度强化学习使用相同的循环神经网络结构
[0037]进一步地,所述深度学习训练用数据库包括ZINC数据库、ChEMBL数据库、GDB数据库。
[0038]本专利技术上述一个或多个技术方案,至少具有如下一种或多种技术效果:
[0039]本专利技术提供一种基于深度强化学习的含能化合物分子结构生成方法,包括如下步骤:建立含能化合物和类含能化合物的SMILES分子结构数据集并生成分子结构词汇表,通过调用分子结构字典对SMILES分子结构进行分词器编码,将SMILES分子结构编码成数字序列;将编码后的类含能化合物数字序列化的分子结构通过循环神经网络进行深度学习,调节超参数得到优化的深度学习预训练模型;调本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的含能化合物分子结构生成方法,其特征在于,包括如下步骤:S1:建立含能化合物和类含能化合物的SMILES分子结构数据集并生成分子结构词汇表,通过调用分子结构字典对SMILES分子结构进行分词器编码,将SMILES分子结构编码成数字序列;S2:将编码后的类含能化合物数字序列化的分子结构通过循环神经网络进行深度学习,调节超参数得到优化的深度学习预训练模型;S3:调用数字序列化的类含能化合物分子结构与深度学习预训练模型进入循环神经网络进行强化学习,调节超参数得到优化的深度强化学习模型;S4:调用深度强化学习模型,调节超参数控制指纹相似度生成新型含能化合物分子结构,通过分子结构标准化得到结构正确的分子结构,并进行模型效果评价。2.根据权利要求1所述的基于深度强化学习的含能化合物分子结构生成方法,其特征在于,所述S1中SMILES分子结构由表示元素、键与连接关系的字母组成;所述分子结构词汇表是结合SMILES分子结构数据集与SMILES分子结构编码规则生成,分子结构词汇表由35个Tokenizer字符组成,调用Tokenizer函数将SMILES分子结构转化为数字序列的分子结构;所述类含能化合物数字序列化的分子结构长度为136,确保含能化合物和类含能化合物的SMILES分子结构数字化序列的唯一性。3.根据权利要求1所述的基于深度强化学习的含能化合物分子结构生成方法,其特征在于:所述S2包括如下步骤:S21:将类含能化合物经数字化序列的分子结构数据集分批次输入循环神经网络进行训练;S22:调整每批次训练的超参数,保留每批次交叉熵损失函数曲线到达平稳状态的模型后作为深度学习预训练模型。4.根据权利要求1所述的基于深度强化学习的含能化合物分子结构生成方法,其特征在于:所述S3包括如下步骤:S31:将类含能化合物经数字化序列的分子结构数据集和深度学习预训练模型输入循环神经网络;S32:调整每次训练的超参数,调整每批次训练的超参数,保留每批次交叉熵损失函数曲线到达平稳状态的模型后作为深度强化学习模型。5.根据权利要求1所述的基于深度强化学习的含能化合物分子结构生成方法,其特征在于:所述S4包括如下步骤:S41:运行强化学习训练模型,批量生成数字序列的分子数据;S42:对批量生成的数字序列数据依次进行数据解码和分子数据标准化;S43:对标准化后的分子数据,过滤无效分子和去除重复分子;S44:当生成的分子数量达到预先设定的分子数量时,保存生成的分子结构数据。6.根据权利要求1所述的基于深度强化学习的含能化...

【专利技术属性】
技术研发人员:徐作英马文斌石彦超林宏张鹤杨冠卓
申请(专利权)人:内蒙合成化工研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1