基于深度学习技术多分子指纹模型的分子筛选方法技术

技术编号:36170188 阅读:15 留言:0更新日期:2022-12-31 20:21
本发明专利技术公开了一种基于深度学习技术多分子指纹模型的分子筛选方法,将收集的分子经SMILES、再由SMILES转化为各种分子指纹的预处理,各种分子指纹作为输入数据;根据各种分子指纹输入数据,设置一个多分子指纹模型,第一层为输入层,中间层为密集层,最后一层为输出层,利用Sigmoid函数作为最终输出,通过反向传播优化算法优化设置多分子指纹模型超参数进行性能评估,并迭代训练获得一个高验证精度的模型;将新分子经预处理后,输入至最高验证精度多分子指纹模型进行预测筛选,得到新分子的预测结果。本发明专利技术能够输入多种分子指纹联合学习,克服单分子指纹输入化学信息不足、拼接分子指纹造成信息混乱等局限性,实现分子的高效筛选。筛选。筛选。

【技术实现步骤摘要】
基于深度学习技术多分子指纹模型的分子筛选方法


[0001]本专利技术涉及深度学习与物理、化学、材料交叉领域,尤其涉及的是一种利用深度学习神经网络框架搭建多分子指纹模型,该模型可以用于分子的筛选。

技术介绍

[0002]分子指纹,通常被用来描述化学结构的特征,是分子的抽象表征,能够将化学分子转化为只包含0与1位的比特串。不同类型的分子指纹在构造形式与阵列长度均有所差别,可分为子结构的密钥指纹,如166比特的Maccs指纹;基于拓扑或路径的指纹,如1024比特的Daylight与FP2指纹;以及2048比特的Morgan与ECFP环形结构的指纹等。机器学习、深度学习等技术能够从基于分子指纹构建的分子数据集中挖掘重要信息,通过训练模型,实现对新材料的预测及筛选。目前,论文“Sun,W.et al.Machine learning

assisted molecular design and efficiency prediction for high

performance organic photovoltaic materials.Sci.Adv.5,eaay4275(2019)”等人通过Maccs,Daylight,FP2以及Morgan等分子指纹建立了OPV(organic photovoltaic)材料的数据集,利用机器学习技术从该数据集中提取化学信息训练模型进行OPV材料筛选;论文“Xie,L.et al.Improvement of Prediction Performance With Conjoint Molecular Fingerprint in Deep Learning.Front.Pharmacol.11,606668(2020)”等人则通过拼接分子指纹的方式,将166比特的Maccs指纹与2048比特的ECFP指纹进行拼接为一个2214比特的拼接指纹,再利用机器学习、深度学习技术训练该拼接指纹构建的数据集。然而,在训练机器学习、深度学习模型筛选新分子时,把分子指纹单个输入,或者进行多分子指纹拼接的方式都不能很好的扩充分子结构或子片段等化学信息;拼接的分子指纹还存在位数变化等情况,也会影响分子指纹本身所应该包含的特征。因此,在一定程度上限制了机器学习、深度学习在筛选新材料方面的应用。

技术实现思路

[0003]本专利技术所要解决的技术问题是通过搭建一种基于深度学习技术多分子指纹模型的分子筛选方法,实现分子的高效精准的筛选与预测。
[0004]本专利技术的技术方案如下:
[0005]一种基于深度学习技术多分子指纹模型的分子筛选方法,多指纹模型是由两个或两个以上分子指纹同时输入的模型。
[0006]所述的分子筛选方法,所述的多指纹模型,利用小样本量数据集实现高精度的分子预测。
[0007]所述的分子筛选方法,将数据集中的分子转化为SMILES,再由SMILES转化为各种不同的分子指纹,作为输入数据。
[0008]所述的分子筛选方法,所述的多指纹模型,第一层为输入层,输入数据为分子指纹,中间层为密集层,最后一层为输出层。
[0009]所述的分子筛选方法,新分子经数据处理后,输入多指纹模型进行预测筛选,得到新分子的筛选结果。
[0010]所述的分子筛选方法,所述分子指纹包括Maccs指纹、FP2指纹、Daylight指纹、Morgan指纹和Hybridization指纹等各种指纹,任取两种或两种以上指纹,作为输入数据输入多分子指纹模型。
[0011]所述的分子筛选方法,所述的数据集分子,可以是钙钛矿发光和光伏器件的发光层材料、添加剂分子。
[0012]所述的分子筛选方法,可预测有机物、无机物、有机无机杂化化合物、配合物、高分子化合物,所述数据处理、算法模型、结果输出构成,其中算法为多指纹模型。
[0013]一种基于深度学习技术多分子指纹模型的新分子筛选方法,包括以下步骤:
[0014]步骤a:首先将收集的分子结构式转化为SMILES,然后将SMILES转化为各种不同的分子指纹,作为输入数据;
[0015]步骤b:根据分子指纹输入数据,设置一个基于神经网络的多分子指纹模型,共有五层网络架构,第一层为输入层,输入数据为分子指纹,中间层为密集层,最后一层为输出层,利用Sigmoid函数作为最终输出;并将分子指纹数据输入至多分子指纹模型进行迭代训练,通过Adam算法优化器反向传播优化设置模型学习率,每层神经元个数等超参数进行性能评估,最终获得最高验证精度的多分子指纹模型;
[0016]步骤c:选取材料新分子经步骤a预处理后,输入至步骤b获得的神经网络模型进行预测筛选,得到新分子的筛选结果。
[0017]所述的分子筛选方法,步骤a中:
[0018](1)收集的分子经SMILES转化生成的分子指纹为Maccs指纹、FP2指纹以及Morgan指纹等;
[0019](2)将已设置标签的分子指纹数据集以训练集:测试集=9:1的比例划分。
[0020]所述的分子筛选方法,步骤b中:
[0021](1)输入层的神经元个数由输入的分子指纹个数决定,一般为L1+L2+

+Ln,L是各个分子指纹比特的长度,n是选择的分子指纹个数;中间密集层的神经元个数设置为4~8,最后输出层神经元个数设置为2,并采用Sigmoid函数输出;
[0022](2)选择Adam算法作为优化器,优化器学习率设置为0.001~0.1;
[0023](3)选择验证精度准确率作为训练过程中评价网络模型好坏的性能评估指标;
[0024](4)训练批数大小设置为5~15,训练轮数大小设置为100~150,提前终止训练轮数设置为5~10;
[0025](5)每一轮训练时将将训练集按批处理大小分为若干份输入至网络模型进行训练,利用优化器和损失函数对模型权重系数进行更新,并在每轮训练时将测试集数据输入至多分子指纹模型获取模型验证精度准确率和损失值,以指导模型防止过拟合或欠拟合。
[0026]所述的分子筛选方法,步骤c中:
[0027](1)选取未出现在训练集的新分子,按上述训练集的数据处理方式预处理数据,输入模型;
[0028](2)使用最高验证精度多分子指纹模型对新分子进行预测筛选,得到筛选结果。
[0029]采用上述方案,本专利技术通过多种分子指纹同时输入,有效地解决了单种分子指纹
输入时提供的化学信息不足,以及多分子指纹拼接后产生的信息混乱和冗余等问题。同时,深度学习神经网络框架模型的强大信息提取能力,可全方位地挖掘不同类型分子指纹所携带的结构片段与化学信息,实现了88.46%的最高验证精度准确率。在部署模型筛选中,能从13个材料新分子中筛选出11个正确,即使模型预测筛选结果不完全正确,但对比单分子指纹输入模型,能实现新分子更高效、更精准化的筛选,解决了传统筛选的局限性。
附图说明
[0030]图1为算法流程图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习技术多分子指纹模型的分子筛选方法,其特征在于,多指纹模型是由两个或两个以上分子指纹同时输入的模型。2.根据权利要求1所述的分子筛选方法,其特征在于,所述的多指纹模型,利用小样本量数据集实现高精度的分子预测。3.根据权利要求1所述的分子筛选方法,其特征在于,将数据集分子中的分子转化为SMILES,再由SMILES转化为各种不同的分子指纹,作为输入数据。4.根据权利要求1所述的分子筛选方法,其特征在于,所述的多指纹模型,第一层为输入层,输入数据为分子指纹,中间层为密集层,最后一层为输出层。5.根据权利要求1所述的分子筛选方法,其特征在于,新分子经数据处理后,输入多指纹模型进行预测筛选,得到新分子的筛选结果。6.根据权利要求3所述的分子筛选方法,其特征在于,所述分子指纹包括Maccs指纹、FP2指纹、Daylight指纹、Morgan指纹和Hybridization指纹等各种指纹,任取两种或两种以上指纹,作为输入数据输入多分子指纹模型。7.根据权利要求3所述的分子筛选方法,其特征在于,所述的数据集分子,可以是钙钛矿发光和光伏器件的发光层材料、添加剂分子。8.根据权利要求1所述的分子筛选方法,其特...

【专利技术属性】
技术研发人员:王建浦朱琳章亮
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1