一种基于机器学习的化合物持久性筛查方法技术

技术编号:35441374 阅读:55 留言:0更新日期:2022-11-03 11:52
本发明专利技术公开了一种基于机器学习的化合物持久性筛查方法,包括:下载化合物的SMILES,并计算化合物的分子描述符;将计算好的分子描述符按顺序排列好,输入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;机器学习筛查模型输出化合物的持久性筛查预测结果。本申请通过用机器学习筛查预测模型对海量化学品的持久性进行预测,结合多种机器学习算法和采用尽可能多的分子描述符,以期筛选具有较强持久性的化学污染物。以期筛选具有较强持久性的化学污染物。以期筛选具有较强持久性的化学污染物。

【技术实现步骤摘要】
一种基于机器学习的化合物持久性筛查方法


[0001]本专利技术涉及化合物性质筛查技术,具体涉及一种基于机器学习的化合物持久性筛查方法。

技术介绍

[0002]大量的化学品通过排放赋存在自然环境,其中具有高持久性的化学物质难以降解,可以在环境中长久存在,会对生态环境造成严重影响。标准的持久性筛查方法是首先检查目标物是否是REACH高度关注物质中已知的PBT类物质或已存在于POPs清单中,若在,则认为该物质具有持久性。对于不在这些清单中的物质,则首先利用PubChem数据库(https://pubchem.ncbi.nlm.nih.gov/)查找获取该物质的实验半衰期数据;如果实验数据不足确定物质的持久性,将用“PBT

BIOWIN”或QSAR Toolbox中的“P Pridictor”物质半衰期预测模型工具来进行判断。如果使用这两种筛查工具得到的化合物持久性结论有所冲突,上一步从PubChem中获得的物质实验半衰期数据也作为P结论的证据权重。当这些证据仍然不足以得出持久性结论时,Arnot

BIOWIN模型将辅助得到最后的结论。需要特别注意的是“potential P++”结论,如果该化合物在饮用水中被检测出,“vP”将代替“potential P++”成为该物质持久性的结论。现有技术由于需要对化合物逐一手动筛查,因此筛查速度较慢,无法实现对海量化合物的快速高通量筛查。
[0003]针对化合物的持久性筛查,目前相关实验数据仍匮乏,新型化学污染物层出不穷,标准的筛查方法难以进行快速高通量筛查,此外传统的QSAR方法采用的分子描述符较少,无法实现对化合物信息的准确描述。

技术实现思路

[0004]为了解决上述
技术介绍
所存在的至少一技术问题,本专利技术提供一种基于机器学习的化合物持久性筛查方法。
[0005]为实现上述目的,本专利技术的技术方案是:
[0006]一种基于机器学习的化合物持久性筛查方法,包括:
[0007]下载化合物的SMILES,并计算化合物的分子描述符;
[0008]将计算好的分子描述符按顺序排列好,输入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;
[0009]机器学习筛查模型输出化合物的持久性筛查预测结果。
[0010]进一步地,所述机器学习筛查预测模型通过如下方式构建:
[0011]数据库建立:所述数据库包括持久性化合物样本和非持久性化合物样本,持久性化合物样本作为正类样本,非持久性化合物样本作为反类样本;
[0012]分子描述:对于所述数据库中的每个化合物都计算其二维分子描述符,并对其中具有缺失值的描述符以及对所有化合物而言为常数值的描述符进行去除,以保留有效分子描述符作为数据集;
[0013]数据处理平衡及建模:对所述数据集采用基于集成学习的Easy Ensemble算法进行数据平衡处理;在Easy Ensemble算法中基分类器采用Adaboost基分类器,分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机八种机器学习算法作为弱分类器算法构建八个Easy Ensemble模型;将八个Easy Ensemble模型进行超参数调优之后进行集成,得到最终的机器学习筛查预测模型。
[0014]进一步地,所述参数调优包括:
[0015]将数据集集按相同正反比例划分为训练集和测试集,训练集用于训练模型,测试集用于测试模型的性能;
[0016]采用网格搜索和交叉验证法在训练集上进行超参数调节,其中,训练集又进一步划分为训练集和验证集,通过调节在验证集上的效果获取最优超参数;
[0017]对超参数“n_estimators”进行调节,候选八个模型的最优目标参数,调优目标为准确率;“n_estimators”为Easy Ensemble模型中基分类器的个数;
[0018]在获取最优超参数之后,在全部训练集上训练模型,然后在测试集上测试模型效果。
[0019]进一步地,所述八个模型的最优目标参数分别为5,10,15,20,25,30,35和40。
[0020]进一步地,所述应用域判定的计算方法为:
[0021]采用欧几里得距离来判断化合物之间的相似度;计算训练数据集中所有化学物质的分子描述符的平均值作为质心;计算训练数据集中单个化合物与质心之间的欧氏距离,并以最长距离作为应用域的阈值;当目标化合物与质心之间的欧氏距离小于阈值时,则认为化合物在应用域之内。
[0022]进一步地,目标化合物与质心之间欧氏距离的数学表达式如下所示:
[0023][0024]其中,d
i
代表第i个化合物与质心之间的欧氏距离,x
k,i
代表第i个化合物的第k个分子描述符,x
k,centroid
代表质心的第k个分子描述符。
[0025]进一步地,所述反类样本的数量多于正类样本数量。
[0026]进一步地,所述化合物的分子描述符通过alvaDesc软件来进行计算。
[0027]进一步地,所述有效分子描述符有2630个。
[0028]进一步地,采用软投票法将八个Easy Ensemble模型进行集成。
[0029]进一步地,所述训练集占比80%,测试集占比20%
[0030]本专利技术与现有技术相比,其有益效果在于:
[0031]本申请通过用机器学习筛查预测模型可以实现对海量化学品的持久性进行预测,结合多种机器学习算法和尽可能多的分子描述符,以期准确地筛选具有较强持久性的化学污染物。
附图说明
[0032]图1为本专利技术实施例提供的基于机器学习的化合物持久性筛查方法的流程图;
[0033]图2为机器学习筛查预测模型的构建流程图。
具体实施方式
[0034]实施例:
[0035]下面结合附图和实施例对本专利技术的技术方案做进一步的说明。
[0036]针对化合物的持久性筛查,目前相关实验数据仍匮乏,新型化学污染物层出不穷,标准的筛查方法难以进行快速高通量筛查,此外传统的QSAR方法采用的分子描述符较少,无法实现对化合物信息的准确描述。鉴于这个现状,本实施例提供了基于机器学习的化合物持久性筛查方法。
[0037]参阅图1所示,本实施例提供的基于机器学习的化合物持久性筛查方法主要包括如下步骤:
[0038]101、下载化合物的SMILES,然后将化合物的SMILES输入到软件alvaDesc中计算化合物的分子描述符;
[0039]102、将计算好的分子描述符按顺序排列好,保存为EXCEL文件,然后利用Python程序导入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;
[0040]103、机器学习筛查模型输出化合物的持久性筛查预测结果。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的化合物持久性筛查方法,其特征在于,包括:下载化合物的SMILES,并计算化合物的分子描述符;将计算好的分子描述符按顺序排列好,输入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;机器学习筛查模型输出化合物的持久性筛查预测结果。2.如权利要求1所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述机器学习筛查预测模型通过如下方式构建:数据库建立:所述数据库包括持久性化合物样本和非持久性化合物样本,持久性化合物样本作为正类样本,非持久性化合物样本作为反类样本;分子描述:对于所述数据库中的每个化合物都计算其二维分子描述符,并对其中具有缺失值的描述符以及对所有化合物而言为常数值的描述符进行去除,以保留有效分子描述符作为数据集;数据处理平衡及建模:对所述数据集采用基于集成学习的Easy Ensemble算法进行数据平衡处理;在Easy Ensemble算法中基分类器采用Adaboost基分类器,分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机八种机器学习算法作为弱分类器算法构建八个Easy Ensemble模型;将八个Easy Ensemble模型进行超参数调优之后进行集成,得到最终的机器学习筛查预测模型。3.如权利要求2所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述参数调优包括:将数据集集按相同正反比例划分为训练集和测试集,训练集用于训练模型,测试集用于测试模型的性能;采用网格搜索和交叉验证法在训练集上进行超参数调节,其中,训练集又进一步划分为训练集和验证集,通过调节在验证集上的效果获取最优超参数;对超参数“n_estimators”进行调节,候选八个...

【专利技术属性】
技术研发人员:韩民金彪张干
申请(专利权)人:中国科学院广州地球化学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1