当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于机器学习的新污染物反应活性预测方法技术

技术编号:36572224 阅读:13 留言:0更新日期:2023-02-04 17:29
本发明专利技术公开了一种基于机器学习的新污染物反应活性预测方法,属于机器学习算法技术领域。本发明专利技术着重关注建模过程中输入特征和机器学习算法(ML)的选择,基于现有数据,构建了基于多阶段特征增强分析(MFEA)的简单机器学习(ML)模型,以预测硫酸根基(SO4•−

【技术实现步骤摘要】
一种基于机器学习的新污染物反应活性预测方法


[0001]本专利技术涉及机器学习算法
,尤其涉及一种基于机器学习的新污染物反应活性预测方法。

技术介绍

[0002]紫外高级氧化工艺(AOPs)是在水处理和污水处理中,去除新兴污染物(CECs)的有效方法。在过去数十年中,基于羟基自由基(HO

)的AOPs受到了广泛的专注。然而,近期的研究显示,基于硫酸根基(SO4•−
)和碳酸根基(CO3•−
)的AOPs有潜力替代HO

。SO4•−
和CO3•−
比HO

更具选择性,并倾向于与给电子取代基按照二级反应动力学反应。
[0003]反应速率常数(k值)是化学反应的基本参数,实验和理论化学都着重关注其测定准确性。自由基对CECs的反应速率常数(k值)可能会影响自由基介导过程中CECs的去除和环境持久性。大部分的反应速率常数(k值)都是未知并难以测出的。目前反应速率常数的常用测定方法包括数学计算法和仪器测量法两种类型,其中数学计算法包括稳态法和竞争动力学法。仪器测量法包括脉冲辐射分解和激光闪光光解法。
[0004]目前,许多基于定量构效关系(QSAR)的模型已成功预测不同CECs的反应速率常数(k值),它用不同的建模方法建立了化学活性与分子结构参数之间的数学关系。根据以前的研究,分子描述符(MD)结合多元线性回归(MLR)已被广泛用于QSAR建模中,用于预测反应速率常数(k值)。然而,MD的选择具有一定的主观性,其测定有时需要复杂的量子化学计算。MLR也不适用于复杂和非线性关系,否则可能会影响模型的拟合优度。
[0005]机器学习(ML)也逐渐在水环境化学领域引起关注。ML辅助的QSAR模型可以通过各种机器学习算法(ML)对分子性质进行越来越精确的预测,使用的算法包括随机森林(RF)、神经网络(NN)和支持向量机(SVM)算法。将分子指纹(MFs)作为输入特征以简化流程。由于大部分的反应速率常数(k值)都是未知并难以测出的,在这种样本数量较少的情况下,预测结果可能不尽人意,即过拟合或欠拟合;例如文献“Machine Learning

Assisted QSAR Models on Contaminant Reactivity Toward Four Oxidants: Combining Small Data Sets and Knowledge Transfer. Environ. Sci. Technol. 2022, 56 (1), 681

692.”中公开的一种技术方案,其由于缺乏足够的数据,其构建的ML辅助QSAR模型在HClO、O3和ClO2的反应性预测中的最优Rtest2分别仅为0.60、0.45和0.47。为了解决上述问题,本专利技术提出了一种基于机器学习的新污染物反应活性预测方法。

技术实现思路

[0006]本专利技术目的在于解决现有预测方法对检测仪器具有依赖性,成本较高,操作麻烦、费时费力且使用范围有限的问题而提出的一种基于机器学习的新污染物反应活性预测方法,本专利技术着重关注建模过程中输入特征和机器学习算法(ML)的选择,基于现有数据,构建了基于多阶段特征增强分析(MFEA)的简单ML模型以预测硫酸根基(SO4•−
)和碳酸根基(CO3•−
)对具有结构多样性的新兴污染物(CECs)的反应性。
[0007]为了实现上述目的,本专利技术采用了如下技术方案:一种基于机器学习的新污染物反应活性预测方法,包括以下步骤:S1、从现有文献收集硫酸根基(SO4•−
)和碳酸根基(CO3•−
)的反应速率常数(k值),取对数,并将结果分为三个等级;然后将80%的数据组成训练集,将20%的数据组成测试集;S2、利用特征选择方法(分子指纹),将硫酸根基(SO4•−
)和碳酸根基(CO3•−
)分别以166位和1024位二进制数字的形式输入;S3、计算出分类分析中不同输入特征和不同算法下的精度和面积,经过对训练集的5倍交叉后,硫酸根基(SO4•−
)和碳酸根基(CO3•−
)各得到6组数据;比较各组训练集和测试集的结果,选出硫酸根基(SO4•−
)和碳酸根基(CO3•−
)的最优算法和特征选择方法,并预测反应速率常数(k值)的等级;S4、将S3中所选出的最优特征选择方法和预测的反应速率常数(k值)的等级组合在一起作为回归分析的输入特征,计算出回归分析中同一输入特征下不同算法的均方根误差(RMSE)和决定系数(R2)值,经过对训练集的5倍交叉验证后,硫酸根基(SO4•−
)和碳酸根基(CO3•−
)各得到3组数据;比较每组训练集和测试集的结果,选出硫酸根基(SO4•−
)和碳酸根基(CO3•−
)的最优算法,进一步进行特征增强,构建能预测反应速率常数(k值)的回归模型。
[0008]优选地,所述S1中提到的对数所划分的三个等级,具体为:等级1为logk<7,等级2为logk在7

9之间,等级3为logk>9。
[0009]优选地,所述S2中提到的特征选择方法具体为MACCS和ECFPs两种方法;所述S3中使用的算法包括有随机森林算法(RF)、神经网络算法(NN)和支持向量机算法(SVM)。
[0010]优选地,所述S3中,以MACCS为输入特征,使用支持向量机算法(SVM)来预测硫酸根基(SO4•−
)的反应速率常数(k值)的等级;以ECFP为输入特征,使用随机森林算法(RF)来预测碳酸根基(CO3•−
)的反应速率常数(k值)的等级。
[0011]优选地,所述S4中构建所得的能预测反应速率常数(k值)的回归模型使用基于MACCS选择特征的随机森林算法(RF)预测硫酸根基(SO4•−
)的反应速率常数(k值),使用基于ECFPs选择特征的支持向量机算法(SVM)预测碳酸根基(CO3•−
)的反应速率常数(k值)。
[0012]优选地,所述S4中构建所得的能预测反应速率常数(k值)的回归模型使用SHapley Additive Explanations(SHAP)解释分类和回归建模中的相关分子结构特征;使用哈密特常数(∑σp +)解释取代基的电子效应与反应速率常数(k值)之间的关系。
[0013]优选地,所述S4中构建所得的能预测碳酸根基(CO3•−
)的反应速率常数(k值)的回归模型的使用范围通过谷本系数确定,具体为:通过比较测试集的化合物和训练集的化合物之间的相似性确定谷本系数的预设阈值;若计算出的谷本系数高于预设阈值,则测试的化合物在适用性域内,预测可靠;否则,预测是不可靠的。
[0014]优选地,所述S3、S4为多阶段特征加强分析,二者之间为递进关系,以提高反应速率常数(k值)的准确性。
[0015]与现有技术相比,本专利技术提供了一种基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的新污染物反应活性预测方法,其特征在于,包括以下步骤:S1、从现有文献收集硫酸根基和碳酸根基的反应速率常数,取对数,并将结果分为三个等级;然后将80%的数据组成训练集,将20%的数据组成测试集;S2、利用特征选择方法,将硫酸根基和碳酸根基分别以166位和1024位二进制数字的形式输入;S3、计算出分类分析中不同输入特征和不同算法下的精度和面积,经过对训练集的5倍交叉后,硫酸根基和碳酸根基各得到6组数据;比较各组训练集和测试集的结果,选出硫酸根基和碳酸根基的最优算法和特征选择方法,并预测反应速率常数的等级;S4、将S3中所选出的最优特征选择方法和分类模型预测的反应速率常数的等级组合在一起作为回归分析的输入特征,计算出回归分析中同一输入特征下不同算法的均方根误差和决定系数值,经过对训练集的5倍交叉验证后,硫酸根基和碳酸根基各得到3组数据;比较每组训练集和测试集的结果,选出硫酸根基和碳酸根基的最优算法,进一步进行特征增强,构建能预测反应速率常数的回归模型。2.根据权利要求1所述的一种基于机器学习的新污染物反应活性预测方法,其特征在于,所述S1中提到的对数所划分的三个等级,具体为:等级1为logk<7,等级2为logk在7

9之间,等级3为logk>9。3.根据权利要求1所述的一种基于机器学习的新污染物反应活性预测方法,其特征在于,所述S2中提到的特征选择方法具体为M...

【专利技术属性】
技术研发人员:周石庆黄苑曦卜令君祝淑敏施周
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1