采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法技术

技术编号:17008208 阅读:34 留言:0更新日期:2018-01-11 04:19
本发明专利技术公开了采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法。仅通过有机化学品的基本分子结构信息,计算出具有结构特征的量子化学描述符,并采用所构建的QSAR预测模型,即可快捷、高效的预测有机化学品的kCl值。该方法遵循经济合作与发展组织(OECD)颁布的QSAR模型构建及验证导则:采用遗传算法‑多元线性逐步回归分析联用法(GA‑MLR)和支持向量机‑多元线性逐步回归分析联用法(SVM‑MLR),透明度高且便于应用;GA‑MLR模型均采用量子化学描述符,因此描述符物理意义清晰;具有明确的应用域,适用的有机物种类丰富;具有良好的拟合优度、稳健性以及预测能力,易于程序化,能为有机化学品的环境风险评价与管理提供重要的数据支持。

【技术实现步骤摘要】
采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法
本专利技术属于生态风险评价测试策略领域,涉及一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法。
技术介绍
有机化学品在大气中的氯自由基反应速率常数(kCl)是评估化学品大气持久性的重要参数,对于表征化学品生态环境风险和环境归趋具有重要意义。大气氯自由基(·Cl)对有机污染物具有强的化学反应活性,它与大多数有机污染物的反应速率常数比大气中最重要的自由基(羟基自由基)高出一个到多个数量级。但由于过去一直认为·Cl主要存在海洋及沿海地带,且其浓度比羟基自由基低(为其浓度的1-10%),导致以前评估的·Cl对大气有机污染物转化的贡献低于羟基自由基。然而,氮氧化物与无机氯化物反应这一巨大的·Cl内陆来源的突破性发现,使得·Cl的大气产生总量得以大幅提升,并且打破了·Cl对大气有机污染物转化的地域性限制。因此,·Cl在转化大气有机污染物方面起着比以前更为重要的作用,kCl必将成为有机化学品环境风险评价必不可少的参数。通常,可以通过实验方法如脉冲激光光解-激光诱导荧光(PLP-LIF)、激光闪光光解-共振荧光(LFP-RF)技术、超低压反应器-四级杆质谱串联法(VLPR-QMS)等测得有机物的kCl值。截止目前,仅有五百多种有机化学品具有气相kCl实验数据。然而,人类日常使用的有机化学品已突破14万种,美国化学文摘社(ChemicalAbstractsService,CAS)登记数据库已包含近一亿三千万种有机和无机化合物,并以每年500~1000种的速度增长,数量十分巨大。如果仅靠实验测定,不仅需要耗费大量的时间、人力和财力,而且时间上存在滞后性,难以满足化学品的“预先防范原则”。因此,有必要发展一种科学、高效、快捷的预测方法。QSAR技术有助于实现有毒有害化学品管理的“预先防范原则”,具有弥补实验数据缺失、克服较高消耗以及减少动物实验等优点,美国、欧洲等发达国家很早就开始运用QSAR技术在有毒有害化学品生态风险评价与管理方面进行研究。美国环境保护署(EPA)基于QSAR技术开发了快速预测软件EPISuite,已可以预测KOW、KOC、BCF、生物降解性、空气中的氧化速率(kOH,kO3)、水解速率、污水处理厂去除效率等多种环境行为参数。经济合作与发展组织(OECD)于2007年颁布了QSAR模型建立与使用的指导文件,提出以下五点原则:(a)包含定义明确的环境指标;(b)采用清晰的数学算法;(c)定义模型的应用域;(d)适当的拟合优度、稳健性及预测能力评价;(e)尽可能的机理解释。截至目前,已有多个有机化学品kCl预测模型,模型可分为以下五类:(1)对比模型。文献“Atmos.Environ.,2014,99:159-167.”将logkCl和logkOH相对比,以logkOH为变量建立了logkCl的预测模型。尽管模型具有良好的拟合效果(R2=0.89),但模型只包含了20种不饱和有机化合物,应用域较窄,并且不能解释反应机理。(2)广义拓扑指数模型。文献“J.Chem.Inf.Model.,2007,47(3):794-804.”和“Atmos.Chem.Phys.,2007,7(13):3559-3569.”采用广义拓扑指数作为描述符,建立了有机化学品的气相logkCl预测模型。该类模型虽然在机理解释方面有所提升,但仍然不够清晰,并且应用域较窄。(3)碎片系数模型。文献“Chem.Phys.Lett.,2010,488:135-139.”,“Chem.Phys.Lett.,2009,479:25-29.”,“J.Phys.Chem.,1992,96,10837-10842.”,“Environ.Sci.Pollut.R.,2015,22(7):4820-4832.”,“Int.J.Chem.Kinet.,2012:52-57.”采用不同的基础公式,针对不同类别的有机化合物分别设定不同的基准系数和取代系数,构建了适用于不同种类有机化合物的小型logkCl预测模型。该类模型虽然在一定程度上反应了取代基对有机化合物logkCl值的影响,机理解释方面有所提升,但仍然不够清晰彻底,并且受公式框架的限制导致应用域较窄。(4)分子轨道模型。文献“Atmos.Environ.,2014,90:133-145.”,“Atmos.Environ.,2009,43(38):5996-6002.”和“Phys.Chem.Chem.Phys.,2001,3:3981-3986”采用分子轨道描述符EHOMO分别构建了适用于不同类别有机化合物的小型logkCl预测模型。该类模型已经可以在一定程度上反映有机化学品的反应机理。但由于描述符数量只有一个且涵盖的化学品数量小,导致模型适用的应用域仍然较窄。(5)其他量子化学模型。文献“Chemosphere.2007,67(10):2028-2034.”采用偏最小二乘(PLS)分析方法,使用多种易于解释的量子化学描述符构建了包含13种芳香族有机物的气相logkCl预测模型。虽然模型具有良好的拟合效果,而且描述符意义清晰、解释性强。但是模型的应用域同样较窄。文献“J.Phys.Chem.A.2013,117(30):6433-6449.”采用多元线性回归(MLR)分析方法建立了适用于82种有机化学品的logkCl预测模型。该模型应用域提升较大,并且模型具有一定的解释性。但只适用于单一的H提取反应途径,忽略了Cl加成反应途径。总的来说,目前已有的所有·Cl模型都存在应用域狭窄的问题,多数模型机理解释性差,并且没有遵循OECD颁布的QSAR模型构建和验证导则。因此,有必要建立一个机理解释清晰、适用有机物种类丰富、反应途径全面的QSAR预测模型。并且,依照OECD导则的要求进行模型的验证与应用域的表征。
技术实现思路
本专利技术目的是发展一种科学、高效、快捷、应用域广泛、机理解释清晰的有机化学品氯自由基反应速率常数的预测方法。该方法可直接根据有机化学品的分子结构特征预测kCl值,进而预测和评价其环境归趋,为有机化学品的生态风险评价与管理提供必要的基础数据。本说明书中的“有机化学品”侧重于化学品环境风险评价与管理角度,“有机化合物”侧重于化学品的分子结构角度。本专利技术提供一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法,包括如下步骤,(1)从大量文献、书籍著作中搜集得到有机化合物的室温(298K)kCl值,如果一种有机化合物含有多个来源的kCl值,则对其取平均值。最终得到温度为298K条件下的506种有机化合物的kCl值。(2)对于步骤(1)中收集得到的506种有机化合物,使用量子化学计算软件进行电子结构优化。采用B3LYP方法,其中C,O,H,Cl,S,F,Br,Se和N原子,采用6-311+G(d,p)基组;Si,I原子,采用LANL2DZ基组。使用随机数据分割法将有机化合物以4:1的比例划分为训练集和验证集,训练集有403种有机化合物,验证集有103种有机化合物。训练集中的有机化合物用于构建模型,验证集中的有机化合物用于外部验证。(3)遗传算法-多元线性逐步回归分析(GA-MLR)模型中本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201710764713.html" title="采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法原文来自X技术">采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法</a>

【技术保护点】
一种采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法,其特征在于:包括如下步骤,(1)收集温度为298K的506种有机化合物的kCl值,其中,含有多条kCl数值记录的有机化合物,对其取平均值;(2)对于步骤(1)中收集得到的506种有机化合物,使用量子化学计算软件进行电子结构优化,采用方法为B3LYP,其中C,O,H,Cl,S,F,Br,Se和N原子,采用6‑311+G(d,p)基组,Si,I原子,采用LANL2DZ基组,采用随机数据分割法将有机化合物以4:1的比例划分为训练集和验证集,训练集中有403种有机化合物,验证集中有103种有机化合物;(3)遗传算法‑多元线性逐步回归分析模型中描述符的计算:基于步骤(2)优化得到的有机化合物电子结构,计算出量子化学描述符65种,其中,基础量子化学描述符17种,四元素描述符18种,符合型量子化学描述符21种,并加以qHave,qOave,#nonHatom:C,#X:C,#F:C,#Cl:C,#Br:C,#I:C,#S:C量子化学描述符9种进行模型的构建;(4)支持向量机‑多元线性逐步回归分析模型中描述符的计算:基于步骤(2)优化得到的有机化合物电子结构,计算描述符1490种,包括DRAGON描述符1489种,量子化学描述符EHOMO 1种;(5)将步骤(1)中收集得到的506种有机化合物的kCl值进行对数变换,获得logkCl形式的数值用于后续模型的构建;(6)将步骤(3)中计算得到的量子化学描述符和步骤(5)中计算得到的训练集中的403种有机化合物logkCl数值整合,首先使用机器学习方法遗传算法对量子化学描述符进行变量选择降维,随后采用多元线性逐步回归分析去除描述符的多重共线性并构建模型,模型见式1;将步骤(4)和(5)中计算得到的描述符和训练集的有机化合物logkCl数值整合,使用支持向量机从1490个描述符中选择出平均影响值高的前60种描述符,随后采用多元线性逐步回归分析去除描述符的多重共线性并构建模型,模型见式2;logkCl=3.516+14.33EHOMO–0.1380#X:C–8.950qHave–0.8520qCave‑31.17(ELUMO‑EHOMO)...

【技术特征摘要】
1.一种采用定量结构-活性关系模型预测有机化学品的氯自由基反应速率常数的方法,其特征在于:包括如下步骤,(1)收集温度为298K的506种有机化合物的kCl值,其中,含有多条kCl数值记录的有机化合物,对其取平均值;(2)对于步骤(1)中收集得到的506种有机化合物,使用量子化学计算软件进行电子结构优化,采用方法为B3LYP,其中C,O,H,Cl,S,F,Br,Se和N原子,采用6-311+G(d,p)基组,Si,I原子,采用LANL2DZ基组,采用随机数据分割法将有机化合物以4:1的比例划分为训练集和验证集,训练集中有403种有机化合物,验证集中有103种有机化合物;(3)遗传算法-多元线性逐步回归分析模型中描述符的计算:基于步骤(2)优化得到的有机化合物电子结构,计算出量子化学描述符65种,其中,基础量子化学描述符17种,四元素描述符18种,符合型量子化学描述符21种,并加以qHave,qOave,#nonHatom:C,#X:C,#F:C,#Cl:C,#Br:C,#I:C,#S:C量子化学描述符9种进行模型的构建;(4)支持向量机-多元线性逐步回归分析模型中描述符的计算:基于步骤(2)优化得到的有机化合物电子结构,计算描述符1490种,包括DRAGON描述符1489种,量子化学描述符EHOMO1种;(5)将步骤(1)中收集得到的506种有机化合物的kCl值进行对数变换,获得logkCl形式的数值用于后续模型的构建;(6)将步骤(3)中计算得到的量子化学描述符和步骤(5)中计算得到的训练集中的403种有机化合物logkCl数值整合,首先使用机器学习方法遗传算法对量子化学描述符进行变量选择降维,随后采用多元线性逐步回归分析去除描述符的多重共线性并构建模型,模型见式1;将步骤(4)和(5)中计算得到的描述符和训练集的有机化合物logkCl数值整合,使用支持向量机从1490个描述符中选择出平均影响值高的前60种描述符,随后采用多元线性逐步回归分析去除描述符的多重共线性并构建模型,模型见式2;logkCl=3.516+14.33EHOMO–0.1380#X:C–8.950qHave–0.8520qCave-31.17(ELUMO-EHOMO)2–0.5160#nonHatom:C–2.219S–0.63...

【专利技术属性】
技术研发人员:谢宏彬张勇虔李雪花陈景文
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1