本发明专利技术公开了一种酚对发光菌毒性预测及评估的新型非线性高效模型的构建方法及应用,利用非线性SVR技术对源自现有技术的18个酚类化合物对发光菌的毒性表示为log?EC50进行QSAR研究。这项工作的目的是基于低维特征数据和高维特征数据,通过非线性化学计量学工具寻找更合理的特征和更可靠的QSAR模型,并详细分析与毒性相关的最有价值模型及其最关键的分子特征。本发明专利技术将为设计对发光菌毒性增强或减弱的酚类似物提供有效的理论参考。
【技术实现步骤摘要】
酚对发光菌毒性预测及评估的非线性高效模型构建方法及应用
本专利技术属于化学
,涉及一种酚对发光菌毒性预测及评估的非线性高效模型的构建方法及应用。
技术介绍
随着经济的飞速发展,与化学品相关的环境问题日益突出。因此,有关有机污染物的毒性风险评估显得非常重要.苯酚是一种最常见的环境污染物,特别是在废水中。由于在环境中的毒性和持久性,苯酚被视为优先关注的环境污染物。明亮发光细菌(Photobacteriumphosphoreum)是一种海水中的发光细菌,其光强随有毒物质抑制细菌生长(即细胞密度)而变化,使其成为化学品毒性测量和水质监测的重要指标。定量构效关系(QSAR)建模是一种用于研究苯酚分子结构与毒性关系的有效方法,它有助于解释结构特征如何决定毒性。尤其在化学品的毒性评估中,一个好的QSAR模型相对于实验测试具有更快速、更低成本比的巨大优势。近日报道了一项研究18个酚类似物与毒性(表现为作用于发光菌的EC50)定量构效关系模型,该模型具有3个特征,分别由软件ChemDrawUltra(版本11.0)、半经验量子化学方法AM1哈密尔顿和EPISuite(版本4.0,US-EPA)计算而来,其独立预测能力较低此外,因为模型在特征选择和建模方法采用逐步线性回归(SLR)上有明显缺陷。由于化学毒性和相关特征之间的关系通常是非线性的,构建线性模型从而显得不合逻辑。所以目前的酚类似物毒性QSAR研究仍面临诸多不解。因此,基于高维特征数据、非线性特征筛选和非线性建模的模型一定会为设计新的化学品提供更有用信息。考虑到特征矩阵的高维性,如果从中非线性选择最有用的子集特征用于建模变得越来越重要。为选择更合理的QSAR回归特征,我们采用两类基于支持向量回归(SVR)自行开发的方法:多轮末尾汰选(WDEM)和高维特征快速非线性汰选(HDSN)方法。为构建可靠的QSAR模型,我们采用非线性是SVR方法。SVR是一类基于结构风险最小化原则的机器学习方法,它能克服小样本问题、过拟合、维数灾和局部极小的难题,广泛应用于非线性建模的QASR研究中。
技术实现思路
为了解决上述技术问题,本专利技术提供一种酚对发光菌毒性预测及评估的非线性高效模型的构建方法及应用,利用非线性SVR技术对源自现有技术的18个酚类化合物对发光菌的毒性(表示为logEC50)进行QSAR研究。这项工作的目的是基于低维特征数据和高维特征数据,通过非线性化学计量学工具寻找更合理的特征和更可靠的QSAR模型,并详细分析与毒性相关的最有价值模型及其最关键的分子特征。本专利技术将为设计对发光菌毒性增强或减弱的酚类似物提供有效的理论参考。具体技术方案为:一种酚对发光菌毒性预测及评估的非线性高效模型的构建方法,1)构建信息全面的数据集:包括因变量[LogEC50(expt.)]、高维自变量、低维自变量(logKow、μ和q-)、高维自变量通过PCLIENT软件计算而来;2)特征的非线性筛选:高维数据利用高维特征快速非线性汰选HDSN方法筛选特征,将高维数据变成低维数据,低维数据进一步利用多轮末尾汰选WDEM方法筛选特征,最后保留的特征用来建模;3)非线性模型的构建和评估:基于包含关键特征的低维数据集和非线性的SVR方法,构建出20个高预测精度的非线性评估模型,SVR2模型(MSE=0.005;特征数目=10)最优,由于SVR缺乏解释性,我们基于实验室自主开发的SVR解释性体系,对最优的SVR2模型进行了一系列分析,结果显示SVR2模型具有显著的非线性(F-测验=65.963;p=5.363E-04),该模型中的10个特征及其效应如下:PJI2(差异显著)、MATS3v(差异显著)、H1p(差异显著)、Mor02v(差异显著)、Mor14p(差异显著)、Mor02u(差异显著)、RDF040v(差异显著)、Mor23v(差异显著)、BELv3(差异不明显)和MATS1m(差异显著)。本专利技术所述酚对发光菌毒性预测及评估的非线性高效模型在预测未知化合物的毒性中的应用。我们根据实验化合物的取代基规律虚拟了13个酚类似物。根据前面的介绍进行特征提取和活性预测,演示了整个模型推广应用的流程。本专利技术的有益效果:本专利技术所述技术方案预测精度均优于现有模型精度,其中推广能力最好的模型SVR1(高维特征删选后的数据+优化SVR)比现有模型(现有技术数据+SLR)在MSE指标上降低了97.107%、在指标上提升了102.925%,甚至比改进的现有模型(现有技术数据+优化SVR)也在MSE指标上降低了95.315%、在指标上提升了44.365%;即使推广能力最差的模型SVR20(高维特征删选后的数据+优化SVR)比现有模型(现有技术数据+SLR)在MSE指标上降低了43.219%、在指标上提升了45.818%,甚至比改进的现有模型(现有技术数据+优化SVR)也在MSE指标上降低了8.053%、在指标上提升了3.737%。附图说明图1为基于现有技术数据的QSAR模型在内部(a)和外部(b)预测能力的比较;图2为SVR2模型描述符的单因子效应。具体实施方式下面结合附图和具体实施方式对本专利技术的方法作进一步详细地说明。材料和方法数据集根据现有技术报道的18个实验测定的酚类的取代基类型,我们设计了13个虚拟的酚类用于评估。18个实验酚类和13个虚拟酚类列于表1。细菌暴露于被测试的酚(在3%NaCl溶液中)15分钟,由MICROTOX测试仪测定其毒性值。计算EC50值并转换为对数EC50(logEC50,molL-1)用于QSAR研究。收集的18个logEC50实验值[LogEC50(expt.)]介于2.220到5.870之间。为了获得统计学鲁棒的QSAR模型,并比较与SLR和SVR的结果,按现有技术中80:20的比率将表1中的18个实验酚类分成训练集(15个化合物)和测试集(3个化合物)。训练集用来构建QSAR模型并验证其内部预测能力,测试集用来验证其外部预测能力。基于构建的QSAR模型,虚拟酚类用于评估理论设计的有效毒性[LogEC50(pred.)]。表118个实验酚类和13个虚拟酚类化合物毒性a测试集.b通过SVR2模型得到的预测毒性.分子描述符低维现有技术数据:为了比较非线性SVR技术在18个酚类的QSAR低维描述符建模上的预测能力,3个现有技术描述符[辛醇/水分配系数的对数(logKow),偶极矩(μ)和最负原子电荷(q-)]用于发展模型。低维描述符数的计算涉及以下步骤:用ChemDrawUltra(版本11.0)构建酚类结构,然后使用MOPAC软件(版本6.0)中的半经验量子化学方法AM1哈密顿优化分子结构,产生能量最小化的构象,得到14个常用的理化描述符(包括1个疏水性的,9个电子的,2个热力学的和两个空间性能的描述符)。采用SLR分析找出对化学品毒性而言最重要的描述符。高维现有技术数据:为了利用更有效的结构信息来开发出更好的QSAR模型,31个酚类化合物的高维描述符通过PCLIENT软件(http://www.vcclab.org/lab/pclient/)计算,并分成24组。该软件能免费并快速地为每一个提交的化合物计算约3000个描述符。高维描述符的计算过程包括以下步骤:使用JME编辑器绘本文档来自技高网...

【技术保护点】
一种酚对发光菌毒性预测及评估的新型非线性高效模型的构建方法,其特征在于,1)构建信息全面的数据集:包括因变量Log?EC50?(expt.)、高维自变量、低维因变量log?Kow、μ和q?、高维自变量通过PCLIENT软件计算而来;2)特征的非线性筛选:高维数据利用HDSN方法筛选特征,将高维数据变成低维数据,低维数据进一步利用WDEM方法筛选特征,最后保留的特征用来建模;3)非线性模型的构建和评估:基于包含关键特征的低维数据集和非线性的SVR方法,构建出20个高预测精度的非线性评估模型,?SVR2模型MSE=0.017;=0.921;特征数目=10最优,所述模型中的10个特征及其效应如下:PJI2差异显著,?MATS3v差异显著,?H1p差异显著,?Mor02v差异显著,?Mor14p差异显著,?Mor02u差异显著,?RDF040v差异显著,?Mor23v差异显著和MATS1m差异。FDA0000271919191.jpg
【技术特征摘要】
1.一种酚对发光菌毒性预测及评估的非线性高效模型的构建方法,其特征在于,1)构建信息全面的数据集:包括因变量LogEC50(expt.)、高维自变量、低维因变量logKOW、μ、q-、高维自变量通过PCLIENT软件计算而来;2)特征的非线性筛选:高维数据利用高维特征快速非线性汰选HDSN方法筛选特征,将高维数据变成低维数据,低维数据进一步利用多轮末尾汰选WDEM方法筛选特征,最后保留的特征用来建模;3)非线性模型的构建和评估:基于包含关键特征的低维数据集和非线性的SVR方法,构建出20个高预测精度的非线性评估模型,SVR2模型MSE=0.005;特征数目=10最优,所述模型中的10个特征及其效应如下:PJI2为二维Petitjean形状指数,差异显著;MATS3v为Mora...
【专利技术属性】
技术研发人员:周玮,袁哲明,吴树波,代志军,陈渊,韩娜,
申请(专利权)人:湖南农业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。