一种预测神经毒物短期暴露致死效应的集成学习方法技术

技术编号:37398932 阅读:12 留言:0更新日期:2023-04-30 09:27
本发明专利技术公开一种预测神经毒物短期暴露致死效应的集成学习方法。本发明专利技术建立了涵盖不同测试动物和多种暴露途径的异源数据集,涉及多种毒性机制。本发明专利技术突破了传统机器学习建模中仅考虑分子结构特征,忽略了生物暴露特征的研究范式,综合考虑不同测试动物和多种暴露途径并将其进行独热编码,耦合分子结构特征,开发了基于硬投票组合的集成学习预测模型。本发明专利技术建立的神经毒物短期暴露致死效应预测模型具有较高的内部稳健性和外部预测能力,且具有明确的应用域,操作简便,可节省实验测试的时间、成本和动物数量;可作为高效预测神经毒物短期暴露致死效应的有利工具,为化学品的人体健康风险评价和管理提供基础的毒性数据。风险评价和管理提供基础的毒性数据。风险评价和管理提供基础的毒性数据。

【技术实现步骤摘要】
一种预测神经毒物短期暴露致死效应的集成学习方法


[0001]本专利技术属于面向化学品健康风险评价和管理的计算毒理学
,涉及一种基于定量构效关系(QSAR)和集成学习高通量预测神经毒物短期暴露致死效应的方法。

技术介绍

[0002]神经毒物是任何可能引起神经毒性的化学、生物或物理物质。全世界已报告了数百种以上神经毒物引起的试验动物中毒事件。这些神经毒物的毒性机制涉及乙酰胆碱酯酶的抑制和肾上腺素能受体阻断等,导致试验动物中枢和周围神经系统相关的严重并发症,如厌食、抽搐、骨骼麻痹、共济失调、震颤、翻正反射消失和死亡。短期暴露致死效应是化学品健康风险评价和管理的核心内容之一,可通过化学品暴露后试验动物的半数致死剂量(LD
50
)进行评估。神经毒物数量众多,关于它们的短期暴露致死效应在很大程度上仍然未知,而且实验测试结果参差不齐。鉴于神经毒物对健康的有害影响,有必要在相同的方法下、在其进入到环境前对短期暴露致死效应进行预测。
[0003]经济合作与发展组织(OECD)发布的相关导则(OECD导则424)是啮齿动物神经毒性研究测试指南,可用于急性神经毒性研究。该指南要求在每个实验观察期间评估动物可能受神经毒物影响的一系列行为,死亡是关键的观察指标之一。但这种实验测试方法昂贵又耗时,而且有违动物伦理,难以实现对数量众多的神经毒物的短期暴露致死效应进行一一评定,需要发展高通量的定量预测技术。基于QSAR建立神经毒物分子结构特征与其诱发的短期暴露致死效应之间的关联,可实现神经毒物短期暴露致死效应的高效预测,节省时间、降低成本且减少实验测试所需的动物数量。
[0004]传统线性的QSAR因不能处理分子结构特征和短期暴露致死效应之间的非线性关系,难以满足预测需求。近年来,快速发展的机器学习算法因具有数据自适应特性,能为分析高阶、高维和非线性关系数据提供优越的性能,而被应用于挖掘分子结构特征与短期暴露致死效应间的内在关联。集成学习可通过将多个机器学习算法进行结合,获得比单一机器学习算法显著优越的泛化性能,有望在神经毒物短期暴露致死效应定量预测方面发挥积极作用,实现神经毒物短期暴露致死效应数据空缺的高效填补。
[0005]目前,已有一些研究构建了神经毒物短期暴露致死效应(毒性终点值为LD
50
)的QSAR预测模型。文献1“Chemical Research in Toxicology,2006,19(2):209

216.”考虑了38种有机磷化合物雄性大鼠经口短期暴露的致死效应,这些化合物的毒性机制主要包括乙酰胆碱酯酶的抑制。文献1基于吸收、分布、代谢和排泄过程等描述符,构建了预测有机磷化合物短期暴露致死效应的QSAR模型,留一法交叉验证系数为0.82。文献2“Toxicology Research,2020,9(3):164

172.”基于ChemIDplus数据库中收集的422种有机化合物自主神经系统毒性数据,使用PyBioMed描述符构建了小鼠腹腔注射短期暴露致死效应的极端树回归模型,外部验证系数为0.784。此外,文献3“Environmental Science&Technology,2022,56(1):335

348.”收集了美国环保署农药计划办公室农药生态毒性数据库和文献中的128种化合物对多种鸟类毒性的数据,这些化合物的毒性机制涉及乙酰胆碱酯酶的抑制。文献3
采用11种二维描述符,构建了用于预测农药对鸟类急性经口毒性的QSAR模型,其中对于美洲鹌鹑的毒性预测模型外部验证系数为0.648。综上,上述模型虽然都属于神经毒物短期暴露致死效应的预测模型,但是均采用传统统计学方法或单一机器学习算法建模,模型的稳健性和预测能力均有待提高;且所考虑的生物暴露途径单一,导致模型应用范围局限在特定暴露条件下的毒性预测;再者,这些模型的数据集包含的神经毒物结构多样性较小,导致模型应用域小。具体地,文献1建模数据集小,包含的化合物不具多样性,仅涉及38种有机磷化合物雄性大鼠经口短期暴露致死效应,预测模型应用范围窄,且未进行明确的应用域表征。文献2虽然具有较大的数据集,但仅涵盖小鼠腹腔注射暴露的致死效应;文献3虽然考虑了多个测试动物的实验数据,但仅涉及鸟类的经口暴露毒性。文献2和3都不能用于多种生物和暴露途径的神经毒物毒性效应预测。因此,有必要突破单一算法建模的研究范式,基于不同测试动物和多种暴露途径的异源数据集,研发神经毒物短期暴露致死效应的集成学习模型。
[0006]基于上述原因,从PubChem数据库中收集并整理出574条涵盖不同测试动物和多种暴露途径的高维度、多样性的神经毒物短期暴露致死效应数据。将不同测试动物和多种暴露途径的实验信息进行独热编码,耦合计算获得的分子结构特征的化学信息,共同作为建模特征,将三种不同的机器学习算法作为基回归器,采用硬投票的策略,构建了预测神经毒物短期暴露致死效应的集成学习模型,并表征了模型的应用域。

技术实现思路

[0007]本专利技术构建了一种高效、低成本预测神经毒物短期暴露致死效应的集成学习方法,该方法可直接根据神经毒物分子结构计算的分子特征及指定的生物暴露途径对短期暴露致死效应进行定量预测。该方法基于种类多样的神经毒物,突破了传统机器学习建模中仅考虑分子结构特征,忽略了生物暴露特征的研究范式,综合考虑不同测试动物和多种暴露途径并将其进行独热编码,耦合分子结构特征,开发了基于硬投票策略的集成学习预测模型。本专利技术建立的模型具有较高的内部稳健性和外部预测能力,操作简便,可节省实验测试的时间、成本和动物数量;可作为高效预测神经毒物短期暴露致死效应的有利工具,为化学品的人体健康风险评价和管理提供基础的毒性数据。
[0008]本专利技术的技术方案:
[0009]一种预测神经毒物短期暴露致死效应的集成学习方法,步骤如下:
[0010](1)神经毒物短期暴露致死效应数据集构建
[0011]从PubChem数据库收集并整理神经毒物的短期暴露致死效应数据,其中涵盖了大鼠和小鼠两种啮齿动物,以及腹腔注射、静脉注射、经口注射和皮下注射四种暴露途径,共计574条毒性测试数据;将短期暴露致死效应终点值(LD
50
,mg/kg)转换为摩尔浓度(mol/kg),然后转换为负对数(pLD
50
);毒性机制涉及α肾上腺素能受体阻断、β肾上腺素能受体阻断、神经节阻滞、乙酰胆碱酯酶抑制等;所收集的神经毒物属于农药、抗精神失常药物、染料和橡胶助剂中间体等,包括有机酸、醚、酯、酮、醇、酰胺、苯胺、多环芳烃及其取代物、卤代烷烃、卤代烯烃、杂环化合物及其衍生物等,不包括无机化合物、有机金属化合物、混合物(主要为大分子盐类化合物);
[0012](2)神经毒物分子结构特征和生物暴露特征表示
[0013]基于PubChemPy批量获取574条神经毒物的PubChem CID及其对应的2D结构,以SDF格式文件保存;将SDF文件输入至PaDEL...

【技术保护点】

【技术特征摘要】
1.一种预测神经毒物短期暴露致死效应的集成学习方法,其特征在于,步骤如下:(1)构建神经毒物短期暴露致死效应数据集从PubChem数据库中收集并整理神经毒物的短期暴露致死效应数据,毒性终点值为半数致死剂量LD
50
,将其转换为摩尔浓度,然后转换为负对数pLD
50
;数据集涵盖了大鼠和小鼠两种测试动物,以及腹腔注射、静脉注射、经口注射和皮下注射四种暴露途径,共计574条毒性测试数据;该数据集包括多种毒性作用机制,具体为α肾上腺素能受体阻断、β肾上腺素能受体阻断、神经节阻滞、乙酰胆碱酯酶抑制;神经毒物包括有机酸、醚、酯、酮、醇、酰胺、苯胺、多环芳烃及其取代物、卤代烷烃、卤代烯烃、杂环化合物及其衍生物;(2)神经毒物分子结构特征和生物暴露特征表示基于PubChem数据库批量获取574条神经毒物的PubChem CID及其对应的2D结构;采用PaDEL

Descriptor软件计算分子1D和2D结构特征;对两种测试动物和四种暴露途径进行独热编码;预处理过程包括先去除方差为0和再去除皮尔逊相关系数大于0.9的特征,采用递归特征消除法进行特征筛选;(3)模型训练将神经毒物的1D和2D分子结构特征与不同测试动物和多种暴露途径实验特征耦合,作为模型的特征输入,pLD
50
值作为模型的预测终点,构建机器学习回归模型;将数据集按4:1的比例随机拆分为训练集和验证集,采取十折交叉验证进行内部验证,验证集用于模型的外部验证;采用四种机器学习算法,即K近邻、支持向量机、随机森林和梯度提升决策树分别构建模型,将模型性能最优的三种算法作为基回归器,采取硬投票的策略构建集成学习模型,硬投票策略中各个基回归器的权重相同;通过网格搜索确定机器学习算法的最佳超参数,基于最佳超参数构建集成学习模型;以下为模型优化的超参数,K近邻的最佳超参数:邻近点数为4,权重函数为distance;支持向量机的最佳超...

【专利技术属性】
技术研发人员:李雪花李瑞香张梦晴韩佩凌陈景文
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1