一种复合型机器学习模型用于环境化合物对鱼类毒性的预测方法技术

技术编号：41223087 阅读：4 留言：0更新日期：2024-05-09 23:42

本发明专利技术公开了一种复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，获取已知是否对鱼类有毒的样本化合物数据；基于样本化合物数据中的LC50值绘制logLC50值分布图，并根据logLC50值确定毒性有无的分界点；根据分界点将样本化合物数据中的化合物分类为有毒和无毒；将样本化合物数据中化合物的SMILES编码转换为相应的指纹信息；以指纹信息描述样本化合物数据中的化合物，并以对鱼类有无毒性作为标签对样本化合物数据中的化合物进行标注，以更新样本化合物数据；通过更新后的样本化合物数据对机器学习模型进行训练，得到化合物对鱼类毒性预测模型；以预测模型对待预测化合物的毒性进行预测。通过投票法，最终确定待测化合物是否对鱼类有毒。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种复合型机器学习模型用于环境化合物对鱼类毒性的预测方法。

技术介绍

1、化学品在生产、储存、运输、应用和废弃物处理中难以避免其释放到人们生活的环境中，对环境和人类健康的潜在风险，因此需要加强毒性测试和管理措施，传统的毒性测试的实验不仅耗费大量的时间和金钱成本，而且对动物及其不友好。2019年美国环境保护署(epa)考虑到动物实验不仅存在很多道德和伦理问题，而且动物实验对环境也会造成一定的影响，故此逐步减少动物实验并于2035年禁止在化学测试中使用动物进行研究。

2、自2000年来，人工智能不断发展，在环境风险评估领域展现出了巨大的潜力和应用前景。定量构效关系(qsar,)是化学和药物学中一项非常重要的研究方法，根据化合物结构定量/定性的预测化合物的活性。早在20世纪60年代，科学家开始引入计算模型和神经网络等先进技术，提供更多确定且可靠的定量构效模型。有鉴于此，本专利技术的主要目的在于提供一种化合物对鱼类的毒性预测的机器学习方法，以便能准确快捷的判断化合物对鱼类是否有毒性，能做出更快更好的环境风险评估。

技术实现思路

1、本专利技术是为了解决上述现有技术存在的问题而提供一种化合物对鱼类的毒性预测方法。

2、本专利技术所采用的技术方案有：

3、一种复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，包括如下步骤：

4、s1)获取已知是否对鱼类有毒的样本化合物数据，其中，所述样本化合物数据包括化合物的smiles编码和lc50值；

5、s2)基于所述样本化合物数据中的lc50值绘制loglc50值分布图，并根据所述loglc50值确定化合物对鱼类毒性有无的分界点；

6、s3)根据所述分界点将样本化合物数据中的化合物分类为化合物对鱼类有毒和化合物对鱼类无毒；

7、s4)将所述样本化合物数据中化合物的smiles编码转换为相应的分子指纹信息；

8、s5)以所述分子指纹信息描述样本化合物数据中的化合物，并以对鱼类有毒和对鱼类无毒作为标签对所述样本化合物数据中的化合物进行标注，以更新所述样本化合物数据；

9、s6)通过更新后的样本化合物数据对机器学习模型进行训练，得到化合物对鱼类的毒性预测模型，通过评价指标对模型进行评估，保留综合性能最好的5个预测模型；

10、s7)将待预测化合物转换为smiles编码，并转换为相应的分子指纹信息；

11、s8)将所述待预测化合物对应的分子指纹信息输入至s6)中所留综合性能最好的5个预测模型，以得到5个待预测化合物对鱼类的毒性的预测结果，以5种机器学习模型的预测结果对化合物的毒性进行投票，如果在5种预测结果中，有3种及以上预测结果表明待测化合物对鱼类有毒，则判定待测化合物对鱼类有毒；反之，有3种及以上预测结果表明待测化合物对鱼类无毒，则判定待测化合物对鱼类无毒。

12、进一步地，所述分子指纹信息为ecfp指纹、maccs指纹、pubchem指纹、cdk扩展指纹、cdk指纹、estate指纹、graph指纹、sub指纹、kr指纹、ap2d指纹、weave分子描述符或者graphconv分子描述符。

13、进一步地，s6)中机器学习模型为：knn模型、rf模型、lr模型、ann模型、svm模型、nb模型、weave模型以及gcn模型。

14、进一步地，s6)中所述评价指标为：accuracy、precision、recall、f1值以及auc。

15、进一步地，s6)中，保留综合性能最好的5个预测模型是基于f1值和auc的平均数作为标准进行排序；通过模型预测结果统计出的真阳性tp、真阴性tn、假阳性fp、假阴性fn的数量计算出accuracy、precision、recall、f1的值，其公式如下：

16、

17、

18、

19、

20、本专利技术具有如下有益效果：

21、第一，该专利技术提高了毒性检测效率及节省了成本。传统的毒性检测通常需要进行动物实验，而该专利技术通过不需要动物实验的方式来评估化合物的毒性。所以，并不需要进行大量的动物实验，从而可以减少金钱成本的投入，避免了毒性检测中的二次污染，而且还大幅度减少时间成本。此外，该专利技术还可以将训练好的模型重复使用，进一步提高毒性预测效率，为化合物风险评估、环境生态保护、药物设计、食品安全等领域提供了便利和高效性。

22、第二，提高了预测质量。本专利技术不是通过单一的模型去预测化合物的毒性，也不是通过多种机器学习方法取其中一种性能较好的模型对化合物毒性预测，而是建立了多种机器学习模型，从其中选出综合性能最好的5个模型对化合物的毒性进行判定，最终以投票法，少数服从多数原则，判定出化合物是否有毒。此方法一定程度上避免了训练过拟合的情况，提高了预测的质量。

本文档来自技高网...

【技术保护点】

1.一种复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，其特征在于：包括如下步骤：

2.如权利要求1所述的复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，其特征在于：所述分子指纹信息为ECFP指纹、MACCS指纹、PubChem指纹、CDK扩展指纹、CDK指纹、Estate指纹、Graph指纹、Sub指纹、KR指纹、AP2D指纹、Weave分子描述符或者GraphConv分子描述符。

3.如权利要求1所述的复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，其特征在于：S6)中机器学习模型为：KNN模型、RF模型、LR模型、ANN模型、SVM模型、NB模型、Weave模型以及GCN模型。

4.如权利要求3所述的复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，其特征在于：S6)中所述评价指标为：Accuracy、Precision、Recall、F1值以及AUC。

5.如权利要求4所述的复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，其特征在于：S6)中，保留综合性能最好的5个预测模型是基于F1值和AUC的平

...

【技术特征摘要】

1.一种复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，其特征在于：包括如下步骤：

2.如权利要求1所述的复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，其特征在于：所述分子指纹信息为ecfp指纹、maccs指纹、pubchem指纹、cdk扩展指纹、cdk指纹、estate指纹、graph指纹、sub指纹、kr指纹、ap2d指纹、weave分子描述符或者graphconv分子描述符。

3.如权利要求1所述的复合型机器学习模型用于环境化合物对鱼类毒性的预测方法，其特征在于：s6)中机器学习模型为：knn模型、rf模型、lr模型、ann模型、svm...

【专利技术属性】
技术研发人员：陈舟，许志旺，孔韧，何王秋，常珊，
申请(专利权)人：江苏理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人