当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于谱图分析的有机物生物毒性预测方法及系统技术方案

技术编号:32530759 阅读:11 留言:0更新日期:2022-03-05 11:24
本发明专利技术公开了一种基于谱图分析的有机物生物毒性预测方法,包括以下步骤:通过生物毒性实验获取有机物的生物毒性数据;通过质谱数据获取模块获取有机物谱图数据中的质谱数据;将质谱数据进行预处理,得到预处理质谱数据;提取有机物谱图数据中的谱图信息,通过谱图信息构建机器学习模型;利用五折交叉验证获取机器学习模型的最佳模型参数,进而得到最佳机器学习模型;通过最佳机器学习模型处理质谱数据,提取特征,并输出生物毒性的预测结果;本发明专利技术直接从谱图数据中提取能够量化关联有机物毒性的特征信息,从而不需要提前获得分子的组成和结构信息,也不需要复杂地计算分子描述符,在建模过程中进行了内、外部验证考察模型的预测能力和稳健性。的预测能力和稳健性。的预测能力和稳健性。

【技术实现步骤摘要】
一种基于谱图分析的有机物生物毒性预测方法及系统


[0001]本专利技术涉及机器学习辅助有机化合物毒性预测的研究领域,特别涉及一种基于谱图分析的有机物生物毒性预测方法及系统。

技术介绍

[0002]关于有机化合物生物毒性对于全面评估其可使用性极为重要。化合物的生物毒性可以帮助分析其在人体内的代谢过程、可药用性或与之相关的潜在危险等。自2006年以来,欧洲化学品注册、评估、授权和限制条例(REACH)要求在开始生产和贸易之前对化合物的水生物毒性进行强制性初步评估。毒性是一种复杂的由不同生物机制共同实现的特殊性质。在生物上进行有机化合物毒性测试实验不仅成本高昂,受制于实验环境和研究人员技术水平的差异,结果往往具有不稳定性。为了应对这一挑战,迫切需要一种简单快速,成本可控的化合物毒性评估方法。
[0003]随着计算机计算能力在硬件层面的不断突破与进步,各类以机器学习和深度学习为代表的人工智能算法也在不断地更新换代,算法模型的预测能力也得到了飞速的进步,可以更准确地根据现有的数据构建出模型来预测位置事物的性质。最近十几年,人工智能已经被广泛地应用于人脸识别,自动驾驶,辅助医疗,用户行为预测,药物设计等诸多领域。在化学信息学领域,人工智能也被用于化合物的性质预测,辅助化合物设计和检测。近些年来,已经有诸多研究人员利用化合物的各种性质构建模型,用于预测化合物的生物毒性,取得了不错的实验结果。但是这些模型的构建需要事先知道化合物的具体结构,而在很多情况下(如复杂环境中的污染物、代谢产物等),化合物结构难以确定。为此,亟需开发无需化合物结构的预测模型。

技术实现思路

[0004]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于谱图分析的有机物生物毒性预测方法及系统,根据谱图的坐标数据和XGBoost方法,构建机器学习模型,直接从谱图数据中提取能够量化关联有机物毒性的特征信息,从而不需要提前获得分子的组成和结构信息,也不需要复杂地计算分子描述符。在建模过程中进行了内、外部验证考察模型的预测能力和稳健性。
[0005]本专利技术的第一目的在于提供一种基于谱图分析的有机物生物毒性预测方法。
[0006]本专利技术的第二目的在于提供一种基于谱图分析的有机物生物毒性预测系统。
[0007]本专利技术的第一目的通过以下的技术方案实现:
[0008]一种基于谱图分析的有机物生物毒性预测方法,包括以下步骤:
[0009]通过生物实验获取化合物的生物毒性数据,并用于构建模型和评估预测结果,所述生物毒性数据包括毒性值和毒性分类情况;
[0010]通过质谱数据获取模块获取化合物谱图数据中的质谱数字数据;
[0011]将质谱数字数据进行预处理,得到预处理质谱数字数据;
[0012]将预处理质谱数字数据导入机器学习算法,构建机器学习模型;
[0013]使用不同参数值通过五折交叉验证进行多次预测,并在对比后选择最佳参数组合得到最佳机器学习模型;
[0014]向最佳机器学习模型输入插值处理后的谱图数据,通过最佳机器学习模型学习并提取谱图中与生物毒性相关的信息,输出生物毒性预测结果。
[0015]进一步地,所述通过质谱数据获取模块获取化合物谱图数据中的质谱数字数据,具体为:通过标准谱图库查询和实验检测的方法获得有机物谱图数据中的质谱数字数据,从中提取质谱的横坐标及其对应的纵坐标值,所述横坐标为质荷比,所述纵坐标为相对丰度。
[0016]进一步地,所述将质谱数字数据进行预处理,具体为:将所有的有机物谱图数据的横坐标统一,并进行插值处理;所述插值处理为,填充原化合物的质谱数字数据中不存在的横坐标对应的纵坐标。
[0017]进一步地,所述横坐标需要获取包括训练集有机物谱图和预测有机物谱图在内的所有质谱图的最大质荷比和最小质荷比,并以从最小质荷比用整数1作为步长到最大质荷比的一系列整数作为所有谱图的公共横坐标;所述纵坐标需按照获得的公共横坐标对所有有机物的谱图进行插值处理,用0值填补对应的纵坐标的缺失值,使每一个谱图在公共横坐标下的纵坐标值不存在缺失。
[0018]进一步地,还包括对预处理质谱数据进行标准化处理,具体为:对每一个公共横坐标值对应的一组所有化合物的纵坐标值,通过减去该纵坐标值的均值再除以该纵坐标值的标准差获得一组新的纵坐标值。
[0019]进一步地,将处理后的质谱数字数据导入机器学习算法,构建机器学习模型,具体为:将预处理得到的值以化合物种类作为纵向目录,公共横坐标为横向目录组成的二维数组作为特征数据,和以有机物的毒性值或毒性分类作为标签数据输入机器学习模型进行训练。
[0020]进一步地,使用不同参数值通过五折交叉验证进行多次预测,并在对比后选择最佳参数组合得到最佳机器学习模型,具体为:依次对不同模型参数的不同参数值范围通过五折交叉验证多次预测获取对应的评分,记录下评分最佳的参数值,使用评分最佳的参数值重新构建一个参数组合最佳的机器学习模型用于后续预测。
[0021]进一步地,向最佳机器学习模型输入插值处理后的谱图数据,通过最佳机器学习模型学习并提取谱图中与生物毒性相关的信息,输出生物毒性预测结果,具体为:向最佳机器学习模型输入插值处理后的谱图数据,让模型学习训练集数据并提取谱图中与生物毒性相关的信息,最后输出生物毒性的预测值或者类别。
[0022]本专利技术的第二目的通过以下技术方案实现:
[0023]一种基于谱图分析的有机物生物毒性预测系统,包括:
[0024]生物毒性数据模块,用于通过生物毒性实验获取化合物的生物毒性数据;
[0025]质谱数据获取模块,用于获取化合物谱图数据中的质谱数据;
[0026]预处理模块,用于将质谱数据进行预处理,得到预处理质谱数据;
[0027]谱图信息提取模块,用于提取有机物谱图数据中的谱图信息;
[0028]模型构建及训练模块,用于通过谱图信息构建机器学习模型,通过五折交叉验证
获取机器学习模型的最佳模型参数,进而得到最佳机器学习模型;
[0029]生物毒性预测模块,通过最佳机器学习模型预测化合物质谱的生物毒性;
[0030]预测结果输出模块,用于输出生物毒性的预测结果。
[0031]本专利技术与现有技术相比,具有如下优点和有益效果:
[0032]1、本专利技术所构建模型可以用于预测多种有机化合物的生物毒性。该方法简便快捷、成本低廉,其流程简单,无计算化学基础的研究人员也可方便使用。
[0033]2、本专利技术所使用的方法不仅可以预测结构已知且有质谱数据的化合物的毒性,还可以预测组成结构未知但已测得质谱数据的化合物的毒性数据。
[0034]3、本专利技术模型的构建采用XGBoost方法,该方法为机器学习模型中比较优秀的模型,可以自动从谱图数据中提取特征信息,而无需复杂的化合物描述符计算。
[0035]4、所构建模型经过五折交叉验证和参数优化调整,具有更强的稳定性和更好的预测能力,可以用于指导有机化合物设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于谱图分析的有机物生物毒性预测方法,其特征在于,包括以下步骤:通过生物实验获取化合物的生物毒性数据,并用于构建模型和评估预测结果,所述生物毒性数据包括毒性值和毒性分类情况;通过质谱数据获取模块获取化合物谱图数据中的质谱数字数据;将质谱数字数据进行预处理,得到预处理质谱数字数据;将预处理质谱数字数据导入机器学习算法,构建机器学习模型;使用不同参数值通过五折交叉验证进行多次预测,并在对比后选择最佳参数组合得到最佳机器学习模型;向最佳机器学习模型输入插值处理后的谱图数据,通过最佳机器学习模型学习并提取谱图中与生物毒性相关的信息,输出生物毒性预测结果。2.根据权利要求1所述的一种基于谱图分析的有机物生物毒性预测方法,其特征在于,所述通过质谱数据获取模块获取化合物谱图数据中的质谱数字数据,具体为:通过标准谱图库查询和实验检测的方法获得有机物谱图数据中的质谱数字数据,从中提取质谱的横坐标及其对应的纵坐标值,所述横坐标为质荷比,所述纵坐标为相对丰度。3.根据权利要求1所述的一种基于谱图分析的有机物生物毒性预测方法,其特征在于,所述将质谱数字数据进行预处理,具体为:将所有的有机物谱图数据的横坐标统一,并进行插值处理;所述插值处理为,填充原化合物的质谱数字数据中不存在的横坐标对应的纵坐标。4.根据权利要求3所述的一种基于谱图分析的有机物生物毒性预测方法,其特征在于,所述横坐标需要获取包括训练集有机物谱图和预测有机物谱图在内的所有质谱图的最大质荷比和最小质荷比,并以从最小质荷比用整数1作为步长到最大质荷比的一系列整数作为所有谱图的公共横坐标;所述纵坐标需按照获得的公共横坐标对所有有机物的谱图进行插值处理,用0值填补对应的纵坐标的缺失值,使每一个谱图在公共横坐标下的纵坐标值不存在缺失。5.根据权利要求4所述的一种基于谱图分析的有机物生物毒性预测方法,其特征在于,还包括对预处理质谱数据进行标准化处理,具体为:对每一个公共横坐标值对应...

【专利技术属性】
技术研发人员:闫希亮胡松刘国红颜嘉晨周宏钰周小霞闫兵
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1