一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法技术

技术编号:39069412 阅读:21 留言:0更新日期:2023-10-12 20:01
本发明专利技术公开了一种基于机器学习结合拉曼光谱的磺胺嘧啶水体环境中的定量分析方法,旨在提供了一种简易的机器学习算法来定量水体中微量的磺胺嘧啶;本发明专利技术数据集较易获得,建立的定量方法拟合程度较好,可达到痕量检测并预测磺胺嘧啶浓度的目的;本发明专利技术包括以下步骤:标注测得磺胺嘧啶的拉曼光谱浓度的数据标签,拉曼光谱数据预处理、归一化;建立了一个基于梯度提升决策树(GBDT)的机器学习回归预测模型;该模型实现了在江水和废水中的微量磺胺嘧啶的浓度预测,也获得了较高的拟合优度;通过测试不同浓度和多种背景下的磺胺嘧啶的拉曼光谱数据,建立一个与浓度相关的拉曼光谱数据集;将数据导入机器学习模型中,通过调试机器学习模型中的参数,达到磺胺嘧啶的拉曼光谱的微量分析与预测;涉及机器学习与拉曼光谱数据分析领域。据分析领域。据分析领域。

【技术实现步骤摘要】
一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法


[0001]本专利涉及拉曼光谱数据分析领域,尤其涉及一种基于机器学习的抗生素药物的拉曼光谱数据的磺胺类药物的定量分析方法。

技术介绍

[0002]拉曼光谱(Raman spectroscopy,RS)是一种间接测量样品内部振动状态的光谱方法。拉曼光谱仪广泛应用于分析化学、生命科学、材料科学和环境科学。拉曼光谱可以用于分析环境中的污染物。例如,可以使用拉曼光谱来研究空气中的颗粒物、水中的有机物等。拉曼光谱信号中含有丰富的分子指纹信息,需要结合数据统计方法对锋位、峰值和谱带光谱特征进行分析,进而识别探测的物质属性。然而,拉曼光谱信息中常常伴有强荧光背景噪声和外界环境干扰信息,同时,由于不同拉曼光谱检测设备性能问题,探测的同类型物质拉曼光谱信息具有一定的差异性,因此,对物质拉曼光谱数据分析具有一定的影响,降低了物质识别的准确度。因此,拉曼光谱分析具有挑战性,需要基于机器学习的化学计量模型进行分析。机器学习在拉曼光谱数据的预处理和建模方面表现优秀;机器学习模型能够对拉曼光谱特征信息进行分析,分析影响模型预测的主要特征,有利于光谱数据的挖掘,并且能应用于各种类型的拉曼光谱数据。

技术实现思路

[0003]本专利技术的目的一是解决由于同类型物质拉曼光谱数据具有差异性造成的拉曼光谱识别准确率低问题;目的二是解决由于环境干扰造成的物质拉曼光谱识别准确率低问题;
[0004]目的三解决低浓度下拉曼光谱定量能力差的问题。
[0005]基于以上三个目的,本专利技术提供一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法。
[0006]为此,本专利技术提供的技术方案是这样的:
[0007]一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,依次包括下述步骤:
[0008]1)采集各种环境条件下磺胺嘧啶拉曼光谱数据,测定不同浓度和各种环境条件下的水中的磺嘧啶的拉曼光谱数据,分析其峰位置、峰强度、谱带空间位置的特征信息,建立不同浓度和各种环境条件下的磺胺类药物拉曼光谱数据集;
[0009]2)对测试的物质拉曼光谱进行平滑和去基线,使用Savitzky

Golay滤波拟合法提高光谱的平滑性,使用airPLS进行基线校正;
[0010]3)根据分析的磺胺嘧啶的拉曼光谱信息,标注拉曼光谱数据浓度数据标签,采用数据增强方法增加对应物质拉曼光谱数据样本量和数据多样性,将建立的拉曼光谱数据集划分训练集、验证集与测试集;使用训练集训练该分类模型,使用验证集对模型的超参数进行调整;使用测试集测试该模型性能。
[0011]4)构建基于GBDT算法的机器学习模型,在该模型中提取拉曼光谱的主要特征信息,根据提取的特征进行特征分析,分析影响模型预测的重要特征;利用训练集训练GBDT模型,验证集对训练网络进行评估与调参;使用测试集测试GBDT模型性能,并输出物质拉曼光谱分析结果。
[0012]进一步的,上述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,步骤2)采用下述程序实现的:
[0013][0014][0015]进一步的,上述的一种基于机器学习和拉曼光谱的磺胺嘧啶定量分析方法,所述的采用数据采集方法为:(1)在溶液中设置浓度梯度测试拉曼光谱;(2)采集了各种环境条件下的磺胺嘧啶拉曼光谱数据。
[0016]进一步的,上述的一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法,所述的采用数据增强方法具体如下:
[0017]1)合成表面增强拉曼光谱的基底,设置抗生素药物的浓度梯度为:0.5mg/L,0.45mg/L,0.4mg/L,0.35mg/L,0.3mg/L,0.25mg/L,0.2mg/L,0.15mg/L,0.1mg/L,0.08mg/L,0.06mg/L,0.04mg/L,0.02mg/L,0.01mg/L,0.05mg/L,0.01mg/L,0.005mg/L的磺胺嘧啶溶液,采集其拉曼光谱作为数据集的一部分。
[0018]2)采集的各种环境条件下的磺胺嘧啶拉曼光谱数据包括珠江江水中的磺胺嘧啶拉曼光谱数据和珠江啤酒废水厂中的磺胺嘧啶拉曼光谱数据。
[0019]进一步的,上述的一种基于机器学习和拉曼光谱的磺胺嘧啶的磺胺嘧啶的定量分析方法,步骤4)具体为:
[0020]1)构建的关于浓度的磺胺嘧啶拉曼光谱数据分析模型主要采用了GBDT算法作为回归预测模型,在该回归模型中,使用了特征重要性分析,分析了对磺胺嘧啶浓度预测影响最大的20个重要特征;
[0021]2)使用GBDT机器学习模型预测磺胺嘧啶的浓度时,每一轮的迭代时对每个样本都会有一个预测值,此时的损失函数为均方差损失函数:
[0022][0023]损失函数的负梯度计算如下:
[0024][0025]y
i
代表真实值,代表预测值;
[0026]初始化弱学习器:
[0027][0028]对m=1,2,...,M有:
[0029]对每个样本i=1,2,...,M,计算负梯度,即残差
[0030][0031]将上一步得到的残差作为样本新的真实值,并将数据(x
i
,r
im
),i=1,2,...N作为下棵树的训练数据,得到一颗新的回归数f
m
(x),其对应的叶子节点区域为R
jm
,j=1,2,...J。其中J为回归树的叶子节点的个数。
[0032]对叶子区域j=1,2,...J计算最佳拟合值
[0033][0034]更新强学习器
[0035][0036]得到最终学习器
[0037][0038]3)按照一维数据尺寸设置输入数据集(1879,1231),将数据输入回归模型。
[0039]进一步的,上述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法,90%的数据用于训练模型,获取最优的模型表现性能的参数,剩下的10%的数据用于测试模型的预测效果,并通过得到的决定系数(R2),均方根误差(RMSE)和平均绝对误差(MAE)来评估模型在测试集上的预测性能。
[0040]进一步的,上述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法,步骤4)的具体方法为模型训练开始前,需设置本实例模型训练超参数,包括学习率、采样样本数、弱分类器的个数等参量。通过10折交叉验证集获取最佳参数组合,之后通过最佳参数组合预测环境中磺胺嘧啶的浓度并评估模型的预测性能。
[0041]与现有技术相比,本专利技术提供的技术方案具有如下技术优点:
[0042]1、本专利技术所建立的不同环境下磺胺嘧啶多种浓度的拉曼光谱数据集为磺胺嘧啶浓度数据集的获取的空白提供一些支持信息。
[0043]2、本专利技术无需对去除基线和滤波后的拉曼光谱数据进行归一化处理,其可直接用于训练本专利技术的机器学习模型。
[0044]3、本专利技术预测的抗生素药物的浓度达到了水环境中抗生素药物的浓度,为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,其特征在于,依次包括下述步骤:1)采集各种环境条件下磺胺嘧啶拉曼光谱数据,测定不同浓度和各种环境条件下的水中的磺嘧啶的拉曼光谱数据,分析其峰位置、峰强度、谱带空间位置的特征信息,建立不同浓度和各种环境条件下的磺胺类药物拉曼光谱数据集;2)对测试的物质拉曼光谱进行平滑和去基线,使用Savitzky

Golay滤波拟合法提高光谱的平滑性,使用airPLS进行基线校正;3)根据分析的磺胺嘧啶的拉曼光谱信息,标注拉曼光谱数据浓度,将建立的拉曼光谱数据集划分训练集、验证集与测试集;使用训练集训练该回归模型,使用验证集对模型的超参数进行调整;使用测试集测试该模型性能;4)构建基于GBDT算法的机器学习回归模型,在该模型中,利用机器学习算法,提取拉曼光谱的主要特征信息,根据提取的特征进行基于磺胺类药物的拉曼光谱浓度的回归;5)使用GBDT机器学习回归模型,在验证集上对训练模型进行评估与调参;6)使用测试集测试GBDT模型性能,并输出磺胺嘧啶的拉曼光谱分析结果。2.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,其特征在于,步骤2)采用下述程序实现的:
3.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,其特征在于,所述的采集磺胺嘧啶拉曼光谱数据的方法为:(1)在溶液中设置浓度梯度测试拉曼光谱;(2)采集了各种环境条件下的磺胺嘧啶拉曼光谱数据。4.根据权利要求3所述的一种基于机器学习和拉曼光谱的磺胺类药物的定量分析方法,其特征在于,所述的采用数据的方法具体如下:1)合成表面增强拉曼光谱的基底,设置磺胺嘧啶的浓度梯度为:0.5mg/L,0.45mg/L,0.4mg/L,0.35mg/L,0.3mg/L,0.25mg/L,0.2mg/L,0.15mg/L,0.1mg/L,0.08mg/L,0.06mg/L,0.04mg/L,0.02mg/L,0.01mg/L,0.05mg/L,0.01mg/L,0.005m...

【专利技术属性】
技术研发人员:周丽华曾慧袁勇
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1