当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于小波变换和随机森林模型的色谱重叠峰解析方法技术

技术编号:19901437 阅读:35 留言:0更新日期:2018-12-26 02:20
本发明专利技术公开了一种基于小波变换和随机森林模型的色谱重叠峰解析方法,按照不同参数模拟生成多个色谱重叠峰信号;对各重叠峰信号,使用gaus1小波进行小波变换模拟其一阶导数;利用模拟一阶导数曲线求取原色谱重叠峰信号的四个曲线拐点;按一定比例分成训练集和测试集;四个拐点的横纵坐标作为输入、子峰面积比作为输出,在训练集中使用交叉验证的方式,确定模型的最优参数;按照最优参数,构建随机森林模型并有监督地进行训练;使用测试集验证模型效果;使用同样的方法对实际重叠峰信号进行拐点检测,并利用训练好的模型对其子峰面积比例进行拟合计算。本发明专利技术提高了解析结果的准确率,具有模型收敛速度快、参数调节简单、训练效率高的优点。

【技术实现步骤摘要】
一种基于小波变换和随机森林模型的色谱重叠峰解析方法
本专利技术涉及信号处理领域,特别涉及一种基于小波变换和随机森林模型的色谱重叠峰解析方法。
技术介绍
色谱法(chromatography)又称色谱分析法、层析法,是一种研究和解决混合物分离的技术。在色谱分析中,对实验所用样品进行定性定量分析是最关键的一步。在色谱曲线中,每一个色谱峰对应着不同的成分,并且每一种物质的成分可以由色谱峰的面积计算得到。但在复杂物质的解析过程中,经常会有色谱峰重叠的情况发生,而给色谱分析带来一些困难。因此,重叠峰的分辨对色谱的定性定量分析具有很大的影响。在实际应用中,往往利用一些数学方法对色谱仪器得到的色谱重叠峰进行处理和计算,得到重叠峰中各子峰面积的估计值从而进行进一步的分析。目前,用于重叠峰分解的方法有很多,例如几何法、傅里叶变换、导数方法,小波变换、神经网络法等方法。其中,传统的傅里叶变换和导数等方法对噪声敏感,降低了信噪比而不利于定性定量分析;几何法包括垂线法和切线法,它们原理简单、计算速度较快,但是对一些重叠峰分解的精度可能会出现较大误差;曲线拟合法实现过程和运算都比较复杂,难以实现色谱曲线实时处理,在实际的应用中有一定的局限性;小波变换方法虽然运算简单,运用广泛,但容易引起变换后曲线的基线漂移,造成重构后的信号不准确;而神经网络法利用了其较强的非线性映射能力计算子峰面积比,但其数学模型较为复杂,网络结构选择不一,只能凭借经验选取,并且神经网络算法的计算量大,求解网络的收敛速度也较慢。
技术实现思路
本专利技术目的是提供一种受噪声影响小,模型结构简单,运算速度快,结果准确可被广泛使用的重叠峰解析方法。本专利技术公开了一种基于小波变换和随机森林模型的色谱重叠峰解析方法,包括以下步骤:步骤1、按照不同的子峰参数,模拟生成色谱重叠峰信号,并计算其子峰面积比;步骤2、对生成的色谱重叠峰信号,使用gaus1函数作为母小波进行连续小波变换,得到近似导数曲线;步骤3、使用近似导数曲线,求取色谱重叠峰信号的四个拐点,得到拐点的横纵坐标集合;步骤4、对坐标集合,随机划分为训练集和测试集;步骤5、使用训练集,以每一组坐标集合为输入,对应的子峰面积比为输出,使用交叉验证的方式,确定随机森林模型最优参数;步骤6、使用最优参数,构建随机森林模型并使用训练集有监督地对模型进行训练,构建用于重叠峰解析的模型;步骤7、使用步骤3中的测试集评价模型效果;步骤8、使用步骤2、步骤3中方法,对实际的重叠峰信号进行拐点检测,得到其拐点横纵坐标;步骤9、使用步骤6中训练好的模型,对步骤8中得到的拐点坐标进行拟合,确定其重叠峰子峰面积比。步骤1中生成色谱重叠峰信号的具体方法为:(1a)色谱峰数学模型:使用高斯函数拟合色谱峰信号,表达式为:其中,t为峰信号采样时间,h(t)为峰信号在时间t时的强度,H为色谱峰信号的最大值,T为峰的保留时间,σ为峰拐点距离峰保留时间的距离;若色谱峰不对称,则当t<T,σ=σa,当t>T时,σ=σb;σa+σb、σa/σb分别代表了一个色谱峰的宽度和它的不对称度;(1b)重叠峰模型:按照(1a)所述,对于一个由两个色谱峰叠加而形成的重叠峰,即可以用H1、T1、σ1a、σ1b、H2、T2、σ2a、σ2b八个参数来唯一确定,选取不同的参数,即可以模拟出若干组不同情况下的色谱重叠峰信号;(1c)子峰面积比计算:定义某一重叠峰的两子峰面积比Q:Q=S1/S2(2)其中S1、S2分别为两子峰面积,Hi为子峰最大强度。步骤(2)中gaus1函数如下:其中,C为调整影子,使||gaus1||2=1。步骤(3)中检测近似导数曲线上的四个极大值点的位置,每个极大值点都对应于原重叠峰信号中的一个拐点。步骤(5)中进行最优参数选择的具体方法:(5a)模型输入输出:以步骤3计算得到的四个拐点横纵坐标值作为输入,以其对应的子峰面积比作为输出;(5b)参数选择:采用10折交叉验证方法对构建子树时的特征数量以及随机森林中的子树数量进行最优选择;(5c)交叉验证方法具体步骤为:①将训练集进一步随机细分为10份;②轮流将其中9份做训练,剩下的1份做测试;③取10次结果的均值作为对算法的精度估计;④使用不同的特征取值进行组合,重复按照①~③步骤计算精度,选取其中最优精度的一组特征参数作为结果。步骤(6)中在子树的构建过程中使用了CART算法。步骤(7)中模型结果评价的具体方法为:(7a)方根误差(rootmeansquarederror):(7b)平均绝对误差(meanabsoluteerror):(7c)可释方差得分(explained_variance_score):(7d)R2决定系数:(7e)训练时间:对模型进行训练所花费的时间。以上各式子中,y和分别代表了实际值和模型计算值,nsample代表了测试集的样本数量,Var代表方差。有益效果:本专利技术与现有技术相比,本专利技术解决了传统方法受噪声影响严重,计算复杂,模型训练速度慢的问题。本专利技术不仅能准确对特征拐点和子峰面积之间进行拟合,在时间上还提升了模型构建和训练的效率,能有效、快速地对色谱重叠峰面积进行解析。附图说明图1为本专利技术中使用高斯函数波形图;图2为本专利技术中使用的两个高斯峰叠加形成的模拟重叠峰图;图3为本专利技术选取尺度为70进行小波变换模拟导数的曲线图(A、B、C、D为四个极大值点);图4为本专利技术的模型构建和训练流程图。具体实施方式下面结合附图和实施例进一步阐述本专利技术。如图4所示的一种基于小波变换和随机森林模型的色谱重叠峰解析方法,包括以下步骤:步骤1、按照不同的子峰参数,模拟生成5000个色谱重叠峰信号,并计算其子峰面积比;使用高斯函数模拟两个色谱重叠峰,并将其叠加在一起,选取不同的参数即可模拟得到不同情况下的色谱重叠峰,具体方法如下:(1a)色谱峰数学模型:使用高斯函数拟合色谱峰信号,如图1所示,表达式为:其中,t为峰信号采样时间,h(t)为峰信号在时间t时的强度,H为色谱峰信号的最大值,T为峰的保留时间,σ为峰拐点距离峰保留时间的距离。若色谱峰不对称,则当t<T,σ=σa,当t>T时,σ=σb。因此σa+σb、σa/σb分别代表了一个色谱峰的宽度和它的不对称度。(1b)重叠峰模型:按照(1a)所述,对于一个由两个色谱峰叠加而形成的重叠峰,即可以用H1、T1、σ1a、σ1b、H2、H2、σ2a、σ2b八个参数来唯一的确定。选取不同的参数,即可以模拟出若干组不同情况下的色谱重叠峰信号。(1c)子峰面积比计算:定义某一重叠峰的两子峰面积比Q:Q=S1/S2(2)其中S1、S2分别为两子峰面积,Hi为子峰最大强度。图2为两个高斯峰叠加形成的模拟重叠峰。步骤2、对生成的色谱重叠峰信号,使用gaus1小波进行连续小波变换,得到近似导数曲线;对重叠峰信号进行小波变换具体方法为:使用gaus1函数作为母小波进行连续小波变换,gaus1函数如下所示:其中,C为调整影子,使||gaus1||2=1。选取的小波变换分解尺度选取范围为5~70,按照实际信号的情况确定。图3为某一重叠峰在不同尺度下小波变换模拟导数的结果。步骤3、使用近似导数曲线,求取色谱重叠峰信号的四个拐点,得到5000组拐点的横纵坐标集合;对重叠峰信号进行拐点检本文档来自技高网...

【技术保护点】
1.一种基于小波变换和随机森林模型的色谱重叠峰解析方法,其特征在于:包括以下步骤:步骤1、按照不同的子峰参数,模拟生成色谱重叠峰信号,并计算其子峰面积比;步骤2、对生成的色谱重叠峰信号,使用gaus1函数作为母小波进行连续小波变换,得到近似导数曲线;步骤3、使用近似导数曲线,求取色谱重叠峰信号的四个拐点,得到拐点的横纵坐标集合;步骤4、对坐标集合,随机划分为训练集和测试集;步骤5、使用训练集,以每一组坐标集合为输入,对应的子峰面积比为输出,使用交叉验证的方式,确定随机森林模型最优参数;步骤6、使用最优参数,构建随机森林模型并使用训练集有监督地对模型进行训练,得到用于进行重叠峰解析的模型;步骤7、使用步骤3中的测试集评价模型拟合效果;步骤8、使用步骤2、步骤3中方法,对实际的重叠峰信号进行拐点检测,得到其拐点横纵坐标;步骤9、使用步骤6中训练好的模型,对步骤8中得到的拐点坐标进行拟合,确定其重叠峰子峰面积比。

【技术特征摘要】
1.一种基于小波变换和随机森林模型的色谱重叠峰解析方法,其特征在于:包括以下步骤:步骤1、按照不同的子峰参数,模拟生成色谱重叠峰信号,并计算其子峰面积比;步骤2、对生成的色谱重叠峰信号,使用gaus1函数作为母小波进行连续小波变换,得到近似导数曲线;步骤3、使用近似导数曲线,求取色谱重叠峰信号的四个拐点,得到拐点的横纵坐标集合;步骤4、对坐标集合,随机划分为训练集和测试集;步骤5、使用训练集,以每一组坐标集合为输入,对应的子峰面积比为输出,使用交叉验证的方式,确定随机森林模型最优参数;步骤6、使用最优参数,构建随机森林模型并使用训练集有监督地对模型进行训练,得到用于进行重叠峰解析的模型;步骤7、使用步骤3中的测试集评价模型拟合效果;步骤8、使用步骤2、步骤3中方法,对实际的重叠峰信号进行拐点检测,得到其拐点横纵坐标;步骤9、使用步骤6中训练好的模型,对步骤8中得到的拐点坐标进行拟合,确定其重叠峰子峰面积比。2.根据权利要求1所述的一种基于小波变换和随机森林模型的色谱重叠峰解析方法,其特征在于:所述步骤1中生成色谱重叠峰信号的具体方法为:(1a)色谱峰数学模型:使用高斯函数拟合色谱峰信号,表达式为:其中,t为峰信号采样时间,h(t)为峰信号在时间t时的强度,H为色谱峰信号的最大值,T为峰的保留时间,σ为峰拐点距离峰保留时间的距离;若色谱峰不对称,则当t<T,σ=σa,当t>T时,σ=σb;σa+σb、σa/σb分别代表了一个色谱峰的宽度和它的不对称度;(1b)重叠峰模型:按照(1a)所述,对于一个由两个色谱峰叠加而形成的重叠峰,即可以用H1、T1、σ1a、σ1b、H2、T2、σ2a、σ2b八个参数来唯一确定,选取不同的参数,即可以模拟出若干组不同情况下的色谱重叠峰信号;(1c)子峰面积比计算:定义某一重叠...

【专利技术属性】
技术研发人员:王爱民张鹏程徐勤
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1