一种基于机器学习的光谱数据回归方法技术

技术编号:20762855 阅读:17 留言:0更新日期:2019-04-03 13:57
本发明专利技术提供了一种基于机器学习的光谱数据回归方法,包括如下步骤:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;超空间中的广义光谱强度定义;校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于0.1%,认为校准模型优化完成;含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度,输入校准模型中,给出待测元素的浓度含量预测值。本发明专利技术对元素浓度的测量精确度、准确度达到定量分析的要求;对检测未知样品的待测元素浓度的计算时间达到工业在线监测的要求。

【技术实现步骤摘要】
一种基于机器学习的光谱数据回归方法
本专利技术属于光谱数据处理领域,尤其涉及到一种基于机器学习的光谱数据回归方法。
技术介绍
目前,在工业生产、环境保护等实际应用相关领域,物质中元素的在线检测和定量分析在工业流程和排放实时监控中的应用需求非常迫切。在这样的应用中,数据采集的实验条件经常不能人为控制且往往比较恶劣,例如利用激光诱导击穿光谱(LIBS)技术在野外作业、检测排污口废气、废液等排放是否达到国家标准、传送带上的产品是否合格等。因此,实际应用中采集到的光谱数据具有较强的波动性,通常源自于两个方面:1)实验条件的不稳定性,比如激光脉冲强度,激光入射样品表面角度,激光聚焦焦点位置与样品表面之间的距离等在测量中的起伏;2)样品的基体效应,比如待测样品的物理特性,化学组份,表面形貌及几何形状等在实验中的差异。目前单从设备硬件优化来克服或减轻上述的由于实验条件的不可控性和样品本身的差异性所引起的测量数据的抖动和起伏已经趋于饱和。在硬件优化已经出现天花板的情况下,通过数据处理对光谱的稳定性和可靠性做进一步的优化似乎成了唯一的方法。对于LIBS光谱数据来讲,目前已经有一些通过数据处理进行分析结果优化的方法,比较普遍的是通过物理模型的免定标法和通过化学计量学的多变量模型分析法。前者,免定标法是在样品的所有元素的谱线强度、所有元素的浓度、等离子体物理参数(例如温度、密度等)之间建立一个依赖的物理模型。模拟中需要使用跃迁几率等误差较大,所需测量的激光诱导等离子体物理参数误差较大,及需对样品中所有元素(主量、微量、恒量)进行归一化,再得到待测元素含量。对待测元素,特别是微量、恒量元素浓度的测量精度一般来说只能局限于10%以上。因此该方法实际运用不多,一般只作为半定量分析手段。后者,多变量模型分析法是利用各种化学计量统计方法,包括多元线性回归、偏最小二乘回归、主成分回归、人工神经网络等。针对具体的分析对象,基于一定的物理和化学过程的解释,建立数学统计模型,通过一定的典型样品来拟合分析获得模型参数,从而进行待测物质的元素定标预测。这种方法通常需要进行有人工干预的光谱预处理,合理提取光谱信息作为输入变量,建立数学模型。这不仅需要较大的计算量,以及专业人员的人工干预。通过人工干预和有关物理、化学信息的提取,其目的偏重于对所使用的化学分析方法中所涉及的物理、化学过程进行研究和优化。在这同时,随着人工智能和大数据算法的发展,基于机器学习的算法正在为解决越来越多的工程问题提供有效的方法,这就为研发新型的光谱数据处理方法,弥补上述两种现有的光谱数据,特别是LIBS光谱数据,处理方法所存在的不足创造了条件。
技术实现思路
本专利技术的目的在于针对现有光谱分析检测技术中存在的不足和缺陷,提供一种基于机器学习的光谱数据回归方法,将大数据和机器学习的方法结合起来,采用人工智能的理念,使用先进的计算机计算手段对光谱数据进行更深层次的挖掘和更高速、更精准的信息提取,从而实现更准、更快、全自动化的光谱分析结果的导出。具体地是指,本专利技术将通过把在线检测所获取的样品的包含有随机的和系统偏差的LIBS光谱数据直接导入训练好的校准模型,最大限度上消除实验条件和样品基体等属性所带来的光谱数据的起伏和不确定性,快速地获得准确、可靠的待测元素浓度。本专利技术是根据以下技术方案实现的:一种基于机器学习的光谱数据回归方法,其特征在于,包括如下步骤:步骤S1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;步骤S2:超空间中的广义光谱强度定义;步骤S3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;步骤S4:校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于10-3即0.1%,认为校准模型优化完成;步骤S5:含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度,输入校准模型中,给出待测元素的浓度含量预测值。上述技术方案中,步骤S1具体包括如下步骤:步骤S101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量其中其中M1为样品信息总数,样品参数信息通过囊括在广义光谱强度里。记录的样品信息向量为其中样品信息向量总数为S,S为正整数,s为大于等于1并小于等于S的整数;步骤S102:浓度系列样品获取或制备,对给定的样品信息向量获取或制备N种一系列的含有待测元素浓度分别为Co1,Co2,…,Con,…CoN的标准样品或实验室参考样品,其中n为大于等于1并小于等于N的整数;步骤S103:实验条件的记录,实验条件包括实验室坏境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益,这些实验条件记录后进行数值化,组成实验条件信息向量其中M2为实验条件信息总数,实验条件信息通过囊括在广义光谱强度里;记录的实验条件信息向量为其中实验条件信息向量总数为K,K为正整数,k为大于等于1并小于等于K的整数;步骤S104:光谱数据的采集,在给定的实验条件信息向量和样品信息向量的浓度系列实验样品中,选取含有待测元素浓度Con的样品进行重复的光谱数据采集,光谱采集重复的总次数为J次,k为大于等于1并小于等于K的整数,n为大于等于1而小于等于N的整数;采集到的光谱强度向量M为原始光谱强度的总数。记录的实验条件信息向量为其中光谱强度向量总数为J,J为正整数,j为大于等于1并小于等于J的整数。上述技术方案中,步骤S2具体包括如下步骤:步骤S201:超空间定义,由光谱强度向量样品信息向量实验条件信息向量三个部分共同构成M+M1+M2维的超空间,每个维度的坐标轴即为im,m=1,2,…M,M+1,…,M+M1,M+M1+1,…,M+M1+M2;步骤S202:广义光谱强度矢量的定义,广义光谱强度矢量由光谱强度向量样品信息向量实验条件信息向量三个部分构成,即在M+M1+M2维的超空间中,广义光谱强度矢量可表示如下:对于给定的n,s,k,j,都对应一个广义光谱强度矢量其中,n对应于待测元素浓度期望值Con,s对应于样品信息向量的序数,k对应于实验条件信息向量的序数,j对应于光谱强度向量的序数;步骤S203:定义广义光谱强度矢量的广义模长,对于在超空间中一给定的广义光谱强度矢量存在一个标量与其对应,被称为其广义模长,矢量的广义模长对应于待测元素浓度期望值Con,映射表示为:上述技术方案中,步骤S3具体包括如下步骤:步骤S301:选定机器学习算法,将选择的算法标记为fs;步骤S302:将格式化的输入矩阵分别输入到选定机器学习算法,通过输入的数据进行训练,其目的使广义模长在数值上等于相应样品的待测元素含量的浓度;算法fs通过默认状态计算出广义光谱强度矢量的广义模长,对应于待测元素浓度的预测值,表示为步骤S303:确定选定算法fs在优化中可改变的参数。上述技术方案中,步骤S4具体包括如下步骤:步骤S401:确定评估算法标准,评估标准为与Con的相对差的平方总和小于10-3即0.1%,即其总体优化的评估标准包括:对给定待测元素浓度、样品、实验条件情况下,降低重复测量之间的误差;对给定待测元素浓度、样品,降低实验条件本文档来自技高网
...

【技术保护点】
1.一种基于机器学习的光谱数据回归方法,其特征在于,包括如下步骤:步骤S1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;步骤S2:超空间中的广义光谱强度定义;步骤S3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;步骤S4:校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于10‑3即0.1%,认为校准模型优化完成;步骤S5:含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度,输入校准模型中,给出待测元素的浓度含量预测值。

【技术特征摘要】
1.一种基于机器学习的光谱数据回归方法,其特征在于,包括如下步骤:步骤S1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;步骤S2:超空间中的广义光谱强度定义;步骤S3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;步骤S4:校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于10-3即0.1%,认为校准模型优化完成;步骤S5:含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度,输入校准模型中,给出待测元素的浓度含量预测值。2.根据权利要求1所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S1具体包括如下步骤:步骤S101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量其中其中M1为样品信息总数,样品参数信息通过囊括在广义光谱强度里。记录的样品信息向量为其中样品信息向量总数为S,S为正整数,s为大于等于1并小于等于S的整数;步骤S102:浓度系列样品获取或制备,对给定的样品信息向量获取或制备N种一系列的含有待测元素浓度分别为Co1,Co2,…,Con,…CoN的标准样品或实验室参考样品,其中n为大于等于1并小于等于N的整数;步骤S103:实验条件的记录,实验条件包括实验室坏境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益,这些实验条件记录后进行数值化,组成实验条件信息向量其中M2为实验条件信息总数,实验条件信息通过囊括在广义光谱强度里;记录的实验条件信息向量为其中实验条件信息向量总数为K,K为正整数,k为大于等于1并小于等于K的整数;步骤S104:光谱数据的采集,在给定的实验条件信息向量和样品信息向量的浓度系列实验样品中,选取含有待测元素浓度Con的样品进行重复的光谱数据采集,光谱采集重复的总次数为J次,k为大于等于1并小于等于K的整数,n为大于等于1而小于等于N的整数;采集到的光谱强度向量M为原始光谱强度的总数;记录的实验条件信息向量为其中光谱强度向量总数为J,J为正整数,j为大于等于1并小于等于J的整数。3.根据权利要求1所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S2具体包括如下步骤:步骤S201:超空间定义,由光谱强度向量样品信息向量实验条件信息向量三个部分共同构成M+M1+M2维的超空间,每个维度的坐标轴即为im,m=1,2,…M,M+1,…,M+M1,M+M1+1,…,M+M1+M2;步骤S202:广义光谱强度矢量的定义,...

【专利技术属性】
技术研发人员:孙琛俞进
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1