当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于深度学习的定量光谱数据分析处理方法技术

技术编号:20624860 阅读:22 留言:0更新日期:2019-03-20 15:29
本发明专利技术公开了一种基于深度学习的定量光谱数据分析处理方法。本发明专利技术不需要对数据进行预处理,能够从原始光谱数据中学习到有效信息和背景信息,提高定量光谱分析的准确度。本发明专利技术通过三个卷积层提取光谱数据中的高维特征,在第二层采用1×1的卷积核,能够降维和减少计算量,并且在第三个卷积层采用三种不同大小的卷积核,能够从原始光谱数据中学习到隐含在光谱数据中的不同大小的特征。本发明专利技术没有对数据做预处理,可以直接处理原始数据,当测试集光谱与训练集的光谱噪声分布不同时,本发明专利技术的泛化能力较高。

A Method of Quantitative Spectral Data Analysis and Processing Based on Deep Learning

The invention discloses a quantitative spectral data analysis and processing method based on in-depth learning. The invention does not need to preprocess the data, can learn effective information and background information from the original spectral data, and improves the accuracy of quantitative spectral analysis. The invention extracts high-dimensional features from spectral data by three convolution layers, uses 1 *1 convolution core in the second layer, reduces dimensionality and reduces computation, and uses three convolution cores of different sizes in the third convolution layer, which can learn different sizes of features hidden in spectral data from original spectral data. The invention does not pre-process the data and can directly process the original data. When the spectrum noise distribution of the test set is different from that of the training set, the generalization ability of the invention is high.

【技术实现步骤摘要】
一种基于深度学习的定量光谱数据分析处理方法
本专利技术属于光谱分析领域,具体涉及了一种基于深度学习的定量光谱数据分析处理方法。
技术介绍
化学计量学的发展促进了光谱分析在农产品、药品、石油和土壤等领域的应用,目前已经被广泛应用于红外光谱和拉曼光谱的定性与定量分析中。传统的化学计量学数据分析过程包括光谱预处理和建立校正模型两个步骤。光谱预处理主要用于去除光谱数据中的噪声,提高模型的预测精度。一方面,光谱预处理主要有基线校正、散射校正、平滑和归一化等四个步骤,每个步骤又有不同的数据处理方法,通过试错法选择预处理方法的组合会增加建模过程的复杂度,耗费更多时间。另一方面,光谱数据的采集环境、采集仪器或者样本来源发生变化时,数据中的噪声分布也会随之发生变化。原有的预处理方法应用于新的数据时不能有效去除噪声并且会引入新的噪声,致使模型的预测效果变差。深度学习是一种数据驱动的学习方式,模型可以从原始数据中自动学习到数据中蕴藏的低维特征和高维特征。传统的人工神经网络在进行光谱数据分析时,往往需要先用主成分分析等方法进行降维,而且人工神经网络由于参数量较多容易出现过拟合现象。卷积神经网络具有局部连接、权值共享等特点可以充分提取数据中的局部特征并且防止过拟合。现有的卷积神经网络模型仍然需要进行光谱预处理,或者只是作为一种特征提取方法。Acquarelli等人提出了一种一层的卷积神经网络定性分析模型,但是该模型仍然是在经过预处理后的光谱数据上效果较好(J.Acquarelli.,T.v.,Laarhoven,J.,Gerretzen,T.N.,Tran,L.M.C.,Buydens,E.,Marchiori,ConvolutionalNeuralNetworksforVibrationalSpectroscopicDataAnalysis,2017)。Malek等人提出了一种卷积神经网络的定量分析模型,但是在该模型中卷积神经网络被用于特征提取,提取的特征后在回归模型中进行训练(S.,Malek,F.,Melgani,Y.,Bazi,One-dimensionalconvolutionalneuralnetworksforspectroscopicsignalregression,2017)。
技术实现思路
为了弥补现有的化学计量学建模方法的不足,本专利技术提出了一种基于深度学习的定量光谱数据分析处理方法。本专利技术方法是一种数据驱动的建模方法,不需要数据预处理,可以在不从原始光谱数据中去除背景噪声的情况下,通过不同大小的卷积核提取不同大小的特征,输出预测结果,提高预测的准确度。如图1所示,本专利技术所采用的技术方案是:步骤1):构建一维卷积神经网络模型,并且优化计算获得模型的超参数;步骤2):用样品已知预测值的光谱数据输入到卷积神经网络模型中,采用Adam优化方法结合反向传播方法训练获得模型的权重,经过多轮训练后得到一个最优模型,获得训练后的模型;步骤3):将样品未知预测值的光谱数据输入到训练后的模型,输出获得光谱数据的预测值结果。现有的光谱数据均是进行数据预处理,去除背景信息,然后利用有效信息采用偏最小二乘(PLS)、人工神经网络(ANN)等方法建立校正模型。而本专利技术建立特殊结构的卷积神经网络模型,直接对未去除背景信息的完整的原始光谱数据进行处理,获得了很好的检测精度。本专利技术样本是包括土壤、动物饲料和谷物等。一条光谱曲线对应一份土壤或者一份动物饲料样品或者一份谷物样品。所述的步骤1)中,具体为:1.1)如图2所示,卷积神经网络模型主要由输入层、卷积层1、卷积层2、卷积层3、拉伸层、全连接层和输出层依次连接构成;输入层中输入原始的全波段光谱曲线;第一个卷积层包含一个卷积模块,使用8个卷积核,所有卷积核大小相同;第二个卷积层采用两个卷积模块和一个池化模块的三个并列的模块,第一个卷积层的输出分别输入到两个卷积模块和一个池化模块中,每个卷积模块使用一种卷积核,两个卷积模块的卷积核不同,每个卷积模块均含有4个1×1×8的卷积核,池化模块中含有4个并列的最大池化结构;第三个卷积层采用四个卷积模块,四个卷积模块分别使用四种不同的卷积核,第一个卷积模块包含四个1×1×8的第一种卷积核,第二个卷积模块包含四个p×1×4的第二种卷积核,第三个卷积模块包含四个q×1×4的第三种卷积核,第四个卷积模块包含四个1×1×4的第四种卷积核,p和q分别表示第二种卷积核和第三种卷积核的长度,其中第一种卷积核的输出输入到第三个卷积层的第一个卷积模块,第二个卷积层的两个卷积模块和一个池化模块分别输入到第三个卷积层的后三个卷积模块中;拉伸层进行将第三个卷积层的输出拉伸成一维特征向量的操作;所述卷积神经网络模型的目标函数loss由均方误差和第二范数正则化函数组成:其中,λ目标函数的正则化系数,w是模型的权重;1.2)采用随机网格搜索方法优化卷积层的卷积核大小和步长,包括第一层卷积层的卷积核的大小和步长,第三层卷积层的两个卷积核的大小和步长,第二层卷积层的卷积核大小和步长为固定值;具体是采用随机网格搜索方法在以下超参数搜索空间内搜索卷积层中的超参数,采用五折交叉验证选择获得一组由超参数构成的最优超参数组合;上述三个卷积层中不同卷积核的大小和步长的范围如下:第一层卷积层中的卷积核大小范围是2-19,卷积核步长范围是2-9;第二层卷积层中的第一种卷积核长度设定为1,第一种卷积核步长设定为1,第二层卷积层中的第二种卷积核长度设定为1,第二种卷积核步长设定为1;第三层卷积层中的第一种卷积核长度设定为1,第三层卷积层中的第二种卷积核长度p大小范围是2-5,第二层卷积层中的第三种卷积核长度q大小范围是6-9,第三个卷积层中四种卷积核步长范围2-9。模型的三个卷积层和全连接层的激活函数为LeakyReLU函数,模型的输出层不具有激活函数。输出层的最后一层神经元个数为1。所述步骤2)中,将样品已知参考值的光谱数据输入到卷积神经网络模型中采用Adam方法结合反向传播算方法训练获得模型的权重,训练轮数为5000轮。所述步骤3)中,通过模型输出预测每一条光谱曲线对应的预测值。预测值例如可以为土壤的有机碳含量,动物饲料的蛋白质含量、谷物样品的蛋白质含量等。具体实施中,将所有数据分为训练集和测试集,用训练集进行模型训练,将训练好的模型保存,并将测试集的原始光谱数据输入到训练好的模型中进行预测。对于模型效果评价,输出测试集R2和RMSEP。本专利技术的有益效果是:本专利技术不需要对数据进行预处理,能够学习到隐含在数据中的有效光谱信息和背景信息,提高定量光谱分析的准确度。本专利技术通过三个卷积层提取光谱数据中的高维特征,并且在第三个卷积层采用三种不同大小的卷积核,能够从原始光谱数据中学习到隐含在光谱数据中的不同大小的特征。本专利技术没有对数据做预处理,可以直接处理原始数据,当测试集光谱与训练集的光谱噪声分布不同时,本专利技术的泛化能力较高。附图说明图1为本专利技术的建模流程图;图2为模型的定量分析结构图。具体实施方式为更好理解本专利技术,下面结合实施例对本专利技术做进一步详细说明,但本专利技术要求保护的范围并不局限于实施例表示的范围。以下进行的实施例,在Python软件上运行。下面结合附图和实施例对本专利技术做进一步说明。实施例:本实施例本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的定量光谱数据分析处理方法,其特征在于方法包含如下步骤:步骤1):构建一维卷积神经网络模型,并且优化计算获得模型的超参数;步骤2):用样品已知预测值的光谱数据输入到卷积神经网络模型中,训练获得模型的权重,经过多轮训练后得到一个最优模型,获得训练后的模型;步骤3):将样品未知预测值的光谱数据输入到训练后的模型,输出获得光谱数据的预测值结果。

【技术特征摘要】
1.一种基于深度学习的定量光谱数据分析处理方法,其特征在于方法包含如下步骤:步骤1):构建一维卷积神经网络模型,并且优化计算获得模型的超参数;步骤2):用样品已知预测值的光谱数据输入到卷积神经网络模型中,训练获得模型的权重,经过多轮训练后得到一个最优模型,获得训练后的模型;步骤3):将样品未知预测值的光谱数据输入到训练后的模型,输出获得光谱数据的预测值结果。2.根据权利要求1所述的一种基于深度学习的定量光谱数据分析处理方法,其特征在于:所述的步骤1)中,具体为:1.1)卷积神经网络模型主要由输入层、卷积层(1)、卷积层(2)、卷积层(3)、拉伸层、全连接层和输出层依次连接构成;输入层中输入原始的全波段光谱曲线;第一个卷积层包含一个卷积模块,使用8个卷积核,所有卷积核大小相同;第二个卷积层采用两个卷积模块和一个池化模块的三个并列的模块,第一个卷积层的输出分别输入到两个卷积模块和一个池化模块中,每个卷积模块使用一种卷积核,两个卷积模块的卷积核不同,每个卷积模块均含有4个1×1×8的卷积核,池化模块中含有4个并列的最大池化结构;第三个卷积层采用四个卷积模块,四个卷积模块分别使用四种不同的卷积核,第一个卷积模块包含四个1×1×8的第一种卷积核,第二个卷积模块包含四个p×1×4的第二种卷积核,第三个卷积模块包含四个q×1×4的第三种卷积核,第四个卷积模块包含四个1×1×4的第四种卷积核,p和q分别表示第二种卷积核和第三种卷积核的长度,其中第一种卷积核的输出输入到第三个卷积层的第一个卷积模块,第二个卷积层的两个卷积模块和一个池化模块分别输入到第三个卷积层的后三个卷积模块中;拉伸层进行将第三个卷积层的输出拉...

【专利技术属性】
技术研发人员:林涛张晓蕾应义斌
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1