当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于工作流的振动光谱分析模型优化方法技术

技术编号:20273135 阅读:38 留言:0更新日期:2019-02-02 03:53
本发明专利技术公开了一种基于工作流的振动光谱分析模型优化方法。初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,将预处理方法和多元分析方法进行排列组合得方法组合;计算各个方法组合下的超参数和对应的超参数空间组合;将训练集分别输入到各个方法组合,优化计算确定方法组合的最优超参数;将训练集分别输入训练得到模型参数,由此获得各个组合模型;将测试集输入各个组合模型,计算各个组合模型的评价参数,选出最优模型。本发明专利技术建立了工作流程,避免了繁琐的人工操作和主观判断,更充分地利用了并行计算资源,提供了传统光谱分析软件不具备的新的系统模型优化方式。

【技术实现步骤摘要】
一种基于工作流的振动光谱分析模型优化方法
本专利技术涉及光谱分析领域的一种模型优化处理方法,尤其是涉及了一种基于工作流的振动光谱分析模型优化方法。
技术介绍
现代光谱分析技术因其方便快捷、低成本、无污染等优势逐渐成为农业、医药、石油等产业的产品无损检测主流技术之一。由于各类生物系统的复杂性与差异性,振动光谱往往含有许多噪声成分,其所提供的信息往往不能被直观地观察到,因此需要使用各类多元分析方法搭配合适的预处理技术对光谱数据进行建模分析。不同的多元分析方法分别适用于不同类别的光谱数据和预测指标,各类预处理技术也具有这样的特点。在实际生产中,往往需要利用多个算法构成组合模型,并对其超参数进行优化选择,才能找到合适的建模方法。而庞大的超参数范围和算法间的高耦合度导致模型的优化难度大大提升,需要消耗大量的人力和计算资源才能找到最佳模型。同时,随着光谱采集手段的进步,用于研究分析的光谱数据量增加迅速,海量的数据对模型的构建提出了新的挑战。传统的基于特定领域背景知识,人为反复试验优化超参数的方法由于效率较低,且由于存在较强的主观性可能难以选到最优超参数,已逐渐无法适应针对大量光谱数据的高效建模和优化的需求。目前已有的各类光谱分析软件能够利用特定的分析方法快速建模,但没有提供模型的超参数优化和多个模型之间的性能比较的方便高效的工作流程。因此,特别需要开发一种针对振动光谱分析的模型优化的工作流程。
技术实现思路
针对振动光谱分析的模型超参数优化和多模型性能比较过于繁琐,缺乏系统的工作流程的问题,本专利技术的目的在于设计提供一种基于工作流的振动光谱分析模型优化方法,通过交叉验证和网格搜索来提供高效的工作流程。本专利技术的目的是通过以下技术方案来实现的:所述振动光谱分析模型包括预处理方法和多元分析方法,振动光谱分析模型是主要由预处理方法和多元分析方法的两个步骤依次实施构成,针对振动光谱分析模型采用以下步骤进行优化处理获得最优的振动光谱分析模型:振动光谱分析模型中,输入的原始光谱数据先通过预处理方法进行基线校正、散射校正、平滑滤波和归一化等操作,再利用一种或多种多元分析方法对预处理方法后的光谱数据进行建模分析输出结果。对于定性分析,采用分类算法作为多元分析方法建模分析输出预测标签;对于定量分析,采用回归算法作为多元分析方法建模分析输出预测值。步骤1):初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,振动光谱分析模型的优化对象包括所要优化和比较的预处理方法、各个预处理方法需要优化的超参数及其对应的超参数空间、所要优化和比较的多元分析方法、各个多元分析方法需要优化的超参数及其对应的超参数空间;步骤2):将所述步骤1)中的各个预处理方法和各个多元分析方法进行排列组合,获得所有可能的方法组合;选取所有预处理方法中的一种或者多种或者不选,再结合上多元分析方法中的一种或多种。步骤3):根据所述步骤2)获得的所有可能的方法组合和所述步骤1)中各个预处理方法需要优化的超参数及其对应的超参数空间与各个多元分析方法需要优化的超参数及其对应的超参数空间,计算各个方法组合下的超参数和对应的超参数空间组合;步骤4):将输入的振动光谱数据划分为训练集和测试集;步骤5):将训练集的振动光谱数据分别输入到各个方法组合,根据步骤1)确定的评价参数,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数;步骤6):将训练集的振动光谱数据分别输入步骤5)获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型;步骤7):将测试集的振动光谱数据分别输入步骤6)中的各个组合模型,根据步骤1)确定的评价参数计算各个组合模型的评价参数,作为组合模型的模型性能,选出评价参数最优的组合模型作为最优模型。本专利技术的振动光谱数据可以来源于用于鉴别红酒类别或质量的红酒近红外光谱、用于测定药物片剂中活性物质的药片近红外光谱和用于鉴别细菌类别的细菌表面增强拉曼散射光谱等。所述步骤5)中,具体为:针对每个方法组合,采用交叉验证和网格搜索相结合的方式搜索每个方法组合的最优超参数:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空间内各取的一个数值相组合形成一个超参数组合作为网格中的交叉点,每一个交叉点代表了一个超参数组合,由此获得所有超参数组合,对网格中的每一个交叉点进行遍历,通过交叉验证方式计算每一个交叉点的估测值,作为每一个超参数组合下对应的模型性能,然后从网格中选取估测值最佳的交叉点,以该交叉点的超参数组合作为方法组合的最优超参数;上述通过交叉验证方式计算每一个交叉点的估测值,具体为:将训练集分割成多个子样本,子样本的总个数为N;取一个单独的子样本作为验证子样本,其余的N-1个子样本作为训练子样本,将训练子样本输入到每个超参数组合下对应的模型中进行训练,用验证子样本进行验证;按照上述方式以每个子样本取出作为验证子样本进行交叉验证重复N次,每次训练后采用验证子样本验证一次获得验证结果,取N次的验证结果的平均值作为估测值,表征每一个超参数组合下对应的模型性能。本专利技术具体是由步骤3)中各个方法组合需要优化的超参数对应的超参数空间组合采用网格搜索方法建立需要搜索的网格,利用交叉验证方式对网格搜索方法所建立的网格进行处理计算,这样的特殊处理方式能够准确获得方法组合的最优超参数。所述步骤1)中,所述的评价参数在定性分析的振动光谱分析模型中为准确率α,所述的评价参数在定量分析的振动光谱分析模型中为均方根误差RMSE,计算公式如下:其中,n是振动光谱数据中样本数据的总数,nt是定性分析中分类正确的样本数,是定量分析中样本数据的预测值,yi是定量分析中样本数据的真实值。所述步骤4)中,振动光谱数据训练集和测试集的划分方式为随机划分,训练集和测试集的比例为4:1。每一种方法组合都要按顺序执行步骤5)、步骤6)和步骤7),针对不同的方法组合并行进行步骤5)、步骤6)和步骤7)的步骤,不同的方法组合所对应构建的振动光谱分析模型的超参数优化、模型参数训练和评价参数均同时进行。所述步骤7)中选择最优模型的方法是选择评价参数最好的模型,在定性分析中是选择准确率最高的组合模型,在定量分析中是选择均方根误差最小的组合模型。所述的预处理方法包括用于基线校正的非对称最小二乘(asymmetricleastsquares,ALS)、用于移除散射影响的标准正态变换(standardnormalvariate,SNV)、用于去除高频噪声达到平滑效果的Savitzky-Golay滤波(Savitzky-Golayfilter,SGF)、用于使得特征中心对称的平均中心化(meancentering,MC)等等。所述的多元分析方法包括偏最小二乘(partialleastsquares,PLS)、主成分分析(principlecomponentanalysis,PCA)、线性判别分析(lineardiscriminantanalysis,LDA)、Logistic回归(logisticregression,LogR)等等。本本文档来自技高网...

【技术保护点】
1.一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述振动光谱分析模型是主要由预处理方法和多元分析方法的两个步骤依次实施构成,针对振动光谱分析模型采用以下步骤进行优化处理:步骤1):初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,振动光谱分析模型的优化对象包括所要优化和比较的预处理方法、各个预处理方法需要优化的超参数及其对应的超参数空间、所要优化和比较的多元分析方法、各个多元分析方法需要优化的超参数及其对应的超参数空间;步骤2):将所述步骤1)中的各个预处理方法和各个多元分析方法进行排列组合,获得所有可能的方法组合;步骤3):根据所述步骤2)获得的所有可能的方法组合和所述步骤1)中各个预处理方法需要优化的超参数及其对应的超参数空间与各个多元分析方法需要优化的超参数及其对应的超参数空间,计算各个方法组合下的超参数和对应的超参数空间组合;步骤4):将输入的振动光谱数据划分为训练集和测试集;步骤5):将训练集的振动光谱数据分别输入到各个方法组合,根据步骤1)确定的评价参数,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数;步骤6):将训练集的振动光谱数据分别输入步骤5)获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型;步骤7):将测试集的振动光谱数据分别输入步骤6)中的各个组合模型,计算各个组合模型的评价参数,选出评价参数最优的组合模型作为最优模型。...

【技术特征摘要】
1.一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述振动光谱分析模型是主要由预处理方法和多元分析方法的两个步骤依次实施构成,针对振动光谱分析模型采用以下步骤进行优化处理:步骤1):初始化确定振动光谱分析模型的评价参数和振动光谱分析模型的优化对象,振动光谱分析模型的优化对象包括所要优化和比较的预处理方法、各个预处理方法需要优化的超参数及其对应的超参数空间、所要优化和比较的多元分析方法、各个多元分析方法需要优化的超参数及其对应的超参数空间;步骤2):将所述步骤1)中的各个预处理方法和各个多元分析方法进行排列组合,获得所有可能的方法组合;步骤3):根据所述步骤2)获得的所有可能的方法组合和所述步骤1)中各个预处理方法需要优化的超参数及其对应的超参数空间与各个多元分析方法需要优化的超参数及其对应的超参数空间,计算各个方法组合下的超参数和对应的超参数空间组合;步骤4):将输入的振动光谱数据划分为训练集和测试集;步骤5):将训练集的振动光谱数据分别输入到各个方法组合,根据步骤1)确定的评价参数,在方法组合下的超参数空间内对各个方法组合的超参数进行优化计算,确定方法组合的最优超参数;步骤6):将训练集的振动光谱数据分别输入步骤5)获得的各个方法组合的最优超参数所对应建立的振动光谱分析模型进行训练,得到各个振动光谱分析模型的模型参数,由此获得各个组合模型;步骤7):将测试集的振动光谱数据分别输入步骤6)中的各个组合模型,计算各个组合模型的评价参数,选出评价参数最优的组合模型作为最优模型。2.根据权利要求1所述的一种基于工作流的振动光谱分析模型优化方法,其特征在于:所述步骤5)具体为:针对每个方法组合,采用交叉验证和网格搜索相结合的方式搜索每个方法组合的最优超参数:针对方法组合下所有超参数的超参数空间建立多维立体网格,每个超参数的超参数空间是离散的数值的集合,一个超参数对应一个维度,由所有不同超参数的超参数空...

【专利技术属性】
技术研发人员:林涛徐金凡应义斌
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1