当前位置: 首页 > 专利查询>安徽大学专利>正文

基于函数性主元分析的近红外光谱特征提取方法和系统技术方案

技术编号:21602842 阅读:27 留言:0更新日期:2019-07-13 17:21
本发明专利技术涉及一种基于函数性主元分析的近红外光谱特征提取方法,步骤为:S1、采集多种样本中近红外光谱的数据;S2、采用标准正态变换对所述近红外光谱的数据进行预处理;S3、获取处理后近红外光谱数据的样条函数;S4、对所述样条函数进行中心化处理;S5、计算中心化处理后的样条函数在不同波段函数之间的协方差;S6、计算协方差的第j个特征值;S7、计算累计贡献度;S8、计算不同波段的方程中函数形主元得分;本发明专利技术还公开了一种基于函数性主元分析的近红外光谱特征提取系统。本发明专利技术既增强了定标模型的稳健性,又改善了定标模型的预测能力,为近红外光谱数据提供了一种新的特征提取方法,具有很高的实用价值。

Near Infrared Spectrum Feature Extraction Method and System Based on Functional Principal Component Analysis

【技术实现步骤摘要】
基于函数性主元分析的近红外光谱特征提取方法和系统
本专利技术涉及近红外光谱无损分析
,更具体涉及基于函数形主元分析的近红外光谱特征提取方法和系统。
技术介绍
由于近红外光在常规光纤中有良好的传输特性,且其仪器较简单、分析速度快、非破坏性和样品制备量小、几乎适合各类样品(液体、粘稠体、涂层、粉末和固体)分析、多组分多通道同时测定等特点,已广泛应用于包括农牧、食品、化工、石化、制药、烟草等在内的诸多领域,为科研、教学以及生产过程控制提供了一个十分广阔的使用空间。近红外光谱主要是由于分子振动的非谐振性使分子振动从基态向高能级跃迁时产生的,记录的主要是含氢基团X-H(X=C、N、O)振动的倍频和合频吸收。不同团(如:甲基、亚甲基,苯环等)或同一基团在不同化学环境中的近红外吸收波长与强度都有明显差别,近红外光谱具有丰富的结构和组成信息,非常适合用于碳氢有机物质的组成与性质测量,而物质质量参数(如成分含量)也与其组成和结构信息相关,应用化学计量学方法对两者进行关联,就可以确定这两者间的定性或定量关系,即:定标模型,建立定标模型后,只要测出未知样品的近红外光谱,根据定标模型就可以预测样本的质量参数。然而,由于近红外光谱数据具有高维、谱带重叠等特征,给提取样品的关键主元信息带来了一定程度的困难和挑战。如何实现高维空间到低维空间的特征映射关系,从而方便提取样品光谱数据的关键主元信息是亟待解决的技术问题。近年来,为了解决高维光谱数据降维问题,国内外相继出现大量的降维算法,如:主成分分析(PrincipalComponentAnalysis,即PCA)、线性识别分析(lineardiscriminantanalysis,即LDA)、遗传算法(GeneticAlgorithm,即GA)、无信息变量消除法(UniformativeVariableElimination,即UVE)、间隔偏最小二乘法(intervalPartialLeastSquares,即iPLS)、连续投影算法(SuccessiveProjectionsAlgorithm,即SPA)等。上述方法各有特性,但也存在各自的不足,如主成分分析是基于线性统计方法建立的,在解决非线性相关及校正样本分布不均匀的问题时,其结果往往不可靠;遗传算法采用随机进化的方法,其选择、交叉和变异算子往往根据经验,调参过程比较繁琐,此外,其适应度函数选取也非常重要,不同的适应度函数,其结果将会有较大不同。但是,现有技术常用的降维算法仅从光谱数据的本身出发,即光谱数据的离散点出发,实现从高维空间到低维空间的特征映射。实际上,光谱数据的内在结构呈现“函数型”,该“函数型”是连续性的。而现有技术中的降维算法会导致很多潜在特征信息无法被挖掘出来,如:导数、阶次等特征信息。
技术实现思路
本专利技术所要解决的技术问题在于提供基于函数性主元分析的近红外光谱特征提取方法和系统,以解决上述
技术介绍
中现有技术的降维算法无法获取导数、阶次等特征信息的问题。为解决上述技术问题,本专利技术提供如下技术方案:一种基于函数性主元分析的近红外光谱特征提取方法,包括如下步骤:S1、采集多种样本中近红外光谱的数据;S2、采用标准正态变换对所述近红外光谱的数据进行预处理;S3、获取处理后近红外光谱数据的样条函数;S4、对所述样条函数进行中心化处理;S5、计算中心化处理后的样条函数在不同波段函数之间的协方差;S6、计算协方差的第第j个特征值;S7、通过特征值,计算累计贡献度,贡献度超过阈值的主元作为近红外光谱的特征值;S8、依据特征值,计算不同波段的方程中函数形主元得分。通过本方法在完成高维降低到低纬的特征映射,同时能够实现进一步的挖掘光谱数据内在函数的阶次,导数等信息。作为本专利技术进一步的方案:所述步骤S1包括:采集待测样品的近红外光谱数据,并通过理化试验测定主要营养成分的含量;营养成分包括:蛋白质、脂肪和多种氨基酸。光谱仪采用美国OceanOptics公司生产的NIRQuest512型近红外光谱仪,配置波长范围为360nm-2000nm的HL-2000系列卤钨灯光源,光谱仪分辨率为3cm-1,积分时间为45s,扫描波长范围为:900-1700nm,内置具有512个像素点、稳定性高的滨松铟镓砷化物(InGaAs)阵列探测器,扫描次数为32次;采集的待测样品分别为野生松茸、姬松茸、老人头、杏鲍菇的若干切片干样,对所述切片干样进行光谱采样。作为本专利技术进一步的方案:所述步骤S3包括:S31、利用公式,获取各个样品的近红外光谱数据的B样条函数,所述公式如下:其中,φk(t)为近红外光谱波段的第k个B样条基函数,k小于等于m,m表示B样条基函数的数量,C为系数矩阵,X(t)为近红外光谱数据的函数形式,t为近红外光谱的波段,∑表示求和函数;S32、利用公式对X(t)函数进行光滑处理,所述公式如下:PEN2(X)=∫[DDX(t)]2dt(2)其中,PEN2(X)表示粗糙惩罚,DDX(t)表示函数X(t)的二阶导数;S33、利用公式计算近红外光谱数据函数的系数矩阵C;所述公式如下:PENSSEλ=SMSSE(x|c)+γPEN2(X);(3)其中,x为第j个近红外光谱的观测数据,xj为第j个近红外光谱的观测数据,j为小于m的正整数,SMESS(x|c)表示极小化残差平方和;tj表示第j个近红外光谱的波段,k≤K≤j,φk(tj)表示为第j个近红外光谱波段的B样条基函数;通过该方法实现对系数矩阵C的估计,同时利用粗糙惩罚对函数进行光滑处理,有效避免了过拟合现象。作为本专利技术进一步的方案:所述步骤S4包括:利用公式对样本数据进行中心化处理,中心化公式如下:式中,i为样本序号,n为样本总量,为n个样本近红外光谱波段的函数均值,Xi(t)为第i个样本的近红外光谱波段t的函数,为中心化处理之后的第i个样本的近红外光谱波段t的函数,c表示中心化,s.t.表示条件函数;通过中心化处理,从而消除各个样本的近红外光谱数据间差异,提高了本方法的准确性。作为本专利技术进一步的方案:所述步骤S5包括:利用公式计算协方差,协方差计算公式如下:任意选取取一个与t不同的波段,记作为s;V(s,t)表示s、t两个不同波段的协方差。作为本专利技术进一步的方案:所述步骤S6包括:利用公式计算协方差的第j个特征值;特征值的计算公式如下:其中,ξj(t)为第j个波段t的主元权重函数,ξj(s)表示第j个波段s的主元权重函数,j为正整数,ρj为特征值,s.t.表示条件函数,由式(7)可知,主成分函数ξ1(t),ξ2(t),…,ξj(t)之间互不相关。作为本专利技术进一步的方案:所述步骤S7包括:计算累计贡献度选取贡献度超过阈值的M个主元作为近红外光谱波段的特征值,构建定量模型,完成对待测样品的定性/定量分析;其中,M表示主元个数,所述阈值设定为90%。作为本专利技术进一步的方案:所述步骤S8包括:利用公式计算中心化处理后的不同近红外光谱波段方程中函数形主元得分,所述函数形主元得分的公式如下:fi,j=∫ξj(t)Xic(t)dt,j=1,2,...,m(8)其中,fj为函数的第j个主元。本专利技术还提供一种采用上述任一方案所述的基于函数性主元分析的近红外光谱特征提取方法的系统,包括:采集模块,用本文档来自技高网
...

【技术保护点】
1.一种基于函数性主元分析的近红外光谱特征提取方法,其特征在于,步骤如下:S1、采集多种样本中近红外光谱的数据;S2、采用标准正态变换对所述近红外光谱的数据进行预处理;S3、获取处理后的近红外光谱数据的样条函数;S4、对所述样条函数进行中心化处理;S5、计算中心化处理后的样条函数在不同波段函数之间的协方差;S6、计算协方差的第j个特征值;S7、通过协方差的特征值,计算累计贡献度,贡献度超过阈值的主元作为近红外光谱波段的特征值;S8、利用近红外光谱波段的特征值,计算不同波段的方程中函数形主元得分。

【技术特征摘要】
1.一种基于函数性主元分析的近红外光谱特征提取方法,其特征在于,步骤如下:S1、采集多种样本中近红外光谱的数据;S2、采用标准正态变换对所述近红外光谱的数据进行预处理;S3、获取处理后的近红外光谱数据的样条函数;S4、对所述样条函数进行中心化处理;S5、计算中心化处理后的样条函数在不同波段函数之间的协方差;S6、计算协方差的第j个特征值;S7、通过协方差的特征值,计算累计贡献度,贡献度超过阈值的主元作为近红外光谱波段的特征值;S8、利用近红外光谱波段的特征值,计算不同波段的方程中函数形主元得分。2.根据权利要求1所述的基于函数性主元分析的近红外光谱特征提取方法,其特征在于,所述步骤S1中,采集待测样品的近红外光谱数据,并通过理化试验测定营养成分的含量;营养成分包括:蛋白质、脂肪和多种氨基酸。3.根据权利要求2所述的基于函数性主元分析的近红外光谱特征提取方法,其特征在于,采集的待测样品分别为若干个野生松茸、姬松茸、老人头、杏鲍菇的切片干样,并对所述切片干样进行光谱采样。4.根据权利要求1所述的基于函数性主元分析的近红外光谱特征提取方法,其特征在于,所述步骤S3包括:S31、利用公式,获取各个样品的近红外光谱数据的B样条函数,所述公式如下:其中,φk(t)为近红外光谱波段的第k个B样条基函数,k小于等于m,m表示B样条基函数的数量,C为系数矩阵,X(t)为近红外光谱数据的函数形式,t为近红外光谱的波段,∑表示求和函数;S32、利用公式对X(t)函数进行光滑处理,所述公式如下:PEN2(X)=∫[DDX(t)]2dt(2)其中,PEN2(X)表示粗糙惩罚,DDX(t)表示函数X(t)的二阶导数;S33、利用公式计算近红外光谱数据函数的系数矩阵C;所述公式如下:PENSSEλ=SMSSE(x|c)+γPEN2(X);(3)其中,PENSSEλ表示残差平方和与粗糙惩罚之和,γ为光滑系数;其中,x为近红外光谱的观测数据,xj为第j个近红外光谱的观测数据,j为小于m的正整数,SMESS(x|c)表示极小化残差平方和;tj表示第j个近红外光谱的波段,k≤K≤j,φk(tj)表示为第j个近红外光谱波段的B样条基函数。5.根据权利要求1所述的基于函数性主元分析的近红外光谱特征提取方法,其特征在于,所述步骤S4包括:利用公...

【专利技术属性】
技术研发人员:潘天红李浩然陈山邹小波
申请(专利权)人:安徽大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1