当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于光谱线性表示的油品性质预测方法技术

技术编号:17796960 阅读:22 留言:0更新日期:2018-04-25 20:28
本发明专利技术具体涉及一种基于光谱线性表示的油品性质预测方法;对校正集及测试样本的近红外光谱数据进行主成分分析,提取主成分分析得到的得分矩阵中前k个主成分建立主成分空间,并在主成分空间中基于欧式距离寻找到与测试样本最近的n个校正集中的油品样本,称为邻近样本;计算邻近样本的近红外光谱权值w;利用近红外光谱权值w对邻近样本的性质值进行加权,即得到测试样本的性质值预测。本发明专利技术通过具有特定权值的线性组合对测试样本进行预测,结合了参数模型和非参数模型的优势。

A prediction method of oil properties based on spectral linear representation

The invention specifically relates to an oil quality prediction method based on spectral linear representation; the principal component analysis is carried out on the near infrared spectrum data of the correction set and the test sample, and the principal component space of the first k components in the score matrix obtained by the principal component analysis is extracted, and the detection and measurement based on the Euclidean distance in the main sub space are based on the Euclidean distance. The recent sample of N calibration concentrated oil samples, called adjacent samples, calculated the near infrared spectrum weights w of adjacent samples, weighted the property values of adjacent samples using the near-infrared spectral weight value W, that is, the prediction of the properties of the tested samples. The invention predicts the test samples through a linear combination of specific weights, and combines the advantages of the parametric model and the non parametric model.

【技术实现步骤摘要】
一种基于光谱线性表示的油品性质预测方法
本专利技术属于石油化工的油品性质检测领域,具体涉及一种基于光谱线性表示的油品性质预测方法。
技术介绍
传统油品评价方法可以提供详细的原油性质数据,但其操作复杂,时间长,很难满足油品加工过程中对油品性质分析实时性的要求。目前,基于近红外光谱的建模技术趋于成熟,这些方法包括多元线性回归、局部加权回归、偏最小二乘等,并广泛应用于油品的性质预测。尽管这些方法已经开始考虑利用局部建模的思想来处理实际问题中存在的非线性,但其线性参数模型的本质仍然限制了模型的预测性能,且其计算相对复杂,也有较多需要调节的参数。基于拓扑聚类等非参数的模型,如k近邻法,能够适用于非线性问题且计算、调参相对于参数模型更为简便。但这些方法并没有充分利用输入信息,对数据的处理过于简单,欠缺对输入数据精细的考虑,使得其难以处理较为精确的预测问题。近红外光谱建模问题具有较强的非线性,且其输入数据为油品的波数段近红外吸光度数据,蕴含了大量的信息,这对传统的参数模型和非参数模型提出了挑战。因此,亟待对基于拓扑学的方法进行改进。
技术实现思路
针对前述传统油品评价方法的缺陷而提出的一种基于光谱线性表示的油品性质预测方法,本专利技术基于邻近样本,通过将其进行具有特定权值的线性组合对测试样本进行预测,结合了参数模型和非参数模型的优势。为了实现上述专利技术目的,本专利技术采用了以下技术方案:一种基于光谱线性表示的油品性质预测方法,包括以下步骤:1)首先对校正集及测试样本的近红外光谱数据进行主成分分析,提取主成分分析得到的得分矩阵的前k个主成分建立主成分空间,并在主成分空间中基于欧式距离寻找到与测试样本最近的n个校正集中的油品样本,称为邻近样本;2)计算邻近样本的近红外光谱权值w,所述w加权线性组合与测试样本的近红外光谱之差的二范数最小,且w加权线性组合与测试样本的近红外光谱的和值为1;3)利用近红外光谱权值w对邻近样本的性质值进行加权,即得到测试样本的性质值预测。进一步,在对新的待测样本进行预测时,所述校正集由油品样本库中所有样本组成。进一步,所述欧式距离di的表达公式如下:其中pi,j为校正集第i个油品样本近红外光谱数据在第j个主成分上的得分,p0,j为测试样本近红外光谱数据在第j个主成分上的得分,k为主成分数。在求得了di后,即可寻找到{di}中最小的n个。在校正集近红外光谱数据Xall、性质数据Yall中提取对应的油品样本,即可构成邻近样本的近红外光谱数据表Xneighbor与性质列表Yneighbor(为叙述简便,分别将其记为X与Y)。进一步,所述k通过主成分分析中方差累积贡献率达到指定值予以确定或选取k=2或k=3。进一步,所述近红外光谱权值w通过解正则化优化问题得到:s.t.1Tw=1其中X为邻近样本近红外光谱数据,X0为测试样本近红外光谱数据,λ为常数正则化因子,T为转置。进一步,所述的正则化优化问题按照下式求解:其中X为邻近样本近红外光谱数据,X0为测试样本近红外光谱数据,λ为常数正则化因子,T为转置,I为单位矩阵,μ是在求解问题时引入的对应于等式约束1Tw=1的拉格朗日乘子,[]+为广义逆矩阵。进一步,所述邻近样本数n和正则化因子λ通过在校正集中进行留一法交叉验证得到。具体的方法为:对一个具体的参数取值(n=n0,λ=λ0),对于校正集中的每一例油品样本(Xi,Yi),分别将该油品样本作为测试样本,校正集中所有其余油品样本(Xremain,Yremain)作为训练油品样本,按前述方法进行预测,得到油品样本(Xi,Yi)的性质预测值遍及校正集中的每一例油品样本,可以得到在该参数组合下模型的性能。进一步,所述留一交叉验证依次对油品样本库中每一个油品样本进行预测,当对任一样本进行预测时,将该样本作为测试油品样本,将油品样本库中除所述测试样本之外的其他样本作为校正集。进一步,所述留一法交叉验证的预测误差的均方根误差表达公式如下:其中RMSE为均方根误差,N为校正集中油品样本总数,为油品样本(Xi,Yi)的性质预测值,Xi为油品样本的近红外光谱数据,Yi为油品样本的性质数据。一种基于光谱线性表示的油品性质预测方法应用于RON、MON、密度、初馏点、终馏点、10%蒸发温度、50%蒸发温度或90%蒸发温度的油品性质数据预测。有益效果,本专利技术通过具有特定权值的线性组合对测试样本进行预测,结合了参数模型和非参数模型的优势,得到的油品性质预测值精确。附图说明图1是实施例1对一例测试样本进行性质预测的流程图;图2是实施例1对于给定的油品样本库,在该油品样本库上评估取正则化因子λ时模型的性能RMSE的流程图;图3实施例1对于指定的油品样本库,获取最优的模型参数n和λ流程图;图4实施例1中模型参数n和λ对模型性能的影响图。具体实施方式下面结合附图以及具体的算例,给出详细的计算过程和具体操作流程,以对本专利技术作进一步说明。实施例中的光谱库采用某公司采集的调和油光谱及性质测试数据,包括270例油品近红外光谱数据及其研究法辛烷值(RON)数据。实施例中的测试样本近红外光谱数据组织形式与校正集近红外光谱数据相同,均为4000~4800cm-1波数范围的近红外光谱数据。实施例以本专利技术技术方案为前提下进行实施,但本专利技术的保护范围不限于该光谱库及下述实施例。实施例1(1)确定模型的基本参数n及λ设定油品样本数的范围为n=10~100,以2为步长进行遍历搜索。为加快搜索,并考虑到油品样本光谱欧氏距离较小的实际情况,正则化参数λ取对数的等间隔,lg(λ)=-12~4,以0.02为步长。接下来按照图3所示的流程确定模型的基本参数n及λ。现按照图2所示的流程,对参数组合n=10,λ=10-12.00评估模型性能:在油品样本库中取第一例样本作为测试样本Stest=S1=(X1,Y1):表1第一例样本的吸光度数据谱图点123…208吸光度-0.0120-0.0099-0.0066…-0.0796其性质值Y1=92.4。除去油品样本库中第一例样本以外的其他样本作为校正集(共269例):Scalibrate=Sall-S1其中,Scalibrats为校正集,Sall为油品样本库,S1为第一例油品样本。现在按照图1所示的流程对测试样本的性质进行预测。对所有油品样本的近红外光谱数据Xall进行主成分分析,并取其在前k=3个主成分上的得分,得到各个油品样本在主成分空间中的坐标Ptest及Pcalibrate:表2校正集中样本吸光度数据在前3个主成分上的得分在Pcalibrate中,与Ptest欧式距离最近的n=10个样例为2号油品样本、3号油品样本、21号油品样本、…、155号油品样本,其吸光度数据X与性质数据Y为:表3测试样本的10个邻近校正集油品样本吸光度及性质值解优化问题s.t.1Tw=1利用得权值w为表4求解得到的邻近样本的权值对比测试样本性质的测定值Y1,于是该测试样本的预测误差类比上述过程,依次取出每一例油品样本作为测试样本,其余油品样本为校正集油品样本,分别得到每一例油品样本的预测误差:表5在一组参数下各个样本的交叉验证预测误差样本编号1234268269270预测误差0.49180.5801-0.3409-0.6156……-0.3803-0.93530本文档来自技高网...
一种基于光谱线性表示的油品性质预测方法

【技术保护点】
一种基于光谱线性表示的油品性质预测方法,其特征在于,包括以下步骤:1)首先对校正集及测试样本的近红外光谱数据进行主成分分析,提取主成分分析得到的得分矩阵的前k个主成分建立主成分空间,并在主成分空间中基于欧式距离寻找到与测试样本最近的n个校正集中的油品样本,称为邻近样本;2)计算邻近样本的近红外光谱权值w,所述w加权线性组合与测试样本的近红外光谱之差的二范数最小,且w加权线性组合与测试样本的近红外光谱的和值为1;3)利用近红外光谱权值w对邻近样本的性质值进行加权,即得到测试样本的性质值预测。

【技术特征摘要】
1.一种基于光谱线性表示的油品性质预测方法,其特征在于,包括以下步骤:1)首先对校正集及测试样本的近红外光谱数据进行主成分分析,提取主成分分析得到的得分矩阵的前k个主成分建立主成分空间,并在主成分空间中基于欧式距离寻找到与测试样本最近的n个校正集中的油品样本,称为邻近样本;2)计算邻近样本的近红外光谱权值w,所述w加权线性组合与测试样本的近红外光谱之差的二范数最小,且w加权线性组合与测试样本的近红外光谱的和值为1;3)利用近红外光谱权值w对邻近样本的性质值进行加权,即得到测试样本的性质值预测。2.根据权利要求1所述的一种基于光谱线性表示的油品性质预测方法,其特征在于,在对新的待测样本进行预测时,所述校正集由油品样本库中所有样本组成。3.根据权利要求1所述的一种基于光谱线性表示的油品性质预测方法,其特征在于,所述欧式距离di的表达公式如下:其中pi,j为校正集第i个油品样本近红外光谱数据在第j个主成分上的得分,p0,j为测试样本近红外光谱数据在第j个主成分上的得分,k为主成分数。4.根据权利要求3所述的一种基于光谱线性表示的油品性质预测方法,其特征在于,所述k通过主成分分析中方差累积贡献率达到指定值予以确定或选取k=2或k=3。5.根据权利要求1所述的一种基于光谱线性表示的油品性质预测方法,其特征在于,所述近红外光谱权值w通过解正则化优化问题得到:s.t.1Tw=1其中X为邻近样本近红外...

【专利技术属性】
技术研发人员:焦一平费树岷陈夕松
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1