一种利用高斯过程回归模型构建原油性质近红外快速分析的方法技术

技术编号:20328216 阅读:29 留言:0更新日期:2019-02-13 05:12
本发明专利技术公开了一种利用高斯过程回归模型构建原油性质近红外快速分析的方法。构建用于原油性质预测的模型的方法包括:(1)测定原油样本的性质数据;(2)测定所述原油样本的近红外光谱图;(3)利用减去一条直线对步骤(2)获得的近红外光谱图进行预处理,用以消除背景干扰与基线漂移;(4)对步骤(3)获得的光谱进行主成分分析(PCA),保存特征值贡献率大于95%的载荷向量记Ppca;(5)利用Ppca对随机抽取的样本组成的训练子集进行降维后,通过高斯过程回归(GPR)得到子模型;(6)利用Ppca对待测样本的近红外光谱进行降维后,通过高斯过程回归(GPR)选择训练集;(7)根据训练集确定一个或多个波数段,利用偏最小二乘法(PLS)建立原油性质的预测模型。

【技术实现步骤摘要】
一种利用高斯过程回归模型构建原油性质近红外快速分析的方法
本专利技术涉及一种利用高斯过程回归模型构建原油性质近红外快速分析的方法及应用。
技术介绍
原油评价在原油的开采、贸易、加工等方面发挥着重要的作用,我国一直在进行原油评价的相关工作,目前已有一套完整的标准评价方法,但是这些方法往往分析时间较长,所需样品量较大,分析成本高,已不能满足实际应用的需要。近红外分析技术是目前最有前景且应用最广泛的快速分析方法之一。近几年来光纤在近红外光谱
的应用使近红外光谱技术从实验室走向现场,近红外光谱技术具有对电磁干扰不敏感、传输信号能量集中、灵敏度高、价格低廉等优点,这使得近红外光谱仪可以在恶劣、危险的环境中进行远距离快速在线分析。原油的组分复杂、待测性质多,并且其近红外光谱吸收带较宽且重叠严重,且由于近红外分析仪是二次测量仪表。因此,建立精度高、鲁棒性好的近红外模型是近红外技术能否有效应用的关键。原始的建模方法一般都属于静态模型的范畴,光谱的预处理、变量选择、模型建立以及模型更新和维护等关键步骤都需要离线进行,并在应用过程保持不变。对于流程工业,生产的连续性往往需要模型能够对现场工况进行实时跟踪;并且在模型与当前工况发生较大的偏差、预测精度无法满足在线检测的需求时,模型能够进行及时有效地更新。
技术实现思路
鉴于上述问题,本专利技术提出了一种利用高斯过程回归模型构建原油性质近红外快速分析的方法。该方法利用近红外分析仪采集原油近红外光谱图的基础上,采用减去一条直线的方法对采集到的原油样本近红外光谱进行预处理,以消除干扰;对预处理后的光谱数据进行样本筛选;根据每一个新得到的待测样本,利用GPR从样本库中选择合适的训练集,并根据该训练集确定建模用波数范围,利用PLS建立局部模型,用于预测待测光谱的属性值。本专利技术提供的利用高斯过程回归模型构建原油性质近红外快速分析的方法包括以下步骤:步骤一:收集原油样本,并测定所有原油样本的属性值;步骤二:利用在线近红外分析仪测量所有样本的近红外光谱图;步骤三:对步骤二获得的原油近红外光谱进行预处理,并对预处理后的光谱数据进行样本的筛选,剔除异常样本点;步骤四:对样本库中的所有样本进行PCA主成分分析,并选取特征值贡献率大于95%的载荷向量记为Ppca,并存储;步骤五:利用蒙特卡洛抽样方法从样本库中随机抽取n个样本,组成训练子集A,利用Ppca对此子集进行降维,并在降维后的子集上建立高斯过程回归模型。重复此步骤N次,最终得到N个训练子集与子模型。步骤六:当获得新的待测光谱xp时,利用Ppca对待测光谱xp进行降维,并带入所有GPR子模型中,计算模型估计方差σ。选择σ值最小的模型所对应的子训练集作为局部训练集S。步骤七:根据局部训练集S确定波数范围,利用PLS在局部训练集上建立局部模型,并预测待测光谱xp的属性值。在一个或多个实施方案中,步骤一中用于构建校正集的原油20℃的密度在0.7-1.1g/cm3的范围内,硫含量在0.03%-5.50%的范围内,酸值在0.01-12.00mgKOH/g的范围内;和/或所述原油性质包括密度、残炭、酸值、硫含量、氮含量、蜡含量、胶质含量、沥青质含量和实沸点数据中的一个或多个。在一个或多个实施方案中,所述步骤二包括,将训练集样品放置于35℃温度下的某一温度,待原油样品温度达到稳定状态后,测定该原油样品的近红外光谱数据;在一个或多个实施方案中,步骤二中,扫描范围为4000-12500cm-1,扫描次数为10-100次。在一个或多个实施方案中,所述步骤三中,所述近红外光谱预处理方法为利用减去一条直线对对步骤二获得的波数范围为12500~4000cm-1区域的原油样本近红外光谱图进行预处理,用以消除背景干扰与基线漂移;在一个或多个实施方案中,所述步骤三包括,采用主成分分析结合HotellingT2统计的方法,计算初始训练集中的每个样本的T2统计量,根据预设的T2统计量阈值,剔除初始训练集中异常的样本点,构成最终的训练集;优选地,采用主成分分析结合HotellingT2统计的方法剔除异常样本点的过程为:首先对样本光谱进行主成分分析,然后利用主成分得分作为特征变量,计算每个样本的T2统计量,根据预设的T2统计量阈值,剔除初始训练集中异常的样本点,构成最终的训练集。步骤四中对光谱矩阵X进行PCA分析等效于对矩阵X的协方差矩阵XTX进行特征向量分解,载荷向量就是协方差矩阵XTX的特征向量。若令λ表示XTX的特征值,那么前k个主成分的累积贡献率可按下式计算:m为光谱的波长点个数。在一个或多个实施方案中,所述步骤五中的高斯过程回归模型如下:高斯过程是任意有限个随机变量均具有联合高斯分布的集合,它完全由均值函数和协方差函数确定,可记为:f(x)~GP(m(x),k(x,x′))考虑到存在噪声的环境下,实际输出值y等于观测值与噪声之和,即y=f(x)+εε为高斯白噪声,分布如下其中协方差函数可选择如下形式:可通过极大似然函数求得超参数θ={l,σf,σn}。式中:x、x’:训练集中任意样本;y:属性值数据;m(x):均值函数;k(x,x’):协方差函数;在一个或多个实施方案中,所述步骤六中的模型估计方差σ确定方法如下所示:对于降维后的待测光谱xp’所对应的属性预测值yp和训练集中样本所对应的属性值y的联合先验分布为其中Kp=[k(xp,x1)k(xp,x2)…k(xp,xn)]Kpp=k(xp,xp)通过上式可计算出待测光谱xp’所对应的属性值的后验分布,即yp的估计均值和方差如下所示:μ=KpK-1yσ2=Kpp-KpK-1Kp在一个或多个实施方案中,所述步骤七中的波数范围确定步骤如下所示,(a)首先对每个变量设定初始权值m为总变量数;取迭代次数t=1,…,g,重复以下步骤:(b)计算每一个变量的采样概率并且根据采样概率从所有波数点中抽取k个变量;(c)根据选择的k个变量,利用PLS方法建立子模型ht;(d)利用PLS得到的得分矩阵和载荷矩阵重构光谱矩阵D’,并局算每个变量的误差ex;式中,exj:第j个变量的平均误差;k:总样本数;Dij:为第i个样本的第j个变量的原始数;D′ij:为第i个样本的第j个变量的重构数;(e)计算误差ey;式中,ey:均方根误差ey;k:总样本数;yi:为第i个样本的真实值;为第i个样本的预测值;(f)将ex与ey带入下式中计算误差errt=exj+βey式中,第t次迭代的误差;(g)计算变量的新权值:权值更新后,进入下一次迭代。(h)迭代停止后,对每个变量的权值从大到小进行排序,选取前z个变量作为最后建模时使用的变量。在一个或多个实施方案中,所述步骤七的数学关联模型使用PLS方法来建立。在一个或多个实施方案中,所述步骤七中所建立的模型可以根据待测样本的谱图特征自适应进行适当改变,即本专利技术方法可以根据待测谱图自适应的改变训练集和建模用的波数范围,以得到更好的建模效果。附图说明图1:在线近红外光谱分析仪检测原油样品近红外光谱实验示意图。图2:基于近红外的原油性质自适应预测模型的建立方法。图3:原始的原油近红外光谱图。图4:预处理后的原油近红外谱图。图5:PCA分析主成分。图6:异常点样本的HotellingT2图。图7:近红外原油硫含量回本文档来自技高网...

【技术保护点】
1.一种构建用于原油性质预测的模型的方法,其特征在于,所述方法包括:(1)测定原油样本的性质数据;(2)测定所述原油样本的近红外光谱图;(3)利用减去一条直线对步骤(2)获得的近红外光谱图进行预处理,用以消除背景干扰与基线漂移;(4)对步骤(3)获得的光谱进行主成分分析(PCA),保存特征值贡献率大于95%的载荷向量记Ppca;(5)利用Ppca对随机抽取的样本组成的训练子集进行降维后,通过高斯过程回归(GPR)得到子模型;(6)利用Ppca对待测样本的近红外光谱进行降维后,通过高斯过程回归(GPR)选择训练集;(7)根据训练集确定一个或多个波数段,利用偏最小二乘法(PLS)建立原油性质的预测模型。

【技术特征摘要】
1.一种构建用于原油性质预测的模型的方法,其特征在于,所述方法包括:(1)测定原油样本的性质数据;(2)测定所述原油样本的近红外光谱图;(3)利用减去一条直线对步骤(2)获得的近红外光谱图进行预处理,用以消除背景干扰与基线漂移;(4)对步骤(3)获得的光谱进行主成分分析(PCA),保存特征值贡献率大于95%的载荷向量记Ppca;(5)利用Ppca对随机抽取的样本组成的训练子集进行降维后,通过高斯过程回归(GPR)得到子模型;(6)利用Ppca对待测样本的近红外光谱进行降维后,通过高斯过程回归(GPR)选择训练集;(7)根据训练集确定一个或多个波数段,利用偏最小二乘法(PLS)建立原油性质的预测模型。2.如权利要求1所述的方法,其特征在于,所述原油性质选自:密度、残炭、酸值、硫含量、氮含量、蜡含量、胶质含量、沥青质含量和实沸点数据中的一个或多个;步骤(1)中原油样本的数量不少于200份;采用离线或在线近红外分析仪采集原油样品的近红外光谱数据。3.如权利要求1或2所述的方法,其特征在于,步骤(2)所述的测定中,光谱扫描范围为4000-12500cm-1,分辨率为2-32cm-1,重复扫描10-100次,取平均近红外光谱值。4.如权利要求1-3中任一项所述的方法,其特征在于,步骤(3)包括,采用主成分分析结合HotellingT2统计的方法,计算初始样本库中的每个样本的T2统计量,根据预设的T2统计量阈值,剔除初始样本库中异常的样本点;优选地,采用主成分分析结合HotellingT2统计的方法剔除异常样本点的过程为:首先对样本光谱进行主成分分析,然后利用主成分得分作为特征变量,计算每个样本的T2统计量,根据预设的T2统计量阈值,剔除样本库中异常的样本点。更优选地,T2统计的描述公式如下:式中,t为原始光谱矩阵X经过PCA降维后的变量,σ为t的标准差,Iter为提取的主成分个数;由于异常样本的T2值会远远大于正常样本,所以计算所有样本库中的光谱样本的T2值,并以99%的置信区间为阈值上限,按照下式,并查F分布表,计算得到阈值,将样本库中所有样本的T2值与阈值进行比较,剔除大于阈值的样本。5.如权利要求1-4中任一项所述的方法,其特征在于,步骤(5)利用蒙特卡洛抽样方法随机抽取样本组成训练子集,并在降维后的子集上建立高斯过程回归模型;优选地,重复步骤(5)N次,得到N个训练子集与子模型;更优选地,N为200-5000。6.如权利要求5所述的方法,其特征在于,步骤(5)中的高斯过程回归模型如下所示:...

【专利技术属性】
技术研发人员:钱锋钟伟民杨明磊杜文莉隆建
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1