一种评价汽油性质建模预测结果可信程度的方法技术

技术编号:14311452 阅读:105 留言:0更新日期:2016-12-27 19:58
本发明专利技术提出了一种评价汽油性质建模预测结果可信程度的方法,利用主成分得分坐标图,并引入了极值距离系数、距离离散系数和平均距离系数,用于描述待测样本点与校正样本点的分布集中度情况;其次根据决定系数和交叉验证均方根误差描述模型的预测能力情况;最后综合考虑样本分布集中度和模型的预测能力,建立了可信度公式,衡量预测结果的可信程度。该方法有效表征了预测结果的可信性,较好地评价了汽油性质模型的可行性,为使用人员是否需要及时更新模型提供了依据。

【技术实现步骤摘要】

本专利技术为一种评价汽油性质建模预测结果可信程度的方法,具体是涉及汽油性质检测领域。
技术介绍
目前,近红外光谱分析结合多元校正方法已广泛应用于汽油性质检测领域,对汽油性质的快速检测起到重要作用。在汽油性质建模预测过程中,预处理后的光谱数据经过主成分分析(PCA)后,一般取第一、第二主成分就可以提取到85%的有用信息,足以进行后续的建模分析。在由第一、第二主成分得分构成的坐标图中,我们希望校正样本点分布在待测样本点的附近,类似图1所示。然而,在实际工程应用中,存在类似图2所示的异常情况,即待测样本点与校正样本点分布相去甚远,且校正样本点集中在校正范围的边缘,这反映了待测样本的光谱信息与校正样本的光谱信息实际上差别较大,在此情况下模型给出的预测结果往往是欠准确的。此外,有时还会出现类似图3所示的异常情况,即待测样本点与校正样本点的分布较为分散,且待测样本点附近的校正样本点极少,这反映了与待测样本光谱信息相似的校正样本数很少,在此情况下模型的给出预测结果往往精度偏低,结果可信度不高。为了让使用人员能及时发现模型可能存在的问题,需要给出一种对当前模型预测结果可信程度的量化指标,以便人员及时修正模型,提高模型预测精度。
技术实现思路
针对上述问题,本专利技术提出了一种对模型预测结果可信程度进行量化评价的方法,该方法建立了如下可信度公式:C=(a1×AI+a2×(1-SD)+a3×(1-MN)+a4×R2+a5×(1-RMSECV))×100%(1)式中,AI、SD和MN分别为极值距离系数、距离离散系数和平均距离系数,由样本的主成分得分坐标图计算得到,描述样本的分布集中度情况;R2和RMSECV分别为决定系数和交叉验证均方根误差,由校正样本留一交叉验证计算得到,描述模型的预测能力情况;a1、a2、a3、a4和a5为因子系数,由权重取值方法得到。C值在100%以内值越高,可信度越强。优选的,高于80%,该汽油性质建模预测结果可信。极值距离系数AI描述待测样本点与所有校正样本点之间的距离分布情况,AI值越大表示分布相对集中; A I = d m a x - d min d m a x = 1 - d min d m a x - - - ( 2 ) ]]>其中,dmax为待测样本点与校正样本点之间的最大距离;dmin为待测样本点与校正样本点之间的最小距离。距离离散系数SD表示待测样本点和所有校正样本点两两之间的距离标准差,SD值越小,表示样本点两两之间的距离波动小,分布相对集中; S D = Σ j = 1 m ( d j - d ‾ ) 2 m - 1 - - - ( 3 ) ]]>其中,dj为待测样本点与所有校正样本点两两之间的距离;为待测样本点与所有校正样本点两两之间距离的平均值;m为样本点两两之间的距离个数,即n为待测样本点与所有校正样本点的总数。平均距离系数MN表示邻域内的校正样本点的平均距离与邻域外的校正样本点的平均距离的比值,MN值越小,说明邻域内的校正样本点的分布离待测样本点较近,分布相对集中; M N d 1 ‾ d 2 ‾ ; d 1 ‾ = Σ i = 1 T d i T ; d 2 ‾ = Σ i = T + 1 S d i S - T - - - ( 4 ) ]]>其中,为邻域内校正样本点到待测样本点的平均距离;为邻域外校正样本点到待测样本点的平均距离;di为待测样本点与第i个校正样本点之间的距离;S为所有校正样本数,T为邻域内的校正样本数,S-T为邻域外的校正样本数。优选的,邻域是一个以待测样本点为中心、r为半径的圆,且r=0.95×dmax。R2表示模型的决定系数,R2值越大,表示模型的预测能力越好: R 2 = 1 - 本文档来自技高网...

【技术保护点】
一种评价汽油性质建模预测结果可信程度的方法,其特征在于该方法基于待测样本点和选取的校正样本,通过建立可信度公式,量化汽油性质建模预测结果的可信程度,所述可信度公式:C=(a1×AI+a2×(1‑SD)+a3×(1‑MN)+a4×R2+a5×(1‑RMSECV))×100%式中,AI、SD和MN分别为极值距离系数、距离离散系数和平均距离系数,由样本的主成分得分坐标图计算得到;R2和RMSECV分别为决定系数和交叉验证均方根误差;a1、a2、a3、a4和a5为因子系数。

【技术特征摘要】
1.一种评价汽油性质建模预测结果可信程度的方法,其特征在于该方法基于待测样本点和选取的校正样本,通过建立可信度公式,量化汽油性质建模预测结果的可信程度,所述可信度公式:C=(a1×AI+a2×(1-SD)+a3×(1-MN)+a4×R2+a5×(1-RMSECV))×100%式中,AI、SD和MN分别为极值距离系数、距离离散系数和平均距离系数,由样本的主成分得分坐标图计算得到;R2和RMSECV分别为决定系数和交叉验证均方根误差;a1、a2、a3、a4和a5为因子系数。2.根据权利要求1所述的一种评价汽油性质建模预测结果可信程度的方法,其特征在于极值距离系数AI采用下式定义, A I = d m a x - d min d m a x = 1 - d min d max ]]>其中,dmax为待测样本点与校正样本点之间的最大距离;dmin为待测样本点与校正样本点之间的最小距离。3.根据权利要求1所述的一种评价汽油性质建模预测结果可信程度的方法,其特征在于距离离散系数SD采用下式定义, S D = Σ j = 1 m ( d j - d ‾ ) 2 m - 1 ]]>其中,dj为待测样本点与所有校正样本点两两之间的距离;为待测样本点与所有校正样本点两两之间的距离平均值;m为样本点两两之间的距离个数,即n为待测样本点与所有校正样本点的总数。4.根据权利要求1所述的一种评价汽油性质建模预测结果可信程度的方法,其特征在于平均距离系数MN采用下式定义, M N = d 1 ‾ d 2 ‾ ; d 1 ‾ = Σ i = 1 T d i T ; d 2 ‾ = Σ i = T + 1 S d i ...

【专利技术属性】
技术研发人员:陈夕松姜胜男费树岷方鑫胡云云吴沪宁
申请(专利权)人:南京富岛信息工程有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1