基于近红外光谱相似度的模型界外样本识别方法技术

技术编号:18347765 阅读:66 留言:0更新日期:2018-07-01 19:17
本发明专利技术公开了一种基于近红外光谱相似度的模型界外样本识别方法,包括步骤:(1)在建模阶段,先计算校正集中所有样品的平均光谱;然后计算校正集中每条光谱与平均光谱之间的相似度;对求得的相似度进行排序,忽略相似度最小的M个值,确定未被忽略的光谱中最小相似度simmin,设定一阈值lim=simmin*P;(2)在检测阶段,首先计算待测样本的光谱与平均光谱之间的相似度sim′;然后将sim′与lim进行比较,如果sim′≤lim*X,X为一预设阈值,则判定当前样本为模型界外样本,否则,判定当前样本为模型界内样本。本发明专利技术计算简单,时耗低,所需存储的数据量较少,实用性高。

【技术实现步骤摘要】
基于近红外光谱相似度的模型界外样本识别方法
本专利技术涉及近红外光谱分析研究领域,特别涉及一种基于近红外光谱相似度的模型界外样本识别方法。
技术介绍
近红外光谱分析中的定量分析大都是采用同一种模式,即基于一组已知样品建立校正模型。这一组已知样品称为校正集样品或训练集样品,通过这组样品的光谱及其对应基础数据(理化数据),利用多元矫正或模式识别方法建立校正模型。对于待测样品,只需测定其光谱,根据已建的模型便可快速给出定量结果。然而,若待测样本与建立校正模型的已知样本相关性过低,则使用该校正模型得出的预测结果不具有可信度。预测过程界外样本的识别主要是用来检验待测样本是否在所建校正模型的覆盖范围内,以确保对其预测结果的准确性。根据ASTME-1655,目前模型界外样本的识别方法主要包括三类:一是浓度界外样本,即使用马氏距离检测未知样本的浓度是否超出了校正样本的浓度范围;二是光谱残差界外样本,即使用光谱残差均方根(RMSSR)检测未知样本是否含有校正集样本不存在的组分;三是最邻近距离界外样本,即使用最邻近距离检测未知样本是否位于校正集样本分布稀疏的区域。当未知样本的光谱残差、马氏距离和最邻近距离中有任何一项超出相应阀值时,则说明该样本为模型界外样本,其预测结果的准确性将受到较大质疑。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于近红外光谱相似度的模型界外样本识别方法,该方法计算简单,时耗低,所需存储的数据量较少,实用性高。本专利技术的目的通过以下的技术方案实现:基于近红外光谱相似度的模型界外样本识别方法,包括步骤:(1)在建模阶段,先计算校正集中所有样品的平均光谱;然后计算校正集中每条光谱与平均光谱之间的相似度;对求得的相似度进行排序,忽略相似度最小的M个值,确定未被忽略的光谱中最小相似度simmin,设定一阀值lim=simmin*P,P是一预设阀值;(2)在检测阶段,首先计算待测样本的光谱与平均光谱之间的相似度sim′;然后将sim′与lim进行比较,如果sim′≤lim*X,X为一预设阀值,则判定当前样本为模型界外样本,否则,判定当前样本为模型界内样本。优选的,步骤(1)中,校正集中每条光谱与平均光谱之间的相似度计算公式如下:其中,U为特征集,u为U内单个特征纬度所代表的信息,i代表每个待对比样品光谱的特征集合,x代表平均光谱的特征集合,代表该特征纬度上待对比样品光谱与平均光谱的均值,sim代表待对比样品光谱的特征集合与平均光谱特征集合的比对结果,即相似度。优选的,步骤(1)中,M=N*Q,其中N为校正集样品数,若N*Q<1,则M取1;若N*Q≥1,则M取整,Q范围为0.001至0.05。采用该阈值,可以较准确的实现后续样本的划分。优选的,参数P是用来调整限制阀值的一个额外参数,用于控制阀值对异常的敏感程度。范围最大可扩展为-1/lim到1/lim,包含-1/lim且包含1/lim,建议范围为0.99至1。更进一步的,步骤(2)中,预设阀值Y,建立对未知样本进行适用性评估等级划分的模型,划分方法如下:其中,aLevel表示当前未知样本的适用性评估等级,等级A表示校正模型对待测样本光谱的适用性较好,预测结果的可信度较高,可直接采用当前的模型进行预测;等级B表示校正模型对待测样本光谱的适用性一般,预测结果的可信度一般;等级C表示校正模型对待测样本光谱的适用性较差,预测结果可信度极低。进而可得到模型适用性评估等级,便于给技术人员提供指导。更进一步的,X、Y都是根据经验确定的,X的范围最大可扩展为1至1+P(建议范围为1~1.01),包含1且包含1+P。Y的范围最大可扩展为0至1,包含0且不包含1,建议范围为0.9~0.995。本专利技术与现有技术相比,具有如下优点和有益效果:相比传统方法,在不过分损失精度的条件下,本专利技术方法计算简单,时耗低(仅有两步,分别出现于建模阶段及检测阶段);所需存储的数据量较少(传统方法需要将参与校正模型创建的全部数据进行存储);会给出未知样本是否适应当前模型,并能给出未知样本适用性的评估等级,随着等级的降低预测结果的可行度随之降低。附图说明图1是本专利技术方法建模阶段的流程图。图2是本专利技术方法检测阶段的流程图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例如图1、2所示,本实施例基于近红外光谱相似度的模型界外样本识别方法,包括两个阶段,分别是建模阶段和检测阶段,下面结合附图流程进行具体说明。一、建模阶段1.1、计算校正集样品的平均光谱式中,n为校正集样品数,k=1,2,…,m,m为波长点数。1.2、计算校正集中每条光谱与步骤1.1中求得平均光谱之间的相似度:U为特征集,u为U内单个特征纬度所代表的信息,i代表每个待对比样品光谱的特征集合,x代表平均光谱的特征集合,代表该特征纬度上待对比样品光谱与平均光谱的均值,sim代表待对比样品光谱的特征集合与步骤1.1中所求平均光谱特征集合的比对结果。1.3、对步骤1.2中求得的一系列相似度值进行排序,得(sim1,sim2,…,simN),设sim1为最小值,simN最大值,N为校正集样品数。1.4、忽略相似度最小的(N*0.005)个值,若N*0.005<1,则取1;若N*0.005≥1,则取整。【例1】若N=100,N*0.005=0.5<1,取1,需忽略步骤1.3中的sim1,则最小相似度为sim2。【例2】若N=500,N*0.005=2.5≥1,取整为2,需忽略步骤1.3中的sim1,sim2,则最小相似度为sim3。1.5、在步骤1.4的基础上,阀值lim为未被忽略的最小相似度的0.9995倍,即simmin*0.9995。1.6、将计算好的阀值lim以及步骤1.1中求得的平均光谱进行存储。二、检测阶段2.1、计算待测光谱与步骤1.1中平均光谱之间的相似度:其中,U为特征集,u为U内单个特征纬度所代表的信息,i代表每个待测样品光谱的特征集合,x代表平均光谱的特征集合,代表该特征纬度上待测样品光谱与步骤1.1平均光谱的均值,sim′代表待测样品光谱的特征集合与步骤1.1中平均光谱特征集合的比对结果。2.2将sim′与步骤1.1中的阀值lim进行比较,设定预设阀值X为0.99,若sim′≤lim*0.99,则可判定当前样本为模型界外样本,否则,判定当前样本为模型界内样本。当然,为了更进一步评估样本的实用性,还可以根据实际对未知样本进行适用性评估等级划分,具体划分方法是:aLevel为适用性评估等级,等级A表示校正模型对待测样本光谱的适用性较好,预测结果的可信度较高。等级B表示校正模型对待测样本光谱的适用性一般,预测结果的可信度一般。等级C表示校正模型对待测样本光谱的适用性交差,预测结果可信度极低。上述实施例为本专利技术较佳的实施方式,但本专利技术的实施方式并不受上述实施例的限制,其他的任何未背离本专利技术的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本专利技术的保护范围之内。本文档来自技高网...
基于近红外光谱相似度的模型界外样本识别方法

【技术保护点】
1.基于近红外光谱相似度的模型界外样本识别方法,其特征在于,包括步骤:(1)在建模阶段,先计算校正集中所有样品的平均光谱;然后计算校正集中每条光谱与平均光谱之间的相似度;对求得的相似度进行排序,忽略相似度最小的M个值,确定未被忽略的光谱中最小相似度simmin,设定一阀值lim=simmin*P,P是一预设阀值;(2)在检测阶段,首先计算待测样本的光谱与平均光谱之间的相似度sim′;然后将sim′与lim进行比较,如果sim′≤lim*X,X为一预设阀值,则判定当前样本为模型界外样本,否则,判定当前样本为模型界内样本。

【技术特征摘要】
1.基于近红外光谱相似度的模型界外样本识别方法,其特征在于,包括步骤:(1)在建模阶段,先计算校正集中所有样品的平均光谱;然后计算校正集中每条光谱与平均光谱之间的相似度;对求得的相似度进行排序,忽略相似度最小的M个值,确定未被忽略的光谱中最小相似度simmin,设定一阀值lim=simmin*P,P是一预设阀值;(2)在检测阶段,首先计算待测样本的光谱与平均光谱之间的相似度sim′;然后将sim′与lim进行比较,如果sim′≤lim*X,X为一预设阀值,则判定当前样本为模型界外样本,否则,判定当前样本为模型界内样本。2.根据权利要求1所述的基于近红外光谱相似度的模型界外样本识别方法,其特征在于,步骤(1)中,校正集中每条光谱与平均光谱之间的相似度计算公式如下:其中,U为特征集,u为U内单个特征纬度所代表的信息,i代表每个待对比样品光谱的特征集合,x代表平均光谱的特征集合,代表该特征纬度上待对比样品光谱与平均光谱的均值,sim代表待对比样品光谱的特征集合与平均光谱特征集合的比对结果,即相似度。3.根据权利要求1所述的基于近红外光谱相似度的模型界外样本...

【专利技术属性】
技术研发人员:刘彤向轶许定周曾永平肖青青凌亚东
申请(专利权)人:广州讯动网络科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1