一种近红外光谱分析中的异常样本识别方法技术

技术编号:15286022 阅读:53 留言:0更新日期:2017-05-09 00:49
本发明专利技术公开了一种近红外光谱分析中的异常样本识别方法,本发明专利技术结合半数重采样和Cook距离算法对近红外光谱分析数据进行异常样本识别。首先改变半数重采样算法的结果表达方式,对光谱数据进行异常样本识别,然后利用Cook距离方法针对化学值进行异常样本识别,均通过偏最小二乘建模效果选取各自的最佳置信区间,联合二者作为本方法中的置信区间;对于同时出现在两种方法下的异常样本,若为高杠杆值点,则剔除,否则保留。本发明专利技术结合两种相互独立的算法,能够处理光谱异常和化学值异常同时存在或只存在一种的情况,并对特殊的异常样本进行深入判断,保留由于自身特性而被识别出的特异样本,增强了模型的适用性和稳定性。

A method for identifying abnormal samples in near infrared spectroscopy analysis

The invention discloses a method for identifying abnormal samples in the near infrared spectrum analysis, which combines the half resampling and the Cook distance algorithm to identify the abnormal sample data of the near infrared spectrum analysis data. First change half resampling algorithm results expression of abnormal samples to identify the spectral data, and then use the Cook distance method for abnormal samples for chemical identification value through partial least squares modeling results to select the optimal confidence interval of each joint as two confidence interval in this method; for abnormal samples also appeared in two the method, if the value is high, the lever is rejected, otherwise reserved. The invention combines two kinds of independent algorithm can deal with anomalous spectral and chemical anomalies exist at the same time or there is only one case, and further evaluation of abnormal samples of special reserve, due to the characteristics of specific samples were identified, enhance model applicability and stability.

【技术实现步骤摘要】

本专利技术涉及近红外光谱分析
,具体涉及一种近红外光谱分析中的异常样本识别方法。
技术介绍
近红外光谱分析技术具有分析速度快、对样本无损害、成本低等特点,已广泛应用于农业、食品、医药等领域。近红外光谱分析数据包括样本光谱扫描数据和样本元素的化学值数据,样本制备方法不当、周围环境因素改变及仪器自身问题等因素会导致光谱数据中存在异常数据,而化学值的获取大多都是通过化学实验方法获得的,实验过程中的方法不当和误操作同样会引起化学值数据中存在异常。不同分析过程中的近红外光谱分析数据可能既包含光谱异常又包含化学值异常,也有可能只包含其中一种异常数据。近红外光谱分析结果的可靠性首先取决于原始数据的准确性,异常数据会影响实验数据的整体分布,最终影响所建模型的预测能力,因此识别并剔除异常样本是建立可靠模型的先决条件。
技术实现思路
本专利技术的目的是提供一种能够有效识别近红外光谱分析中光谱异常、化学值异常的异常样本识别方法,同时能够保留特异样本,保证分析模型可靠性的基础上,提高模型的适用性和稳定性。本专利技术的目的通过如下技术方案实现:一种近红外光谱分析中的异常样本识别方法,包括以下步骤:1.改变半数重采样算法的结果表达方式为了便于本专利技术中选择最佳置信区间,原方法中,每次采样后依据计算距离利用置信区间选取异常样本点,对异常样本点计数累加,根据累加结果选择异常样本;改为每次采样后对计算得到的距离累加,对累加的数据按照置信区间,选取最终的异常样本数据。2.利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间半数重采样算法置信区间设置为0.95到0.99,在每个置信区间下应用改变后的半数重采样算法选择异常样本点。针对不同的置信区间,去除异常样本点,建立偏最小二乘模型,对比校正集均方误差根的值,具有最小校正集均方误差根模型所对应的置信区间为最佳置信区间。3.利用Cook距离方法对样本化学值数据进行异常样本识别,选择最佳置信区间计算样本化学值的Cook距离,设定置信区间为0.95到0.99,选择每一置信区间下的Cook距离大的样本点为异常样本点。针对不同的置信区间,去除异常样本点,建立偏最小二乘模型,对比校正集均方误差根的值,具有最小校正集均方误差根模型所对应的置信区间为最佳置信区间。4.作样本散点图,判断特异样本以Cook距离值为横坐标,半数重采样算法计算得到的距离为纵坐标,对所有样本点做散点图。联合步骤2、3中最佳置信区间,划分样本。样本被划分为四个区域,处于右上方区域的样本为既存在光谱异常又存在化学值异常的样本。计算这些样本光谱数据的杠杆值,若杠杆值很高,则标记为异常样本,否则,该样本应为特异样本,予以保留能够增强模型的适用性和稳定性。5.标记异常样本对处于散点图左上方和右下方区域的样本点,标记为异常样本点。本专利技术具有的有益效果:能够综合考虑光谱异常、化学值异常同时存在或只存在一种的情况,有效去除近红外光谱分析数据中的异常样本,同时保留特异样本,保证分析模型可靠性的同时,提高模型的适用性和稳定性。附图说明图1为改变半数重采样算法结果表达方式的方法图2为样本点半数重采样距离分布图图3为样本点Cook距离柱状图图4为样本散点图图5为样本点光谱数据杠杆值柱状图具体实施方式下面结合附图和实施例对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术提供的一种近红外光谱分析中的异常样本识别方法,主要包括如下步骤:1.改变半数重采样算法的结果表达方式参考图1,原方法中每次采样后按置信区间选取异常样本,然后对相应异常样本进行累加计数;改为每次采样后对每个样本计算得到的距离进行累加,采样结束后,再按照置信区间选取距离大的样本作为异常样本。2.利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间针对实施例的近红外光谱数据,利用改变后的半数重采样算法计算每个样本的半数重采样距离,得到的结果如参考图2所示。少量样本的半数重采样距离明显高于大多数样本,在0.95-0.99之间选择最佳置信区间。按每个置信区间选择对应的异常样本,剔除异常样本后,建立偏最小二乘模型,对比偏最小二乘模型的校正集均方误差根,最小值对应的区间为最佳置信区间。实施例中半数重采样算法的最佳置信区间选取结果如表1所示,置信区间0.99为该算法下的最佳置信区间。表1半数重采样算法的最佳置信区间选择3.利用Cook距离方法对样本化学值数据进行异常样本识别,选择最佳置信区间针对实施例的化学值数据,计算每个样本的Cook距离,结果如参考图3所示。少量样本的Cook距离值明显高于大多数样本。在0.95-0.98之间选取最佳置信区间,按每个置信区间选择对应的异常样本,剔除异常样本后,建立偏最小二乘模型,对比偏最小二乘模型的校正集均方误差根,最小值对应的区间为最佳置信区间。实施例中半数重采样算法的最佳置信区间选取结果如表2所示,置信区间0.95为该算法下的最佳置信区间。表2Cook距离方法的最佳置信区间选择4.作散点图,判断特异样本以Cook距离值为横坐标,半数重采样算法计算得到的距离为纵坐标,对所有样本点做散点图。以两种算法最佳置信区间的联合0.99-0.95为置信区间,划分样本。样本被划分为四个区域,如参考图4所示。处于右上方区域的1号样本为既存在光谱异常又存在化学值异常的样本。样本1有可能是两种数据均存在错误的异常样本,也有可能是由于自身性质导致的特异样本。计算1号样本光谱数据的杠杆值,计算结果如参考图5所示,1号样本杠杆值远远高于其他样本,因此1号样本为光谱数据和化学值均存在异常的样本,标记为异常样本。5.标记异常样本对处于散点图左上方样本点(10号样本)和右下方区域的样本点(148、63、130、46、70、141、154号样本),标记为异常样本点。将所有标记为异常的样本点剔除,建立偏最小二乘模型,模型的校正集均方根误差为0.72873,模型的相关系数为0.73028。校正集均方误差根低于原始建模的0.79264,模型的相关系数高于原始建模的0.66317,有效的识别了近红外光谱分析数据中的光谱异常样本和化学值异常样本。本文档来自技高网...

【技术保护点】
一种近红外光谱分析中的异常样本识别方法,其特征在于:步骤1:改变半数重采样算法的结果表达方式;步骤2:利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间;步骤3:利用Cook距离方法对化学值数据进行异常样本识别,选择最佳置信区间;步骤4:作样本散点图,判断特异样本;步骤5:将散点图左上方区域、右下方区域样本点标记为异常样本点。

【技术特征摘要】
1.一种近红外光谱分析中的异常样本识别方法,其特征在于:步骤1:改变半数重采样算法的结果表达方式;步骤2:利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间;步骤3:利用Cook距离方法对化学值数据进行异常样本识别,选择最佳置信区间;步骤4:作样本散点图,判断特异样本;步骤5:将散点图左上方区域、右下方区域样本点标记为异常样本点。2.如权利要求1所述的一种近红外光谱分析中的异常样本识别方法,其特征在于步骤1中改变半数重采样算法的结果表达方式的具体方法为:原算法中,每次采样后利用置信区间选取异常样本,对选择的异常样本进行计数累加,选取累加数最多的样本为异常样本;新方法改为每次采样后对计算得到的半数重采样距离进行累加,之后对累加的数据按照置信区间,选取...

【专利技术属性】
技术研发人员:王艳尹艳玲沈维政孙红敏李晓明
申请(专利权)人:东北农业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1