The invention discloses a method for identifying abnormal samples in the near infrared spectrum analysis, which combines the half resampling and the Cook distance algorithm to identify the abnormal sample data of the near infrared spectrum analysis data. First change half resampling algorithm results expression of abnormal samples to identify the spectral data, and then use the Cook distance method for abnormal samples for chemical identification value through partial least squares modeling results to select the optimal confidence interval of each joint as two confidence interval in this method; for abnormal samples also appeared in two the method, if the value is high, the lever is rejected, otherwise reserved. The invention combines two kinds of independent algorithm can deal with anomalous spectral and chemical anomalies exist at the same time or there is only one case, and further evaluation of abnormal samples of special reserve, due to the characteristics of specific samples were identified, enhance model applicability and stability.
【技术实现步骤摘要】
本专利技术涉及近红外光谱分析
,具体涉及一种近红外光谱分析中的异常样本识别方法。
技术介绍
近红外光谱分析技术具有分析速度快、对样本无损害、成本低等特点,已广泛应用于农业、食品、医药等领域。近红外光谱分析数据包括样本光谱扫描数据和样本元素的化学值数据,样本制备方法不当、周围环境因素改变及仪器自身问题等因素会导致光谱数据中存在异常数据,而化学值的获取大多都是通过化学实验方法获得的,实验过程中的方法不当和误操作同样会引起化学值数据中存在异常。不同分析过程中的近红外光谱分析数据可能既包含光谱异常又包含化学值异常,也有可能只包含其中一种异常数据。近红外光谱分析结果的可靠性首先取决于原始数据的准确性,异常数据会影响实验数据的整体分布,最终影响所建模型的预测能力,因此识别并剔除异常样本是建立可靠模型的先决条件。
技术实现思路
本专利技术的目的是提供一种能够有效识别近红外光谱分析中光谱异常、化学值异常的异常样本识别方法,同时能够保留特异样本,保证分析模型可靠性的基础上,提高模型的适用性和稳定性。本专利技术的目的通过如下技术方案实现:一种近红外光谱分析中的异常样本识别方法,包括以下步骤:1.改变半数重采样算法的结果表达方式为了便于本专利技术中选择最佳置信区间,原方法中,每次采样后依据计算距离利用置信区间选取异常样本点,对异常样本点计数累加,根据累加结果选择异常样本;改为每次采样后对计算得到的距离累加,对累加的数据按照置信区间,选取最终的异常样本数据。2.利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间半数重采样算法置信区间设置为0.95到0. ...
【技术保护点】
一种近红外光谱分析中的异常样本识别方法,其特征在于:步骤1:改变半数重采样算法的结果表达方式;步骤2:利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间;步骤3:利用Cook距离方法对化学值数据进行异常样本识别,选择最佳置信区间;步骤4:作样本散点图,判断特异样本;步骤5:将散点图左上方区域、右下方区域样本点标记为异常样本点。
【技术特征摘要】
1.一种近红外光谱分析中的异常样本识别方法,其特征在于:步骤1:改变半数重采样算法的结果表达方式;步骤2:利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间;步骤3:利用Cook距离方法对化学值数据进行异常样本识别,选择最佳置信区间;步骤4:作样本散点图,判断特异样本;步骤5:将散点图左上方区域、右下方区域样本点标记为异常样本点。2.如权利要求1所述的一种近红外光谱分析中的异常样本识别方法,其特征在于步骤1中改变半数重采样算法的结果表达方式的具体方法为:原算法中,每次采样后利用置信区间选取异常样本,对选择的异常样本进行计数累加,选取累加数最多的样本为异常样本;新方法改为每次采样后对计算得到的半数重采样距离进行累加,之后对累加的数据按照置信区间,选取...
【专利技术属性】
技术研发人员:王艳,尹艳玲,沈维政,孙红敏,李晓明,
申请(专利权)人:东北农业大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。