预测材料的被关注属性值的方法技术

技术编号:33720891 阅读:11 留言:0更新日期:2022-06-08 21:12
本发明专利技术涉及用于预测在通过红外光谱研究的样本中被关注属性值的计算机执行的方法。所述方法的目的在于生成校准函数。为此,选择一组校准样本,由此识别出异常值并从所述组校准样本中去除。使用主成分分析和奇异值分解来确定异常值。基于预先确定的算式来计算将异常值与剩余样本分离的阈值。还可以逐步增大阈值以动态设定阈值,这对于不在实验室条件下运行的分光装置是优选的。分光装置是优选的。分光装置是优选的。分光装置是优选的。

【技术实现步骤摘要】
【国外来华专利技术】预测材料的被关注属性值的方法


[0001]本专利技术涉及用于预测材料的被关注属性值的计算机执行的方法以及用于此方法的设备,所述设备包括适于执行所述方法的处理单元。

技术介绍

[0002]近红外(NIR)光谱是预测材料的被关注属性值的有用工具,特别是当远离通常进行定性和/或定量分析的分析实验室时。具体来说,农产品,例如饲料原料和/或饲料,可以在处理阶段例如烘烤和压力处理之前和之后、储存期间或之后以及在制备含有具体成分的饲料之后分析该等成分的存在和浓度。但是,需要足够的校准功能,以便通过近红外光谱提供精确可靠的预测。
[0003]所述校准函数通常通过多变量分析生成。这样使得能够适当考虑相关性,以估计复杂混合物的组成,并且补偿来自背景信号的干扰。通过NIR光谱和校准函数来预测被关注属性值是一个两步过程。在第一步中,在跨各种不同分析物和工具条件的若干种情景下,通过利用通过间接测量例如光信号强度和直接测量例如分析物浓度获得的数据集来构建校准模型。直接(例如分析物浓度)和间接(例如光信号强度)度量之间关系的通式为y=f(x1,x2,

,x
n
),其中y是要预测的被关注预期属性值(例如,分析物浓度),f是一定的函数(模型),并且x1,x2,

,x
n
是模型的自变量,并且具体来说,任何间接度量的结果,例如在(特定)数量的波长处转换的光学度量。该第一步的目标是开发一种有用的函数f,其反映间接度量与要预测的被关注预期属性值之间的关系。在第二步(预测)中,使用一组间接(光学)度量值的测得值x1,x2,

,x
n
来评估此功能,以便在未来某个时间进行光学测量时获得直接测量的估计值(例如分析物的浓度),而无需相应的直接测量。
[0004]有大量关于创建校准函数以通过NIR光谱法预测材料的被关注属性值的文献。大多数现有技术涉及用于创建校准函数的一般和特定概念。一些文献专门讨论干扰的补偿,例如在创建校准功能时,环境干扰和特定于设备的误差,例如测量误差和老化的发射源。但是,现有技术没有考虑光谱异常值的识别,更不用说在创建校准函数时如何处理这些光谱异常值,但是该等异常值很可能会在间接(光学)测量的累积过程中发生。因此,它们也很可能会损害校准功能的创建。异常值可能是由于测量的可变性,也可能是仪器误差的结果;后者有时被排除在数据集之外。一般来说,并且特别是在统计数据中,异常值被认为是与其他观测值显著不同的数据点,但是这在很大程序上会引起主观解释和误解读。另一方面,包括在数据集边缘的数据点对于有意义和稳健的校准是必要的,因此不应仅仅因为其看起来很奇怪就简单地跳过。这已经表明,与异常值相关的一个问题(即便不是主要问题)在于检测或识别,因为没有对异常值的严格定义。因此,最终,确定观察结果是否为异常值仍然是一项主观练习。由于缺乏对异常值的普遍接受的定义,因此存在多种检测异常值的方法。有些是图形的,例如正态概率图,有些是基于模型的,以及混合方法,例如所谓的箱线图。方法的选择以及如何处理异常值通常取决于具体情况。即使正态分布模型适用于被分析的数据,也必须预期大样本量的异常值,并且不应在存在该等异常值时自动将其丢弃。相应的应用
程序应使用对异常值具有鲁棒性的分类算法来对具有自然发生的异常值的数据进行建模。删除异常数据是许多科学家和科学讲师所反对的有争议做法。它在实践领域更容易接受,因为该过程的底层模型和测量误差的常规分布是确信的。可以排除由仪器读数误差导致的异常值,但希望至少对读数进行验证。具体来说,在红外光谱的情况下,尽可能准确且非常有效地识别,最好同时识别异常值是一项巨大挑战。当相应的红外光谱(间接测量)和相应的参考数据(直接测量)应作为创建适用于通过红外光谱来预测材料的被关注属性值的校准函数的基础时,这一点甚至更为相关。
[0005]因此,需要一种通过红外光谱来预测材料的被关注属性值的方法,所述方法使得能够在创建校准函数期间可靠且自动地识别和去除光谱异常值。

技术实现思路

[0006]因此,本专利技术的目的是一种用于预测材料的被关注属性值的计算机执行的方法,所述方法包括以下步骤:
[0007]a)提供样本的红外光谱群,其中所述光谱形成m
×
n输入数据矩阵X,其中m是行中的样本数,并且n是列中的数据点,
[0008]b)从步骤a)的所述光谱群中去除光谱异常值,包括以下步骤:
[0009]b1)通过对矩阵X进行主成分分析来获得主成分,
[0010]b2)从输入数据矩阵X生成对角矩阵∑,其含有矩阵X的奇异值σ
m
和载荷矩阵V,
[0011]b3)通过将输入数据矩阵X的每个数据点与步骤b2)的每个成分的载荷相乘来计算每个光谱的得分x
m
,形成X矩阵的每一列的平均值以提供B
0,m
值,并且通过下式来计算得分指数si
[0012][0013]b4)确定其本征值致使X对至少99%得分的回归收敛的成分N
C
的数量,并且通过下式来计算步骤a)的每个光谱的距离度量阈值D
i
[0014][0015]b5)计算步骤a)的每个光谱的每个主成分的所有得分的平均值,并且计算所述平均值与每个主成分的每个分数之间的距离度量,
[0016]b6)当步骤b4)中获得的主成分的得分的距离度量值大于步骤b4)的距离度量阈值时,将样本光谱视为光谱异常值,
[0017]b7)从步骤a)的光谱群中去除步骤b6)的光谱异常值,以得出清洁光谱群,
[0018]c)在步骤b7)的清洁光谱群上生成预测函数,
[0019]d)提供未知来源和/或组成的样本或与步骤a)中的样本具有相同来源和/或组成的样本的红外光谱,及
[0020]e)通过步骤c)的预测函数从步骤d)的光谱中预测被关注属性值。
具体实施方式
[0021]步骤a)中提供的样本红外光谱群限定n维数据空间,其中n是光谱中数据点的数量,并且m是样本数量。因此,红外光谱的数据可以由类型X
m
×
n
的输入数据矩阵表示,其中具有针对样本的m行以及针对数据表的n列,通常也写为m
×
n矩阵X。庞大的数据量使生成的矩阵相当复杂。因此,输入数据矩阵经过数据缩减,而不会丢失相关信息。这通常在主成分分析(PCA)中完成。这是一个统计过程,其中使用正交变换将一组可能相关变量的观测值(每个实体都有不同的数值)转换成一组称为主成分的线性不相关变量值。这种变换以特定方式定义,使得第一主成分具有最大可能的方差,即其致使数据中可能的最大可变性。每个进一步成分均与前面的成分正交,并且在最高可能方差方面仅次于前面的成分。所得的向量(每个均为变量的线性组合并且包含n个观测值)是不相关的正交基集。在主成分分析中,输入数据矩阵X
m
×
n
被分解为两个相互正交的矩阵,即U
m
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.用于预测材料的被关注属性值的计算机执行的方法,所述方法包括以下步骤:a)提供样本的红外光谱群,其中所述光谱形成m
×
n输入数据矩阵X,其中m是行中的样本数,并且n是列中的数据点,b)从步骤a)的所述光谱群中去除光谱异常值,包括以下步骤:b1)通过对所述矩阵X进行主成分分析来获得主成分,b2)从所述输入数据矩阵X生成对角矩阵Σ,其含有所述矩阵X的奇异值σ
m
和载荷矩阵V,b3)通过将所述输入数据矩阵X的每个数据点与步骤b2)的每个成分的所述载荷相乘来计算每个光谱的得分x
m
,形成X矩阵的每一列的平均值以提供B
0,m
值,并且通过下式来计算得分指数si:b4)确定其本征值致使X对至少99%得分的回归收敛的成分N
C
的数量,并且通过下式来计算步骤a)的每个光谱的距离度量阈值D
i
:b5)计算步骤a)的每个光谱的每个主成分的所有得分的平均值,并且计算所述平均值与每个主成分的每个分数之间的距离度量,b6)当步骤b4)中获得的主成分的得分的距离度量值大于步骤b4)的距离度量阈值时,将样本光谱视为光谱异常值,b7)从步骤a)的光谱群中去除步骤b6)的光谱异常值,以得出清洁光谱群,c)在步骤b7)的所述清洁光谱群上生成预测函数,d)提供未知来源和/或组成的样本或与步骤a)中的样本具有相同来源和/或组成的样本的红外光谱,及e)通过步骤c)的所述预测函数从步骤d)的光谱中预测被关注属性值。2.根据权利要求1所述的方法,其中所述距离度量是欧几里得距离度量、皮尔逊距离度量、马氏距离度量或从相似性度量获得的距离度量。3.根据权利要求1或2所述的方法,其中步骤b)还包括以下步骤:b5.1)将步骤b4)中获得的距离度量阈值增加+1,b5.2)使用步骤b5.1)的所述距离度量阈值确定在步骤b5)中获得的具有最高值的两个距离度量,b5.3)确定在步骤b5.2)中确定的距离度量值之间的差值,及b5.4)以步骤b5.1)的所述距离度量阈值重复步骤d5.1)至d5.3),直到步骤b5.3)中确定的所述差值至少为1,并且距离度量的最大值最多为8。4.根据权利要求1至3之一所述的方法,其还包括以下步骤:a1)在定量分析中确定步骤a)的每个样本中的所述被关注属性值,以提供参考数据集。5.根据权利要求4所述的方法,其中步骤c)中所述预测函数的生成包括分析步骤a1)的所述参考数据集和步骤b7)的所述清洁光谱群的数据相关性以给出所述预测函数。
6.根据权利要求1至5之一所述的方法,其中步骤...

【专利技术属性】
技术研发人员:I
申请(专利权)人:赢创运营有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1