一种近红外光谱校正集的筛选方法及装置制造方法及图纸

技术编号:36848142 阅读:12 留言:0更新日期:2023-03-15 16:50
本发明专利技术涉及分析化学技术领域,尤其涉及一种近红外光谱校正集的筛选方法及装置,其方法包括以下步骤:收集样本,调用t

【技术实现步骤摘要】
一种近红外光谱校正集的筛选方法及装置


[0001]本专利技术涉及分析化学
,尤其涉及一种近红外光谱校正集的筛选方法及装置。另外还涉及一种电子设备及非暂态计算机可读存储介质。

技术介绍

[0002]本部分中的陈述仅提供与本公开有关的背景信息并且不构成现有技术。
[0003]校正集所需样本数取决于样本自身的复杂程度,校正集样本的选择直接决定所建模型的适用性和准确性,多元校正中校正集的数量并非越多越好,其代表性才是我们优先考虑的,要求所选样本在待测指标方面具有很好的代表性,样品的光谱特征及其性质范围应能涵盖以后待测的样品,因近红外光谱独有的快速分析能力,我们可以轻松获得大量样本光谱,传统化学方法或物理方法测定物质含量或属性费时费力且需要很高的经济成本,为降低建模样本数量从而减少传统方法的工作量,可以事先根据光谱特征筛选出有代表性的样本,因而常用的样本筛选方法有KS算法、SPXY法、Rank

KS法等,这一类算法通常采用原始全光谱进行计算,存在耗时较长、容易受离群样本的影响、未考虑光谱差异并非全由所测样品的组成差异引起或者需要所有样本的化学含量数据等缺点。
[0004]基于上述,本领域技术人员亟需提供一种可以有效减少传统方法测定的工作量以及经济成本的针对校正集的筛选方法。

技术实现思路

[0005]专利技术人通过研究发现:本公开方法筛选校正集所建模型的预测性能较全部样本所建模型的预测性能降低程度不显著,且明显优于随机挑选样本的结果,同时经过专利技术人试验发现本公开适用于医药、石化、烟草、饲料等复杂样本的定量分析。
[0006]本公开的目的在于提供一种近红外光谱校正集的筛选方法及装置,来解决现有技术无法提供一种可以有效减少校正集样本测定工作量的筛选方法的技术问题,同时也辅助缓解了经济成本。
[0007]据本公开的一个方面,提供一种近红外光谱校正集的筛选方法,包括以下步骤
[0008]步骤1.收集样本,在近红外光谱仪上采集收集样本的近红外光谱;
[0009]步骤2.调用t

SNE将高维空间中光谱进行降维处理;
[0010]步骤3.利用t

SNE对低维空间中的嵌入点定义高斯联合分布;
[0011]步骤4.t

SNE结合使用Ku l l back

Leib ler散度优化高维和低维空间内的相似度指标;
[0012]步骤5.获得降维后的数据;
[0013]步骤6.任意选取k个对象作为初始的聚类中心,采用中位数作为聚类中心点;
[0014]步骤7.按照与中位数最近的原则,将剩余点分配到当前最佳的中位数代表的类中;
[0015]步骤8.在每一类中计算每个成员点对应的准则函数,选取准则函数最小时对应的
点作为新的中位数;
[0016]步骤9.重复执行步骤7

步骤8,直到所有的中位数点不再发生变化或者已达到设定的最大迭代次数;
[0017]步骤10.确定前述k个对象的各自样本数量,进而分别随机挑选部分数量的样本,直至所选的样本的个数等于预先确定的数目。
[0018]本公开的一些实施例中,所述步骤2中高维空间为三维空间。
[0019]本公开的一些实施例中,所述步骤2具体包括:高维光谱之间的欧式距离转换为表示相似性的条件概率,将高维空间中的光谱的相似度由高斯联合分布表示。
[0020]本公开的一些实施例中,所述步骤6中的k的数量为5

10个。
[0021]本公开的一些实施例中,所述步骤3中嵌入空间的相似度由t分布表示。
[0022]本公开的一些实施例中,所述步骤4具体包括通过建立如下函数,优化高维和低维空间内的相似度指标,其中建立的函数为:
[0023][0024]其中,D
KL
(p||q)表示概率q概率p之间的差异,p(x
i
)与q(x
i
)代表样本x
i
的概率,字母N代表N个样本。
[0025]本公开的一些实施例中,所述步骤8中的准则函数具体为类内准则函数。
[0026]据本公开的另一个方面,提供一种近红外光谱校正集的筛选装置,包括:采集单元,用于采集收集样本的近红外光谱,所述采集单元中包括近红外光谱仪;调用分析单元,用于调用t

SNE将高维空间中的光谱进行降维处理,利用t

SNE对低维空间中的嵌入点定义高斯联合分布,同时将t

SNE结合使用Ku l l back

Leib ler散度优化高维和低维空间内的相似度指标,获得降维后的数据;匹配单元,用于任意选取k个对象作为初始的聚类中心,采用中位数作为聚类中心点,按照与中位数最近的原则,将剩余点分配到当前最佳的中位数代表的类中,在每一类中计算每个成员点对应的准则函数,选取准则函数最小时对应的点作为新的中位数;循环单元,用于重复执行所述匹配单元内的执行步骤,直到所有的中位数点不再发生变化或者已达到设定的最大迭代次数;核准单元,用于确定前述k个对象的各自样本数量,进而分别随机挑选部分数量的样本,直至所选的样本的个数等于预先确定的数目。
[0027]据本公开的又一个方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的近红外光谱校正集的筛选方法的步骤。
[0028]据本公开的再一个方面,提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上任意一项所述的近红外光谱校正集的筛选方法的步骤。
[0029]本公开与目前公开的技术相比,具有如下的优点和有益效果:本公开在采用传统物理或化学方法测定样本含量或属性之前,先采用对原始高维光谱数据进行降维,滤除光谱数据的噪声,降低后续处理的计算强度,然后基于改进型聚类算法的准则函数结果从各个类别中筛选出具有代表性的样本,剔除相似样本,中位数质心和随机抽样的引入能显著降低异常样本的影响,减少传统方法测定的工作量及经济成本;同时本公开提供的近红外
定量建模校正集的筛选方法,所建模型的预测性能较全部样本所建模型的预测性能降低程度不显著,且明显优于随机挑选样本的结果。
附图说明
[0030]图1是本专利技术方法的流程示意图;
[0031]图2是本专利技术的实施例对应的试验红外光谱图;
[0032]图3是本专利技术的实施例对应的样本训练集t

SNE结果图;
[0033]图4是本专利技术的实施例对应的改进型聚类算法分类结果图;
[0034]图5是本专利技术的样本筛选结果图;
[0035]图6是现有技术的随机挑选样本的分布情况图;
[0036]图7是本专利技术的实施例的内部交叉验证结果图;
[0037]图8是本专利技术的全部样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种近红外光谱校正集的筛选方法,其特征在于,包括以下步骤步骤1.收集样本,在近红外光谱仪上采集收集样本的近红外光谱;步骤2.调用t

SNE将高维空间中的光谱进行降维处理;步骤3.利用t

SNE对低维空间中的嵌入点定义高斯联合分布;步骤4.t

SNE结合使用Kullback

Leibler散度优化高维和低维空间内的相似度指标;步骤5.获得降维后的数据;步骤6.任意选取k个对象作为初始的聚类中心,采用中位数作为聚类中心点;步骤7.按照与中位数最近的原则,将剩余点分配到当前最佳的中位数代表的类中;步骤8.在每一类中计算每个成员点对应的准则函数,选取准则函数最小时对应的点作为新的中位数;步骤9.重复执行步骤7

步骤8,直到所有的中位数点不再发生变化或者已达到设定的最大迭代次数;步骤10.确定前述k个对象的各自样本数量,进而分别随机挑选部分数量的样本,直至所选的样本的个数等于预先确定的数目。2.根据权利要求1所述的筛选方法,其特征在于,所述步骤2中高维空间为三维空间。3.根据权利要求2所述的筛选方法,其特征在于,所述步骤2具体包括:高维光谱之间的欧式距离转换为表示相似性的条件概率,将高维空间中的光谱的相似度由高斯联合分布表示。4.根据权利要求1所述的筛选方法,其特征在于,所述步骤6中的k的数量为5

10个。5.根据权利要求1所述的筛选方法,其特征在于,所述步骤3中嵌入空间的相似度由t分布表示。6.根据权利要求1所述的筛选方法,其特征在于,所述步骤4具体包括通过建立如下函数,优化高维和低维空间内的相似度指标,其中建立的函数为:其中,D
KL
(p||q)表示概率q概率p之间的差异...

【专利技术属性】
技术研发人员:江苏王茺黄果杨钢刘海涛
申请(专利权)人:四川威斯派克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1