当前位置: 首页 > 专利查询>中北大学专利>正文

基于随机森林迁移学习的红外光谱模型传递方法技术

技术编号:15618554 阅读:81 留言:0更新日期:2017-06-14 04:01
本发明专利技术公开一种基于随机森林迁移学习的红外光谱模型传递方法,利用随机森林思想将主仪器扫描的样本数据集利用Bootstrap方法生成多个子数据集;针对每个子数据集,结合目标仪器扫描的样本数据集,利用迁移学习算法建立目标仪器上的分析模型;针对目标仪器上采集的待测样本红外光谱,根据建立的每个分析模型预测其待测组分含量;计算每个待测样本与建立的各个分析模型中样本之间的结构分布相似度,以确定与每个待测样本对应的各个目标分析模型权重因子;再利用加权平均方法对预测结果进行汇总,得到最终的待测组分含量。该方法具备鲁棒性强、自适应的优点,有效提升模型传递的准确度和稳定性,可以广泛应用于固相、液相和气相的红外光谱模型传递领域中。

【技术实现步骤摘要】
基于随机森林迁移学习的红外光谱模型传递方法
本专利技术涉及一种基于随机森林迁移学习的红外光谱模型传递方法,适用于不同厂家、不同型号红外光谱仪的跨平台模型通用方法。
技术介绍
红外光谱分析是一种新兴的分析技术,由于它具有快速、无损和无污染等优点,在农业、化工和环境监测等领域有着广泛的应用。红外光谱分析技术要求红外光谱仪和定性/定量分析模型必须协调工作,否则均会对分析结果由影响。然而,在实际的应用过程中,通常会存在红外光谱仪生产厂家不同、型号不同等情况,致使所建立的分析模型无法适用于所有红外光谱仪,而为每台设备单独建立一个分析模型,则会花费大量的人力物力和时间。传统的模型传递方法包括斜率截距法、直接校正法、分段直接校正法、Shenk’s法等。但是上述几种方法均为有标样方法,即事先准备好多个标准样本,分别在主仪器和目标仪器上对这些样本进行光谱扫描,接着利用数学方法确定两者间的映射关系。对于新的待测样本,在目标仪器上扫描光谱后,利用映射函数对其进行转换,再使用主仪器上建立的原模型进行预测。但是在实际应用中,一方面,用户通常很难将标准样本长期保存,环境的变化往往会造成样本性质变化;另一方面,由于受物理空间影响,将标准样本进行长途运输亦显得不具操作性。中国海洋大学贺英于2012年在其博士论文中提出了一种新的模型传递方法——基于集成迁移学习的近红外光谱模型传递方法,通过将迁移学习、样本相似匹配和集成学习等方法相互结合,构建了具有一定稳健性的迁移模型。但是,该方法存在以下两点不足:(1)该方法中分别利用支持向量机(SupportVectorMachine,SVM)、K近邻(K-NearNeighbor,KNN)和偏最小二乘(PartialLeastSquare,PLS)三种方法建立回归模型,然后再进行加权集成,但是三种方法所建立的模型均是在同一样本分布的前提下完成的,因此当待测样本的分布与建模时所用的样本分布不同时,则可能会出现“负迁移”现象;换句话说,当原模型的泛化性能(鲁棒性)较差时,原模型的误差也会传递到目标仪器上;(2)当目标仪器上的待测样本分布发生变化时,如何根据待测样本的局部结构,自适应地调整各个弱目标分析模型的权重。因此,研究跨设备的模型传递方法,使得在某台红外光谱仪上已经建立好的分析模型能够快速转换到新的仪器上,具有重要的研究意义和应用价值。
技术实现思路
针对
技术介绍
中存在的问题,本专利技术的目的是提供一种基于随机森林迁移学习的红外光谱模型传递方法,可以自适应地调整随机森林中各个映射模型的权重因子,有效提升模型传递的准确度和稳定性。本专利技术的技术方案是这样实现的:一种基于随机森林迁移学习的红外光谱模型传递方法,包括以下步骤:S1、将主仪器扫描采集得到的样本光谱数据集Dm利用Bootstrap随机抽样方法生成K个子数据集:S2、针对每个子数据集结合目标仪器上扫描得到的数据集Ds,利用迁移学习算法建立目标仪器上的红外光谱与化学组分间的映射模型:同时形成新的数据集S3、针对待测样本,利用目标仪器扫描其红外光谱xi,并将其送入到每个映射模型从而得到每个映射模型给出的化学组分预测值:S4、计算待测样本xi与数据集中每个样本的相似度,并进行累加求和,记为:Si(1≤i≤k);S5、针对待测样本xi,计算各个映射模型对应的权重因子:S6、利用加权平均方法计算待测样本的化学组分含量:在上述技术方案中,所述步骤S2中的迁移学习算法包括基于实例的迁移算法和基于特征的迁移算法。在上述技术方案中,所述步骤S2中映射模型包括线性模型和非线性模型。在上述技术方案中,所述线性模型为多元回归和偏最小二乘;非线性模型为人工神经网络、支持向量机和极限学习机。在上述技术方案中,所述步骤S2中映射模型的建立包括红外光谱预处理和特征选择。在上述技术方案中,所述红外光谱预处理包括去噪和基线校正;特征选择包括无信息变量消除法、区间偏最小二乘法、遗传算法、蝙蝠算法和稀疏优化等。在上述技术方案中,所述步骤S4中相似度度量方法包括欧式距离法、L范数法、相关系数法,以及将样本映射到其它高维或者低维空间后再计算得到的相似性度量方法。在上述技术方案中,其特征在于:所述步骤S4中相似度度量结果包括样本间越接近,相似度越高,Si的值越大。在上述技术方案中,所述步骤S5中各个映射模型对应的权重因子满足关系:本专利技术基于随机森林迁移学习的红外光谱模型传递方法,首先利用随机森林思想,将主仪器扫描得到的样本数据集利用Bootstrap方法生成多个分布结构不同的子数据集;其次,针对每个子数据集,结合目标仪器扫描得到的样本数据集,利用基于实例的迁移学习算法建立目标仪器上的分析模型;接着,针对目标仪器上采集的待测样本红外光谱,根据建立的每个分析模型预测其待测组分含量;然后,基于局部结构映射思想,计算每个待测样本与建立的各个分析模型中样本之间的结构分布相似度,以确定与每个待测样本对应的各个目标分析模型权重因子;最后,利用加权平均方法对预测结果进行汇总,以得到最终的待测组分含量。与现有方法相比,该方法具备鲁棒性强、自适应的优点,不仅可以有效提升模型传递的准确度和稳定性,还可以自适应样本分布结构发生变化的情形,因此可以广泛应用于固相、液相和气相的红外光谱模型传递领域中。附图说明图1为本专利技术基于随机森林迁移学习的红外光谱模型传递方法流程图;图2为同一样本在三台不同仪器下扫描的红外光谱图;图3为目标仪器mp5测试集预测结果对比示意图;图4为目标仪器mp6测试集预测结果对比示意图;图5为两个不同样本对应的随机森林映射模型权重因子大小情况示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术所述的一种基于随机森林迁移学习的红外光谱模型传递方法流程如图1所示,不失一般性,假设各有一台主仪器和目标仪器,已知利用主仪器扫描多个样本的光谱及其化学组分含量的数据集Dm,记为其中,为包含P个波长点的样本扫描红外光谱;为各个样本的化学组分含量;N为样本的个数。已知利用目标仪器扫描多个样本的光谱及其化学组分含量数据集Ds,记为其中,为包含P个波长点的样本扫描红外光谱;为各个样本的化学组分含量;M为样本的个数。一般情况下,M<N。以及利用目标仪器扫描得到的待分析样本红外光谱对应的化学组分含量yi为未知量,需要我们通过计算得出。首先,将主仪器扫描采集得到的光谱样本数据集Dm利用Bootstrap随机抽样方法生成K个子数据集:即采用有放回抽样方式,以第i(1≤i≤k)轮为例,每次从Dm中抽取一个样本,共抽取N次,形成新的集合由于是有放回抽样,集合虽然同样包含了N个样本,但可能包含了若干重复样本,将重复样本剔除后,即形成第i(1≤i≤k)个子数据集根据概率论相关知识可以计算出,子数据集中包含了原数据集Dm中约62%的样本。尽管子数据集中样本数量有所减少,但每个子数据集中的样本分布规律均不相同,这是随机森林算法的本质,从而可以提升模型的鲁棒性。其次,针对每个子数据集结合目标仪器本文档来自技高网
...
基于随机森林迁移学习的红外光谱模型传递方法

【技术保护点】
一种基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:包括以下步骤:S1、将主仪器扫描采集得到的样本光谱数据集D

【技术特征摘要】
1.一种基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:包括以下步骤:S1、将主仪器扫描采集得到的样本光谱数据集Dm利用Bootstrap随机抽样方法生成K个子数据集:S2、针对每个子数据集结合目标仪器上扫描得到的数据集Ds,利用迁移学习算法建立目标仪器上的红外光谱与化学组分间的映射模型:同时形成新的数据集S3、针对待测样本,利用目标仪器扫描其红外光谱xi,并将其送入到每个映射模型从而得到每个映射模型给出的化学组分预测值:S4、计算待测样本xi与数据集中每个样本的相似度,并进行累加求和,记为:Si(1≤i≤k);S5、针对待测样本xi,计算各个映射模型对应的权重因子:S6、利用加权平均方法计算待测样本的化学组分含量:2.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述步骤S2中的迁移学习算法包括基于实例的迁移算法和基于特征的迁移算法。3.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:所述步骤S2中映射模型包括线性模型和非线性...

【专利技术属性】
技术研发人员:陈媛媛李墅娜张瑞王志斌景宁
申请(专利权)人:中北大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1