一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法技术

技术编号:31980637 阅读:20 留言:0更新日期:2022-01-20 01:37
本发明专利技术公开了一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法。所述方法包括:(1)利用公开拉曼光谱数据库构建大数据集;(2)用重建算法重建大数据集;(3)利用大数据集训练CNN;(4)将CNN运用到不同拉曼光谱仪所测数据集中,实现迁移学习。本发明专利技术所提出的重建算法,能同时对光谱进行平滑和插值处理,且只需一次采样,滤除噪声的同时最大程度减少采样误差,进而提高CNN的迁移学习性能,其结果优于插值算法。基于此建立的CNN仅需75%的校准数据即可获得较高的迁移学习性能,优于现有CNN模型。本发明专利技术为CNN在拉曼光谱学中的迁移学习提供了一个更简单、更高效的途径。更高效的途径。更高效的途径。

【技术实现步骤摘要】
一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法


[0001]本专利技术属于拉曼光谱
和深度学习
,尤其涉及一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法。

技术介绍

[0002]随着深度学习技术的发展,神经网络模型在拉曼光谱
的应用成为了研究热门,尤其是在多分类问题上,神经网络模型通常能够表现出比传统机器学习方法更加优秀的性能,因此拉曼光谱学与深度学习技术相结合进行物质的识别和分类已成为一种必然趋势。卷积神经网络(CNN)模型作为一种热门的深度学习模型,已经在拉曼光谱学的应用中展示出其独特的优势,然而一个具有优良性能的CNN模型通常需要大量的训练数据进行训练,拉曼光谱通常难以在短时间内大量获得,这是CNN在拉曼光谱学中应用的一个主要挑战。
[0003]迁移学习是解决数据匮乏问题的一个有效手段,通过少量的校准数据,对已经受过大量训练的CNN模型进行简单的重新训练以获得良好的性能。然而迁移学习带来的另一个问题是数据尺寸不匹配,CNN要求输入数据必须具有与其相匹配的尺寸大小,而不同拉曼光谱仪所采集的光谱数据尺寸(数据点的数量,采样率等)通常不一致,这是CNN在拉曼光谱学中迁移学习所面对的一个主要问题。
[0004]类比在图像的迁移学习中,使用插值法来对图像尺寸大小进行缩放,以适应二维的CNN模型,目前在拉曼光谱学领域采用的是使用插值算法对光谱的尺寸大小进行缩放,以适应一维的CNN模型。然而较多的预处理步骤意味着对原始光谱的多次采样,必然会引入较多采样误差,降低CNN模型的性能。因此,开发一种既能对光谱尺寸大小进行缩放,又能实现去噪,并且最大程度减少采样次数,保留原始光谱信息的预处理方法将会很有意义。

技术实现思路

[0005]专利技术目的:本专利技术的目的在于提供一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法,以简化拉曼光谱的预处理步骤,并最大程度地保留光谱有用信息,提高信噪比,进而提高CNN模型在拉曼光谱中迁移学习的性能。
[0006]技术方案:一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法,包括以下步骤:
[0007]步骤1:从公开的拉曼光谱数据库获得原始光谱构建拉曼光谱大数据集;
[0008]步骤2:利用重建算法对大数据集中的拉曼光谱进行重建;
[0009]步骤3:利用数据增强方法来扩充数据;
[0010]步骤4:利用大数据集中的重建光谱训练一个CNN模型;
[0011]步骤5:利用两个不同的拉曼光谱仪构建两个自测拉曼光谱数据集;随后用重建算法对两个数据集中的光谱进行重建;
[0012]步骤6:将一个拉曼光谱仪所测数据作为校准数据,经过数据增强处理后,用于重新训练CNN模型的全连接层;另一个拉曼光谱仪所测数据集作为测试数据;
[0013]步骤7:使用K折交叉验证法产生不同比率的校准数据来测试CNN模型在迁移学习中对校准数据的需求;使用K最近邻分类器(KNN)来评估CNN模型的迁移学习性能。
[0014]进一步的,步骤2具体包括以下几个要点:
[0015]重建算法使用Savitzky

Golay(SG)算子来计算重建光谱上每个点的数据;
[0016]重建算法使用波数最小差值匹配法将重建光谱上的每个点匹配到原始光谱上的对应点,以此来定位SG算子的窗口位置;
[0017]SG算子的窗口长度和阶次可以自由设置;
[0018]重建光谱的起始点、终止点和采样率可以自由设置;
[0019]利用SG平滑结合样条插值算法的方法处理原始光谱,以评估重建算法的效果。
[0020]进一步的,所述的步骤4中,在训练过程中使用K折交叉验证方法,以评估训练后CNN模型的性能。
[0021]进一步的,所述的步骤7中,使用K折交叉验证法产生不同比率的校准数据,具体包括以下要点:
[0022]将校准数据集分成K组,依次选取每一组作为训练集,余下的K

1组作为验证集,以此完成K折交叉验证;
[0023]设置不同的K值,拆分出的每一组校准数据占总数据数量的比例不同,由此实现对CNN在迁移学习中对校准数据比例需求的探究。
[0024]有益效果:本专利技术与现有技术相比,具有以下优点:
[0025]本专利技术提供了一种重建算法作为拉曼光谱数据集的预处理方法。该方法能够同时实现光谱的去噪和插值处理,且只需要对光谱进行一次采样,简化了预处理步骤,并且最大程度地保留了光谱有用信息,提高了信噪比;
[0026]经过测试,基于该重建算法所建立的CNN模型只需要用与测试集数据量占比75%的校准数据进行再训练,即可获得优于KNN的性能。因此,基于该重建算法的CNN模型在拉曼光谱数据集上的迁移学习性能优于使用插值算法的CNN模型。
附图说明
[0027]图1是本专利技术提供的一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法的流程示意图;
[0028]图2是本专利技术提供的拉曼光谱重建算法的波数最小插值匹配法示意图;
[0029]图3是本专利技术提供的基于重建算法的卷积神经网络模型在拉曼光谱中的预训练效果柱状图;
[0030]图4是本专利技术提供的基于重建算法的卷积神经网络模型在不同拉曼光谱仪间的迁移学习效果散点图。
具体实施方式
[0031]现通过参考示范性实施例,本专利技术的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本专利技术并不受限于以下所公开的示范性实施例;可以通过不同形式
来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本专利技术的具体细节。
[0032]图1展示了本专利技术的主要流程,包括利用重建算法对拉曼光谱进行重建,并用于CNN模型的预训练和迁移学习中,具体实施方式如下:
[0033]从两个公开的拉曼光谱数据库——RRUFF和SOP数据库,下载831种矿物质和有机颜料共2563条原始光谱,构建起拉曼光谱大数据集。随后,利用重建算法进行重建并替换掉大数据集中的原始光谱。重建算法的具体步骤如下:
[0034]对于每一条拉曼光谱,首先确定光谱波数范围的起始点和终止点,并将起始点小于0cm
‑1的部分裁去,终止点大于2000cm
‑1的部分裁去。从起始点到终止点,生成一条采样间隔为1cm
‑1的空白光谱。对空白光谱中每一个数据点的计算,是由SG平滑算子来实现的,窗口长度为5,阶次为3的SG平滑算子公式如下:
[0035][0036][0037][0038][0039][0040]其中y
‑2,y
‑1,y0,y1和y2分别为平滑窗口中的五个原始光谱上的数据点。和分别用于计算空白光谱起始的两个点和末尾的两个点的值,则用于计算空白光谱其余所有点的值。空白光谱上每一个点,都按照波数最小差值匹配法定位到原始光谱中的对应点。
[0041]图2示出了本专利技术提供的拉曼光谱重建算法的波本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于拉曼光谱学的基于多项式重建算法的CNN迁移学习方法,其特征在于:包括以下步骤:步骤1:从公开的拉曼光谱数据库获得原始光谱构建拉曼光谱大数据集;步骤2:利用重建算法对大数据集中的拉曼光谱进行重建;步骤3:利用数据增强方法来扩充数据;步骤4:利用大数据集中的重建光谱训练一个卷积神经网络(CNN)模型;步骤5:利用两个不同的拉曼光谱仪构建两个自测拉曼光谱数据集;随后用重建算法对两个数据集中的光谱进行重建;步骤6:将一个拉曼光谱仪所测数据作为校准数据,经过数据增强处理后,用于重新训练CNN模型的全连接层;另一个拉曼光谱仪所测数据集作为测试数据;步骤7:使用K折交叉验证法产生不同比率的校准数据来测试CNN模型在迁移学习中对校准数据的需求;使用K最近邻分类器(KNN)来评估CNN模型的迁移学习性能。2.根据权利要求1所述的方法,其特征在于,所述的步骤2包括以下几个要点:重建算法使用Savitzky
...

【专利技术属性】
技术研发人员:尹建华尚林伟吴进锦王慧捷
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1