一种拉曼光谱数据的智能建库方法技术

技术编号:30015631 阅读:23 留言:0更新日期:2021-09-11 06:22
本发明专利技术提出一种拉曼光谱数据的智能建库方法,首先利用小波变换将原始拉曼光谱的一维序列信号变换为小波空间中的二维信号,然后输入生成对抗网络进行训练。生成对抗网络包括一个生成模型和一个判别模型,以两个模型对抗的形式训练;前者输入随机生成的向量产生生成光谱(二维格式),后者输入原始光谱和生成光谱(二维格式)并判断输入是否为原始光谱。生成对抗网络的训练完成后,利用其中的生成模型产生大量的与原始光谱相似的生成光谱(二维格式),并与原始光谱联合建立光谱数据库。该数据库以二维信号格式来存储光谱数据。本发明专利技术的方法解决了将深度学习应用于拉曼光谱分析领域时所面临的光谱数据采集难、成本高和耗时长等问题,推动了深度学习方法在光谱分析应用的落地。地。地。

【技术实现步骤摘要】
Systems,1998.》通过对真实光谱添加不同程度的高斯噪声生成大量模拟光谱。
[0005]同时,在计算机视觉领域兴起的数据增强方法,例如生成对抗网络(Generative Adversarial Networks,GAN)也被引入了拉曼光谱分析领域《Yu S,Li H,Li X,et al.Classification of pathogens by Raman spectroscopy combined with generative adversarial networks[J].Science of The Total Environment,2020,726:138477》。生成对抗网络由生成模型(Generative Model)和判别模型(Discriminative Model)两部分组成,通过向生成模型输入噪声向量生成大量数据,并由判别模型根据真实数据对生成数据进行判别这种方式,使生成模型生成与真实数据分布基本一致的生成数据。将生成对抗网络应用于拉曼光谱,以原始拉曼光谱作为学习目标,直接产生与原始光谱相同维数的生成光谱。直接使用光谱信号训练生成对抗网络时,其卷积结构无法很好地利用光谱局部性特征,且训练过程不稳定,使得生成模型无法很好的模拟真实光谱数据的分布。实验证明,这样生成的光谱大都类似于原始光谱添加高斯噪声后的信号,直接加入数据库用于训练将降低物质分类的准确性,无法准确完成物质定性检测。初步分析,这是因为序列形式的拉曼光谱数据缺乏空间相关性造成的。生成对抗网络中的卷积核无法提取到足够的局部特性,从而导致了生成数据包含类似于噪声的毛刺信息。
[0006]对实际采集的光谱添加一定程度的高斯噪声可以模拟大量具有真实光谱特征的数据,但也不可避免地改变了光谱的信噪比,导致模拟光谱与真实光谱的数据分布不一致。这违背了机器学习中训练和测试数据同分布的假设,若使用添加了高斯噪声的模拟光谱进行机器学习模型的训练,很可能学习到一个对模拟光谱过拟合的模型,无法可靠运用于真实光谱的物质检测。同时,添加高斯噪声时需要人工调节高斯噪声强度等相关参数,若噪声过强则会淹没原光谱信号,若噪声太弱则模拟光谱与真实信号高度相似,无法实现数据增强的目标。
[0007]将纯物质的光谱线性叠加的方式能够生成大量混合物的模拟光谱,但仅简单地设置权值将若干纯净物的光谱线性加和忽略了实际混合物中物质分子之间的相互作用。在实际混合物的光谱中,很可能存在某些峰由于分子之间的相互作用而被淹没或得到增强的现象,这种非线性的变化是线性加和的方式无法模拟得出的。由此叠加生成的模拟拉曼光谱可信度不高,无法用于训练或者构建数据库。

技术实现思路

[0008]本专利技术的主要目的在于克服现有技术中建立拉曼光谱数据库存在的困难,提出一种拉曼光谱数据的智能建库方法,能快速高效的建立丰富的拉曼光谱数据库,可用于深度学习模型的训练和测试,为最终实现准确的现场物质检测奠定数据基础。
[0009]本专利技术采用如下技术方案:
[0010]一种拉曼光谱数据的智能建库方法,其特征在于,包括如下步骤:
[0011]1)使用连续小波变换对数据库中第c种目标物质(c=1,...,C)的所有原始拉曼光谱进行特征变换,得到原始拉曼光谱的二维数据信号,C为目标物质的种类数量;
[0012]2)生成随机向量z,输入训练好的针对第c种目标物质的生成模型,获得对应的生成光谱的二维信号,重复本步骤M次,获得M个生成光谱的二维信号,并标注为第c种目标物质;
[0013]3)对其它目标物质重复步骤1)

2),则产生C
×
M个生成光谱的二维信号构成二维数据集合,联合步骤1)得到的原始拉曼光谱的二维信号建立一个大型的拉曼光谱数据库,其覆盖C类目标物质的大量已标注样本。
[0014]步骤1)具体为:设原始拉曼光谱为S={s
j
|j=1,2,...,N
c
},其中N
c
表示标注了第c种目标物质的原始拉曼光谱的数目;每个拉曼光谱表示为s
j
(t),其中t=[t1,t2,...,t
n
]是拉曼光谱位移序列,n表示每个拉曼光谱位移序列的长度,s
j
(t
i
)表示在t
i
位置的拉曼光谱信号强度,i=1,2,...,n;对每一个拉曼光谱s
j
(t)使用连续小波变换进行特征变换,得到其时频域的二维信号:
[0015][0016]其中ψ(t)为小波母函数,a是长度为l的缩放因子向量,b为平移因子向量,其取值与t相同,则第c种目标物质的时频域二维数据集合:与t相同,则第c种目标物质的时频域二维数据集合:为l行n列的二维矩阵。
[0017]步骤2)中,还包括训练针对第c种目标物质的生成对抗网络,其包括:先建立针对第c种目标物质的生成对抗网络,再将特征变换后的第c种目标物质的原始拉曼光谱的二维信号作为训练集输入该生成对抗网络进行训练,获得其中训练好的针对第c种目标物质的生成模型。具体的,预先构造针对第c种目标物质的生成对抗网络,其包括两个神经网络模型:生成模型G
c
和判别模型D
c
,将第c种目标物质的原始拉曼光谱的二维数据集合WT
c
分为若干批(batch),每一批WT
batch
包括batchSize个拉曼光谱数据,所述训练生成对抗网络的步骤具体包括如下:
[0018]2.1)将该批原始拉曼光谱的二维数据集合WT
batch
,输入判别模型D
c
,然后用判别模型D
c
的输出D
c
(WT
batch
)计算判别模型D
c
的第一部分损失,并将该损失进行反向传播;所述第一部分损失如下:
[0019][0020]2.2)生成随机向量集合Z
batch
={z
batch,k
|k=1,...,batchSize},每个噪音向量长度为d,逐一将z
batch,k
输入生成模型G
c
得到二维信号G
c
(z
batch,k
),再将二维信号G
c
(z
batch,k
)输入判别模型D
c
来计算第二部分损失,最后将该损失进行反向传播和梯度下降;所述第二部分损失如下:
[0021][0022]2.3)使用2.2)的中间结果D
c
(G
c
(z
batch,k
))计算生成模型G
c
的损失,也将该损失进行反向传播和梯度下降;所述生成模型Gc的损失如下:
[0023][0024]2.4)对每一批原始拉曼光谱的二维数据集合重复步骤2.1

2.3),则完成一轮训练,重复进行Y轮训练,则第c种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拉曼光谱数据的智能建库方法,其特征在于,包括如下步骤:1)使用连续小波变换对数据库中第c种目标物质的所有原始拉曼光谱进行特征变换,得到原始拉曼光谱的二维数据信号,c=1,

,C,C为目标物质的种类数量;2)随机生成向量z,输入训练好的针对第c种目标物质的生成模型,获得对应的生成光谱的二维信号,重复本步骤M次,获得M个生成光谱的二维信号,并标注为第c种目标物质;3)对其它目标物质重复步骤1)

2),则产生C
×
M个生成光谱的二维信号构成二维数据集合,联合步骤1)得到的原始拉曼光谱的二维信号建立一个大型的拉曼光谱数据库,其覆盖C类目标物质的大量已标注样本。2.如权利要求1所述的一种拉曼光谱数据的智能建库方法,其特征在于,步骤1)具体为:设原始拉曼光谱为S={s
j
|j=1,2,

,N
c
},其中N
c
表示标注了第c种目标物质的原始拉曼光谱的数目;每个拉曼光谱表示为s
j
(t),其中t=[t1,t2,

,t
n
]是拉曼光谱位移序列,n表示每个拉曼光谱位移序列的长度,s
j
(t
i
)表示在t
i
位置的拉曼光谱信号强度,i=1,2,...,n;对每一个拉曼光谱s
j
(t)使用连续小波变换进行特征变换,得到其时频域的二维信号:其中ψ(t)为小波母函数,a是长度为l的缩放因子向量,b为平移因子向量,其取值与t相同,则第c种目标物质的时频域二维数据集合:WT
sj
为l行n列的二维矩阵。3.如权利要求1所述的一种拉曼光谱数据的智能建库方法,其特征在于,步骤2)中,还包括训练针对第c种目标物质的生成对抗网络,其包括:先建立针对第c种目标物质的生成对抗网络,再将特征变换后的第c种目标物质的原始拉曼光谱的二维信号作为训练集输入该生成对抗网络进行训练,获得其中训练好的针对第c种目标物质的生成模型。4.如权利要求3所述的一种拉曼光谱数据的智能建库方法,其特征在于,预先构造针对第c种目标物质的生成对抗网络,其包括两个神经网络模型:生成模型G
c
和判别模型D
c
,将第c种目标物质的原始拉曼光谱的二维数据集合WT
c
分为若干批batch,每一批WT<...

【专利技术属性】
技术研发人员:吴德文韩李翔陈嘉祥王思伟李超然刘国坤罗思恒曾勇明谢怡
申请(专利权)人:厦门市普识纳米科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1