基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法技术

技术编号:21180747 阅读:31 留言:0更新日期:2019-05-22 13:25
本发明专利技术提供了一种基于PCA‑Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法。本发明专利技术针对拉曼峰相似的两种食源性致病菌——大肠杆菌0157:H7以及布鲁氏菌S2株识别精度不足的问题,提出一种基于PCA‑Stacking的拉曼集成分类算法,找到了鲁棒性更好的数学统计模型和计算方法。针对拉曼光谱中存在的毛刺,基线漂移问题,使用Savitzky‑Golay滤波器和非对称最小二乘实现光谱的预处理。通过网格搜索模型参数,证明了Stacking集成算法相比于K近邻、逻辑回归、支持向量机单一算法模型有更高的分类准确率。

Training Method of Raman Spectrum Recognition Model for Food-borne Pathogens Based on PCA-Stacking

The invention provides a training method for Raman spectrum recognition model of foodborne pathogenic bacteria based on PCA Stacking. The Raman integrated classification algorithm based on PCA Stacking is proposed to solve the problem that the recognition accuracy of two food-borne pathogenic bacteria with similar Raman peaks, Escherichia coli 0157:H7 and Brucella S2 strains, is insufficient, and a mathematical statistical model and calculation method with better robustness are found. To solve the problems of burrs and baseline drift in Raman spectra, Savitzky Golay filter and asymmetric least squares are used to realize spectral preprocessing. The parameters of grid search model prove that Stacking ensemble algorithm has higher classification accuracy than K-nearest neighbor, logistic regression and single algorithm model of support vector machine.

【技术实现步骤摘要】
基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法
本专利技术涉及一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法。
技术介绍
目前,用于检测食源性致病菌的方法有:形态学鉴定、免疫学检测及聚合酶链式反应等。但是,这些方法操作步骤复杂,周期长,不能有效地起到监测、预防作用。拉曼光谱是基于光和材料内化学键的相互作用而产生的,通过对食源性致病菌拉曼光谱信号的分析,可快速实现对致病菌的辨识。由于原始拉曼光谱存在许多噪声,并且不同物质可能在相同波长处有类似的峰形,这些因素降低了目前人工识峰的准确度,导致食源性致病菌的错误判别。
技术实现思路
本专利技术的目的在于提供一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法。为解决上述问题,本专利技术提供一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,包括:对原始大肠杆菌O157:H7、布鲁氏菌S2株的拉曼光谱进行归一化处理,对所述拉曼光谱去噪并扣除荧光背景;对去噪并扣除荧光背景后的拉曼光谱提取主成分;对提取主成分后的数据集进行X∶Y比例的划分,其中,X+Y=100,X%作为测试集,Y%作为训练集;基于所述训练集训练多个基础层次模型,基于每个基础层次模型的输出训练各个对应的元模型,将各个元模型聚合为Stacking模型;采所述测试集验证所述Stacking模型的准确率。进一步的,在上述方法中,使用Savitzky-Golay滤波器和非对称最小二乘对所述拉曼光谱去噪。进一步的,在上述方法中,对去噪并扣除荧光背景后的拉曼光谱提取主成分,包括:对去噪并扣除荧光背景后的拉曼光谱进行PCA降维处理,计算特征贡献率,根据所述特征贡献率提取所述拉曼光谱的主成分。进一步的,在上述方法中,根据所述特征贡献率提取所述拉曼光谱的主成分,包括:根据所述特征贡献率得到对应的帕累托图,根据所述帕累托图提取所述拉曼光谱的主成分。进一步的,在上述方法中,所述基础层次模型包括有K近邻、逻辑回归和支持向量机中的任两种以上单一分类器。进一步的,在上述方法中,所述的X=30,Y=70。与现有技术相比,本专利技术针对拉曼峰相似的两种食源性致病菌——大肠杆菌0157:H7以及布鲁氏菌S2株识别精度不足的问题,提出一种基于PCA-Stacking的拉曼集成分类算法,找到了鲁棒性更好的数学统计模型和计算方法。针对拉曼光谱中存在的毛刺,基线漂移问题,使用Savitzky-Golay滤波器和非对称最小二乘实现光谱的预处理。通过网格搜索模型参数,证明了Stacking集成算法相比于K近邻、逻辑回归、支持向量机单一算法模型有更高的分类准确率。附图说明图1是本专利技术一实施例的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法的流程图;图2是本专利技术一实施例的归一化后的原始光谱数据图;图3是本专利技术一实施例的经过Savitzky-Golay平滑后的光谱图;图4是本专利技术一实施例的去除荧光后的光谱图;图5是本专利技术一实施例的帕累托图;图6是本专利技术一实施例的架构图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,本专利技术提供一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,包括:步骤S1,对原始大肠杆菌O157:H7(EscherichiacoliO157:H7)、布鲁氏菌S2株(Brucella)的拉曼光谱进行归一化处理,对所述拉曼光谱去噪并扣除荧光背景;步骤S2,对去噪并扣除荧光背景后的拉曼光谱提取主成分;步骤S3,对提取主成分后的数据集进行X∶Y比例的划分,其中,X+Y=100,X%作为测试集,Y%作为训练集(trainset);步骤S4,基于所述训练集训练多个基础层次模型(Levelmodels),基于每个基础层次模型的输出训练各个对应的元模型(Metamodels),将各个元模型聚合为Stacking模型;在此,本步骤是Stacking集成学习多个模型的步骤;步骤S5,采所述测试集验证所述Stacking模型的准确率。在此,本专利技术针对拉曼峰相似的两种食源性致病菌——大肠杆菌O157:H7以及布鲁氏菌S2株,提出一种基于PCA-Stacking的分类算法,能缓解目前人工识峰出现的误判问题;与单一分类模型相比,PCA-Stacking模型鲁棒性更好。本专利技术的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,步骤S1,对所述拉曼光谱去噪,包括:使用Savitzky-Golay滤波器和非对称最小二乘对所述拉曼光谱去噪。本专利技术的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,步骤S2,对去噪并扣除荧光背景后的拉曼光谱提取主成分,包括:对去噪并扣除荧光背景后的拉曼光谱进行PCA降维处理,计算特征贡献率,根据所述特征贡献率提取所述拉曼光谱的主成分。本专利技术的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,根据所述特征贡献率提取所述拉曼光谱的主成分,包括:根据所述特征贡献率得到对应的帕累托图,根据所述帕累托图提取所述拉曼光谱的主成分。本专利技术的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,所述基础层次模型包括有K近邻、逻辑回归和支持向量机中的任两种以上单一分类器。本专利技术的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法一实施例中,X=30,Y=70。如图1所示,本专利技术一具体的实施例中的方法可以包括:S1:对原始光谱进行归一化处理,并使用Savitzky-Golay滤波器和非对称最小二乘对原始大肠杆菌0157:H7、布鲁氏菌S2株光谱去噪并扣除荧光背景。如图2所示,为归一化后的原始光谱数据,光谱图上存在许多噪声;如图3所示,为经过Sayitzky-Golay平滑后的光谱,毛刺现象几乎得以消除;如图4所示,为去除荧光后的光谱图。S2:对降噪后的拉曼光谱进行PCA降维处理,计算特征贡献率,根据帕累托图提取主成分。光谱在高维度下会出现数据样本稀疏、距离计算困难等问题。为缓解维数灾问题,使用主成分分析(PCA)实现对光谱特征的抽取,并画出它们的帕累托图(ParetoChart)。如图5所示,其中横坐标代表主成分个数,纵坐标代表主成分的贡献率。从图中我们可以发现,保留三个主成分后它们的贡献率达到95.41%,也就是说保留三个主成分几乎包含了所有的拉曼光谱信息。S3:对提取主成分后的数据集进行3:7划分,其中30%作为测试集,70%作为训练集,用于后续的模型训练及评估。本专利技术中采用的单一分类器有K近邻、逻辑回归和支持向量机。在K为2,以曼哈顿距离(Manhattandistance)作为度量标准时,K近邻模型最优分类准确率为91.85%;逻辑回归在性能上有一定的改善,它的分精确率达93.21%;在错误项惩罚参数C=0.1,内核为线性核时,支持向量机的分类精确率为94.14%。S4:Stacking集成学习多个模型。Stacking算法可以描述为:通过元分类器(Meta-Clas本文档来自技高网...

【技术保护点】
1.一种基于PCA‑Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,其特征在于,包括:对原始大肠杆菌O157:H7、布鲁氏菌S2株的拉曼光谱进行归一化处理,对所述拉曼光谱去噪并扣除荧光背景;对去噪并扣除荧光背景后的拉曼光谱提取主成分;对提取主成分后的数据集进行X:Y比例的划分,其中,x+Y=100,X%作为测试集,Y%作为训练集;基于所述训练集训练多个基础层次模型,基于每个基础层次模型的输出训练各个对应的元模型,将各个元模型聚合为Stacking模型;采所述测试集验证所述Stacking模型的准确率。

【技术特征摘要】
1.一种基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,其特征在于,包括:对原始大肠杆菌O157:H7、布鲁氏菌S2株的拉曼光谱进行归一化处理,对所述拉曼光谱去噪并扣除荧光背景;对去噪并扣除荧光背景后的拉曼光谱提取主成分;对提取主成分后的数据集进行X:Y比例的划分,其中,x+Y=100,X%作为测试集,Y%作为训练集;基于所述训练集训练多个基础层次模型,基于每个基础层次模型的输出训练各个对应的元模型,将各个元模型聚合为Stacking模型;采所述测试集验证所述Stacking模型的准确率。2.如权利要求1所述的基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法,其特征在于,使用Savitzky-Golay滤波器和非对称最小二乘对所述拉曼光谱去噪。3.如权利要求1所述的基于PCA-Stacking建立的食源性...

【专利技术属性】
技术研发人员:史如晋夏钒曾夏志平曾万聃曲晗李乾学杨瑞君
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1