本发明专利技术提供了一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,本发明专利技术针对大肠杆菌以及布鲁氏菌,提出一种基于adaboost集成算法的拉曼光谱分类法方法。对于两种不同病菌的拉曼光谱先进行数据预处理,包括去毛刺,降噪(Savitzky‑Golay滤波器),然后采样成数值型数据,之后对数据采用PCA降维,之后用基于元分类器为决策树的adaboost算法调用网格搜索模型找到最合适的参数,经验证,集成算法adaboost比单一类算法例如KNN、SVM等有更高的分类准确率。
Training method of Raman Spectrum Classification Model of foodborne pathogenic bacteria based on AdaBoost
【技术实现步骤摘要】
基于adaboost的食源性致病菌拉曼光谱分类模型训练方法
本专利技术涉及一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法。
技术介绍
目前,用于食源性致病菌检测的方法主要有:传统的生物学方法,显色培养基方法以及聚合酶链式反应等。但这些方法往往操作周期长,过程复杂,时效性较差。
技术实现思路
本专利技术的目的在于提供一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法。为解决上述问题,本专利技术提供一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,包括:对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。进一步的,在上述方法中,对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪。进一步的,在上述方法中,采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法,对食源性致病菌拉曼光谱数据流进行平滑降噪。进一步的,在上述方法中,所述adaboost算法为基于元分类器为决策树的adaboost算法。进一步的,在上述方法中,所述元分类器的个数为200,学习率为0.05。进一步的,在上述方法中,调整所述分类模型的参数后重新执行本步骤,包括:通过调用网格搜索模型,以调整所述分类模型的参数后重新执行本步骤。与现有技术相比,本专利技术具有如下有益效果:本专利技术利用机器学习方法,在一定程度上提升了识别两种食源性病菌拉曼光谱的准确率以及时效性,大大减轻了人工负担。附图说明图1是本专利技术一实施例的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法的流程图;图2是本专利技术一实施例的adaboost算法的数学原理图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1和2所示,本专利技术提供一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,包括:步骤S1,对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;步骤S2,对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;步骤S3,对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;步骤S4,三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。在此,模型选择以及参数调优方法方面,采用单一算法svm,knn等,以及集成算法adaboost测试数据,利用python的sklearn库设计机器学习流水线,查找各个算法最佳的拟合参数,对比结果,最后发现adaboost的效果最佳。这里主要因为adaboost是一个加法模型,它在每一轮训练当中,会给当前的弱分类器一个权重,如果分类器准确率高,则权重也相对较高,分类器的权重更新公式为α为分类器的权重,ε为误差率,m表示第几个分类器。同时它的损失函数也是利用样本权重计算的,一旦样本被错误分类,该样本的权重会相应提升,在下个分类器分类时会优先它的分类,样本权重更新公式为w表示样本权重,m表示更新轮次,该算法显示了更强大的泛化能力。分类准确率的度量指标时,对数据按照2∶1的比例划分训练集和测试集,共三份数据,每次用两份数据训练模型,一份数据作为最终检测,进而获得准确率,循环三次取三个准确率的平均值作为最终的度量指标,即交叉验证衡量最终的结果,保证算法的能力。本专利技术通过拉曼光谱对病菌的检测可以有效的现有的问题,而且使用模型识别的准确率比人工识别高得多。另外,本专利技术基于adaboost的集成分类算法,能够提升传统单一分类器分类以及人工分类准确率不高的问题。本专利技术的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,步骤S1,对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪。本专利技术的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,采用滤波器Savitzky-Golay对食源性致病菌拉曼光谱数据流进行平滑降噪,包括:Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法,对食源性致病菌拉曼光谱数据流进行平滑降噪。在此,降噪以及去除荧光背景时,这里主要使用Savitzky-Golay滤波器里面基于局域多项式最小二乘法拟合的滤波方法。这种滤波方法最大特点是滤除噪音的同时可以保证信号形状以及宽度不变,这里实际上是拟合了信号中的低频部分,而将高频成分平滑出去,然后对数据进行采样。本专利技术的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,所述adaboost算法为基于元分类器为决策树的adaboost算法。本专利技术的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,所述元分类器的个数为200,学习率为0.05。在此,模型调优时,采取了基于逻辑回归,感知机以及决策树的adaboost模型,经用数据集测试之后发现,当元分类器为决策树时准确率最高,此时adaboost采用的元分类器的个数为200,学习率为0.05。本专利技术的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法一实施例中,调本文档来自技高网...
【技术保护点】
1.一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,包括:/n对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;/n对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;/n对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;/n三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。/n
【技术特征摘要】
1.一种基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,包括:
对食源性致病菌拉曼光谱数据流进行平滑降噪,同时保持平滑降噪后的食源性致病菌拉曼光谱数据流中信号的形状和宽度不变;
对平滑降噪后的食源性致病菌拉曼光谱数据流进行采样,归一化处理,然后进行PCA降维,并计算食源性致病菌拉曼光谱数据流中各特征相关系数,保留食源性致病菌拉曼光谱数据流的主要特征,以得到PCA降维后的食源性致病菌拉曼光谱数据流;
对PCA降维后的食源性致病菌拉曼光谱数据流等比划分为三份数据,分三次划分不同的训练集和测试集,其中,每次按照2∶1的比例划分训练集和测试集;
三次中每次用其中的两份的训练集训练基于adaboost算法的分类模型,剩余的一份测试集作为所述分类模型的最终检测,循环三次分别得到每次的分类模型的准确率,若三次的准确率的平均值大于预设阈值,则调整所述分类模型的参数后重新执行本步骤;若三次的准确率的平均值大于预设阈值,则所述分类模型训练完成。
2.如权利要求1所述的基于adaboost的食源性致病菌拉曼光谱分类模型训练方法,其特征在于,对食源性致病菌拉曼光谱数据...
【专利技术属性】
技术研发人员:曾万聃,黄杰伦,夏志平,王其,
申请(专利权)人:上海应用技术大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。