一种基于支持向量机的近红外光谱数据分析方法技术

技术编号:19824032 阅读:26 留言:0更新日期:2018-12-19 15:30
本发明专利技术公开了一种基于支持向量机的近红外光谱数据分析方法,包括如下步骤:1)采集样本的近红外光谱图和样本中某种物质的含量;2)对数据进行预处理,同时进行特征波长选择;3)取m个数据作为训练集,剩下的n‑m个数据作为测试集;4)基于训练集和测试集,对数据进行归一化处理;5)寻找最佳参数惩罚因子c和RBF核函数中的方差g,进行第一次支持向量机回归模型训练;6)将第一次模型预测中不能正确分类的样本加入到训练集中,重复上述的3)至5)步,建立第二次支持向量机回归的模型;7)存储训练出来的近红外光谱数据分析的回归模型;8)进行支持向量机仿真预测。本发明专利技术能够更为准确的分析近红外光谱的数据,预测的精度高。

【技术实现步骤摘要】
一种基于支持向量机的近红外光谱数据分析方法
本专利技术涉及红外光谱数据分析技术,尤其涉及一种基于支持向量机的近红外光谱数据分析方法。
技术介绍
目前近红外光谱数据分析中常用到的算法常用的有:偏最小二乘法:建立回归模型的同时可以进行主成分分析简化数据,预测性能较好,但是仅在少数情况下使用具有优势;BP神经网络算法:具有很强的非线性映射能力和自学习能力,但是学习速度慢,容易出现“过拟合”现象;线性判别分析法:属于有监督的学习降维,不适合非高斯分布样本进行降维,可能会过度拟合数据;主成分分析法:有助于信息的提取和聚类分析,能够有效地降低误差和消除噪音,当样本中的部分有用变量的相关性很小时,容易发生遗漏。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于支持向量机的近红外光谱数据分析方法。本专利技术解决其技术问题所采用的技术方案是:一种基于支持向量机的近红外光谱数据分析方法,包括如下步骤:1)采集样本的近红外光谱图和样本中某种特征物质的含量,例如蛋白质或者油的含量;2)对数据进行预处理以减少近红外光谱噪声对模型构建的影响,同时进行特征波长选择;3)利用随机数函数产生得到的m个数据作为训练集,剩下的(n-m)个数据作为测试集;4)基于训练集和测试集,对数据进行归一化处理;5)寻找最佳参数c(惩罚因子)和参数g(RBF核函数中的方差),训练支持向量机,进行反归一化,并且进行第一次支持向量机回归模型的训练;参数寻找具体如下:核函数采用了默认的RBF核函数,让惩罚因子c和RBF核函数中的方差g在设定的范围内进行取值,自由组合得到多组c和g参数的组合,对于取定的参数组合,把上述的训练集作为原始数据集,利用交叉验证的方法在此组c和g下进行训练,将模型准确率最高的c和g参数作为最佳参数;当模型的性能相同时,选择惩罚因子c比较小的参数组合;6)若存在第一次模型训练中不能正确分类的样本,将第一次模型预测中不能正确分类的样本加入到训练集中,重复上述的步骤3)至5),建立第二次支持向量机回归的模型,通过支持向量机回归对近红外光谱的数据进行分析,得到训练集预测结果;7)存储训练出来的近红外光谱数据分析的回归模型;8)进行支持向量机仿真预测,得出训练集预测结果和测试集预测结果进行对比。本专利技术产生的有益效果是:本专利技术提供了一种准确率更高的预测方法。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术实施例的近红外光谱图;图2是本专利技术实施例的训练集预测结果对比图;图3是本专利技术实施例的测试集预测结果对比图;图4是本专利技术实施例的方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图4所示,基于支持向量机(SVM)的近红外光谱数据分析方法,该方法的具体步骤为:1)采集样本的近红外光谱图以及样本中蛋白质的含量。(219个样本数据)近红外光谱图如图1:2)对数据进行预处理,同时选取特征波长;本实施例采用的预处理方法是对原始光谱数据的离散点进行两次求导,并且筛选特征波长,用于后续的模型构建。3)利用随机数函数产生得到的175个数据作为训练集,剩下的44个数据作为测试集;4)对数据进行归一化处理,调用工具包中的函数进行归一化。5)寻找最佳参数c(惩罚因子)和参数g(RBF核函数中的方差),严格按照:通过查阅文献之后,核函数采用了默认的RBF核函数,让参数c(惩罚因子)和参数g(RBF核函数中的方差)在设定的范围内进行取值,自由组合得到多组c和g参数的组合。对于取定的参数组合,把上述的训练集作为原始数据集,利用交叉验证的方法在此组c和g下进行训练,将模型准确率最高的c和g参数作为最佳参数。当模型的性能相同时,为了减少计算时间,可以优先选择惩罚因子c比较小的参数组合,因为惩罚因子c越大,得到的支持向量数将越多,计算量越大。选择出最佳参数之后,对数据进行反归一化处理,创建支持向量机模型,完成第一次模型训练。6)将第一次模型预测中不能正确分类的样本作为支持向量,加入到训练集中,重复上述的三至五步,建立第二次支持向量机回归的模型预测,对训练集进行预测。7)使用支持向量机模型训练函数进行模型训练,创建并存储训练出来回归预测近红外光谱数据分析的模型,同时得到测试集结果。8)利用支持向量机模型预测函数进行SVM仿真预测,通过比较参数rmse(均方误差)和R2(决定系数)与训练集预测结果对比:如图2和图3,本实施例中训练集结果为rmsec=0.01249,R^2=0.99956;测试集结果为rmsep=0.039206,R^2=0.9952。应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本专利技术所附权利要求的保护范围。本文档来自技高网...

【技术保护点】
1.一种基于支持向量机的近红外光谱数据分析方法,其特征在于,包括如下步骤:1)采集样本的近红外光谱图和样本中某种特征物质的含量;2)对数据进行预处理以减少近红外光谱噪声对模型构建的影响,同时进行特征波长选择;3)取m个数据作为训练集,剩下的n‑m个数据作为测试集;4)基于训练集和测试集,对数据进行归一化处理;5)寻找最佳参数:惩罚因子c和RBF核函数中的方差g,选择出最佳参数之后,对数据进行反归一化处理,创建支持向量机模型,并且进行第一次支持向量机回归模型的训练;最佳参数寻找具体如下:核函数采用了默认的RBF核函数,让惩罚因子c和RBF核函数中的方差g在设定的范围内进行取值,自由组合得到多组c和g参数的组合,对于取定的参数组合,把上述的训练集作为原始数据集,利用交叉验证的方法在此组c和g下进行训练,将模型准确率最高的c和g参数作为最佳参数;当模型的性能相同时,选择惩罚因子c比较小的参数组合;6)若存在第一次模型训练中不能正确分类的样本,将第一次模型预测中不能正确分类的样本加入到训练集中,重复上述的步骤3)至5),建立第二次支持向量机回归的模型,通过支持向量机回归对近红外光谱的数据进行分析,得到训练集预测结果;7)存储训练出来的近红外光谱数据分析的回归模型;8)进行支持向量机仿真预测,得出训练集预测结果和测试集预测结果进行对比。...

【技术特征摘要】
1.一种基于支持向量机的近红外光谱数据分析方法,其特征在于,包括如下步骤:1)采集样本的近红外光谱图和样本中某种特征物质的含量;2)对数据进行预处理以减少近红外光谱噪声对模型构建的影响,同时进行特征波长选择;3)取m个数据作为训练集,剩下的n-m个数据作为测试集;4)基于训练集和测试集,对数据进行归一化处理;5)寻找最佳参数:惩罚因子c和RBF核函数中的方差g,选择出最佳参数之后,对数据进行反归一化处理,创建支持向量机模型,并且进行第一次支持向量机回归模型的训练;最佳参数寻找具体如下:核函数采用了默认的RBF核函数,让惩罚因子c和RBF核函数中的方差g在设定的范围内进行取值,自由组合得到多组c和g参数的组合,对于取定的参数组合...

【专利技术属性】
技术研发人员:刘军吴梦婷肖澳文
申请(专利权)人:武汉工程大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1