一种基于支持向量机的质谱数据分类方法技术

技术编号：40135804 阅读：8 留言：0更新日期：2024-01-23 22:50

本发明专利技术涉及一种基于支持向量机的质谱数据分类方法，包括数据格式转化，数据预处理，特征提取，分层抽样，支持向量机建模，调参优化，结果可视化输出等步骤。数据预处理步骤使用多种预处理方法统一质荷比间隔，丰度范围和数据长度。特征提取步骤将统一数据后根据丰度降序排列，使用分层随机抽样确定测试集和训练集的数量，搭建支持向量机分类器进行训练并分类。调参优化中使用网格搜索方法来搜索最佳的超参数组合。本发明专利技术的方法可以自动化地搜索最佳的超参数组合，实现高准确率的分类，具有可靠性，对不同质谱仪产生的质谱数据均能有效分类，适应性极强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及质谱数据分类领域，具体涉及一种基于支持向量机的质谱数据分类方法。

技术介绍

1、质谱技术是一种广泛应用的物质分析方法，广泛应用于生物医药、环境监测、食品安全等领域。质谱技术通过将待测物质分子转化为带电离子进行质量分析，得到物质的质谱图和质谱数据。质谱数据分类是质谱技术的一个重要应用，它通过对质谱数据进行处理和分析，将不同物质的质谱图分类识别出来。然而，质谱数据的数量庞大，复杂度高，人工处理和分析难度大，因此需要利用计算机技术和人工智能方法来实现高效、准确、自动化的质谱数据分类和预测。

2、常用的质谱数据分类方法包括基于传统数学模型的方法和基于深度学习的方法。传统数学模型方法包括主成分分析、判别分析、聚类分析等，但是这些方法对数据的处理和特征提取较为困难，且分类准确率有限。使用基于深度学习的方法处理质谱数据虽然有较高的准确率，但是算法复杂，计算时间长，对测试集和训练集的数据数量有较高要求。除此之外，常用的质谱数据分类方法往往只能处理某一质谱仪产生的数据，对其他不同分辨率的质谱仪产生的数据处理效果较差甚至不能处理。

3、支持向量机是一种非常有效的分类器，它通过寻找最优的分界面来实现分类。支持向量机的优点在于可以处理高维数据，对于非线性问题具有很好的适应性，可以自动化处理数据，减轻人工负担，同时可以提高分类和预测的准确率。因此，开发高效、准确、自动化的质谱数据分类方法对于质谱技术的应用和发展具有重要意义。本专利技术提出的基于支持向量机的质谱数据分类方法，通过数据格式转化、数据预处理、特征提取、分层

技术实现思路

1、针对上述现有技术中存在的问题，本专利技术提出了一种基于支持向量机的能有效去除杂质峰和背景峰的、预处理步骤简洁的、将质荷比间隔，丰度范围和数据长度统一的、具有高准确率和可靠性的、具有较强的适用性和灵活性的质谱数据分类方法。

2、本专利技术提出一种基于支持向量机的质谱数据分类方法，其特征在于，包括以下步骤：

3、s1、数据格式转化：将实验分析后的质谱数据导出格式为.raw，通过质谱数据处理软件xcalibur将其格式转换为.xlsx表格。表格前八行为平均的谱图数等仪器信息，从第九行起，第一列为物质质荷比，第二列为质荷比对应的绝对丰度。

4、s2、数据预处理：包括分辨率归一化、最大最小归一化、数据长度归一化、标准化、savitzky-golay平滑滤波等步骤，以将质荷比间隔统一，将丰度范围统一，将数据长度统一，并去噪和去背景峰，提高数据的准确性和可靠性。

5、s3、特征提取：将数据根据丰度降序排列，取物质名对应数字作为标签，取前二十项及其对应质荷比，拼接成特征数组，格式为[质荷比、数字标签、丰度、物质名]，将质谱数据变为有标签的多特征数组，为后续的分类提供了基础。同时该方法也能自由选取特征数量，对于谱图相对复杂的物质能进行更精细的特征提取以便于后续分类。

6、s4、分层抽样：使用分层抽样将数据集分为若干份，可以保证训练集和测试集中各类别样本的比例相同，每次使用其中一份作为测试集，其余部分作为训练集，重复多次进行测试和训练，得到多组结果，最终取平均值作为模型的性能评估结果。

7、s5、支持向量机建模：选择高斯核函数作为支持向量机的核函数，基于样本点与中心点之间的距离，使该算法能够捕捉到全局的数据特征；高斯核函数将低维输入空间映射到高维特征空间，克服了线性模型的限制；通过调整高斯核函数的参数γ，可以改变函数的形状和宽度，从而更好地适应不同的数据分布。其具体公式如下所示：

8、

9、进一步地，在支持向量机建模步骤中，使用以下决策函数将输入样本分类到不同的类别，其具体公式如下所示：

10、

11、其中，αi是支持向量的拉格朗日乘子，yi是对应的类别标签，xi是支持向量，k(xi,x)是高斯核函数的计算结果，b是偏置项。

12、进一步地，在支持向量机建模步骤中，使用以下预测函数对新的输入样本进行回归预测，其具体公式如下所示：

13、f(x)＝∑(αik(xi,x))+b

14、其中，各参数与决策函数中的参数含义相同。

15、s6、调参优化：使用网格搜索得到模型在不同参数下的结果，找到最优的决策边界和支持向量；通过交叉验证等方法来选择最优的正则化参数值，通过调整正则化参数的值可以控制模型的正则化程度。

16、s7、结果可视化输出：包括正确输出结果和实际输出结果的混淆矩阵和整体分类准确率。混淆矩阵可以反映分类器的性能，分类准确率可以衡量分类器的准确性。这些结果的可视化输出可以直观地展示分类结果，方便用户进行分析和评估。

17、和现有技术相比，本专利技术的有益效果在于：

18、1.本专利技术中的方法使用支持向量机模型进行分类，相对深度学习，支持向量机模型非常简洁，通过网格搜索优化决策边界和支持向量，通过交叉验证优化正则化参数，极大提高识别的准确率和计算速度。

19、2.本专利技术中的方法使用分辨率归一化、最大最小归一化、数据长度归一化多种归一化方法，将质谱数据统一格式和尺寸，结合可变滤波窗口大小和可变二维系数矩阵的savitzky-golay滤波器，在保证物质的质谱特征前提下，将质谱中的背景峰和杂质峰去除，使数据归一化、标准化，便于输入模型训练。该方法适用于绝大部分质谱仪产生的数据分类，通用性极强。

20、3.本专利技术中的方法选择高斯核函数作为支持向量机的核函数，高斯核函数将低维输入空间映射到高维特征空间，克服了线性模型的限制，通过调整高斯核函数的参数γ，可以改变函数的形状和宽度，从而更好地适应不同的数据分布，具有极强的灵活性。

21、4.本专利技术中的方法能将结果可视化输出，包括正确输出结果和实际输出结果的混淆矩阵和整体分类准确率。混淆矩阵可以反映分类器的性能，分类准确率可以衡量分类器的准确性。这些结果的可视化输出可以直观地展示分类结果，方便用户进行分析和评估。

本文档来自技高网...

【技术保护点】

1.一种基于支持向量机的质谱数据分类方法，其特征在于，包括以下步骤；

2.如权利要求1所述的基于支持向量机的质谱数据分类方法中，其特征在于，所述步骤S4将数据集分为若干份，每次使用其中一份作为测试集，其余部分作为训练集，重复多次进行测试和训练，得到多组结果，最终取平均值作为模型的性能评估结果。

3.如权利要求1所述的基于支持向量机的质谱数据分类方法，其特征在于，所述步骤S5使用以下决策函数将输入样本分类到不同的类别，其具体公式如下所示：

4.如权利要求1所述的基于支持向量机的质谱数据分类方法，其特征在于，所述步骤S5使用以下预测函数对新的输入样本进行回归预测，其具体公式如下所示：

5.如权利要求1所述的基于支持向量机的质谱数据分类方法，其特征在于，所述步骤S6使用交叉验证选择最优的正则化参数值，使用网格搜索方法自动搜索最佳的超参数组合，提高模型的性能和准确性。

【技术特征摘要】

1.一种基于支持向量机的质谱数据分类方法，其特征在于，包括以下步骤；

2.如权利要求1所述的基于支持向量机的质谱数据分类方法中，其特征在于，所述步骤s4将数据集分为若干份，每次使用其中一份作为测试集，其余部分作为训练集，重复多次进行测试和训练，得到多组结果，最终取平均值作为模型的性能评估结果。

3.如权利要求1所述的基于支持向量机的质谱数据分类方法，其特征在于，所述步骤s5使用以下决...

【专利技术属性】
技术研发人员：谭先华，赵雪龙，岳磊，蔺永诚，杨治渝，裴华夫，粟雯，周仲燕，张庆辅，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人