SVM模型的训练方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号：28150755 阅读：24 留言：0更新日期：2021-04-21 19:42

本公开的实施例提供了SVM模型的训练方法、装置、设备和计算机可读存储介质。所述方法包括获取数据集；加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换；执行SMO算法对SVM模型进行训练。以此方式，能够根据输入的数据集自动的选择最优的数据存储格式与算法；全局循环层次基于所述最优数据存储格式进行大量的更加高效的矩阵乘法运算计算kernel matrix；局部SMO求解器层次，使用GPU的寄存器通信技术与合并访存方法进行了更加细致的内存优化，充分利用硬件平台的计算资源。件平台的计算资源。件平台的计算资源。

全部详细技术资料下载

【技术实现步骤摘要】
SVM模型的训练方法、装置、设备和计算机可读存储介质

[0001]本公开的实施例一般涉及机器学习
，并且更具体地，涉及SVM（Support Vector Machine，支持向量机）模型的训练方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]作为普遍应用的机器学习算法之一，SVM 已广泛应用于各种科学领域，如模式识别领域的手写数字识别、对象识别、语音识别，计算机视觉领域图像分类、行人检测等。它通过最大化特征空间上的类间间隔求得最优的超平面，具有准确性高、泛化性能好以及拥有严格的数学证明等优点。它最初被提出用来解决线性可分的二分类问题，但核方法使得其可以处理非线性可分的问题。开源工具包 LibSVM 在许多场景中得到了广泛应用，因其简单易用的接口和全面的功能，成为最受欢迎的 SVM 工具包，然而由于大数据时代，数据规模不断增加，LibSVM训练 SVM 模型所需时间越来越长，这很大程度上限制了 SVM 算法的应用。 SVM 训练过程非常耗时的主要原因为 QP 优化问题的求解需要大量迭代步骤，每次迭代均需要执行两次矩阵向量乘法，这一过程是十分耗时的。
[0003]一个不可忽视的趋势是，目前计算行业正在向并行计算方向发展, 与此同时 GPU 作为优秀的并行计算平台被广泛的应用在很多很多计算密集场景，如深度学习、大气模拟的加速计算等。
[0004]目前，已有一些基于GPU平台的并行化SVM算法的研究。一个是GPUSVM，另一个是ThunderSVM。
[0005]GPUSVM采用...

【技术保护点】

【技术特征摘要】
1.一种SVM模型的训练方法，其特征在于，包括：获取数据集；所述数据集中样本的数量为n，维度为d，其中n、d为大于1的正整数；加载所述数据集；通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换；执行SMO算法对SVM模型进行训练。2.根据权利要求1所述的方法，其特征在于，加载所述数据集包括：读取并加载所述数据集进入CPU内存，将所述数据集存储为CSR格式的数据集矩阵M；所述数据集矩阵M的形状为n*d。3.根据权利要求2所述的方法，其特征在于，通过自动调优框架在线预测所述数据集的最优存储格式并进行格式转换包括：在GPU上并行计算所述数据集的特征参数；在CPU上将所述特征参数输入决策树模型，预测得到所述数据集的最优存储格式；判断所述最优存储格式是否与当前存储格式CSR相同；如果否，则在GPU上将当前存储格式转换为所述最优存储格式；如果是，则不进行格式转换。4.根据权利要求3所述的方法，其特征在于，所述决策树模型是通过以下步骤训练得到的：生成数据集，计算所述数据集的特征集合数据，将所述特征集合数据作为训练数据；所述训练数据包括所述数据集的标签和特征参数；使用所述训练数据，通过决策树算法生成自动调优框架。5.根据权利要求2所述的方法，其特征在于，执行SMO算法对SVM模型进行训练包括：通过多次使用第一启发式选择多对待优化的拉格朗日乘子组成工作集；计算内核矩阵K的K_subset并提取K_core；执行局部SMO求解器，采用SMO算法对所述工作集进行求解；其中，采用SMO算法对所述工作集进行求解包括从所述工作集中寻找两个极端的拉格朗日乘子α(high)，α(low)；更新所述α(high)与α(low)；访问所述K_core，更新所述工作集中的下标所对应的梯度向量；更新全局的梯度向量；判断是否满足全局层次的收敛条件；若满足则SVM模型训练完成；若不满足则进行迭代。6.根据权利要求5...

【专利技术属性】
技术研发人员：杨超，范睿博，敖玉龙，李敏，李克森，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人