本发明专利技术实施例提供一种基于线性支持向量机的分类方法及装置。本发明专利技术基于线性支持向量机的分类方法,包括:获取训练数据中各样本点的贡献值,所述贡献值表示所述样本点对获取线性支持向量机SVM模型的重要程度;根据所述各样本点的贡献值选取所述训练数据中部分样本点进行目标函数优化,确定所述线性SVM模型;根据所述线性SVM模型,预测对测试数据的分类结果。本发明专利技术实施例根据训练数据中各样本点对获得线性SVM的模型的贡献大小,确定子训练数据,并根据此子训练数据确定线性SVM的模型,加快线性SVM算法的收敛速度。
【技术实现步骤摘要】
本专利技术实施例涉及数据处理技术,尤其涉及一种基于线性支持向量机的分类方法 及装置。
技术介绍
由于处理实际问题中分类效果的显著,支持向量机(SupportVectorMachine,简 称:SVM)被广泛的应用到现实生活中的各种分类问题,例如,SVM被用于图像识别,推荐系 统或文本分类等。SVM包括线性SVM和非线性SVM,其中,相比于非线性SVM的求解需要0 (N3) 的时间复杂度(N表示训练数据的样本数量)来说,线性SVM的求解只需要0 (N)的时间复杂 度;且对于大部分海量高维稀疏数据的分类问题来说,线性SVM和非线性SVM的分类准确度 相当,因此,线性SVM是处理海量高维稀疏数据分类问题的最常用的工具。 目前,线性SVM算法主要包括:(1)基于随机梯度下降(Stochastic Gradient Descent,简称:SGD)的Pegasos开源软件包;(2)基于坐标下降(Dual Coordinate Descent,简称:D⑶)方法解决SVM的对偶问题的Liblinear开源软件包。上述两种方法都 是在线性的时间复杂度中训练得到线性SVM模型。但随着数据样本量和维度的大幅增加, 其获取线性SVM模型的时间复杂度将成为线性SVM应用的一个瓶颈。
技术实现思路
本专利技术实施例提供一种基于线性支持向量机的分类方法及装置,以解决现有线性 SVM算法收敛速度慢的问题。 第一方面,本专利技术实施例提供一种基于线性支持向量机的分类方法,包括: 获取训练数据中各样本点的贡献值,所述贡献值表示所述样本点对获取线性支持 向量机SVM模型的重要程度; 根据所述各样本点的贡献值选取所述训练数据中部分样本点进行目标函数优化, 确定所述线性SVM模型; 根据所述线性SVM模型,预测对测试数据的分类结果。 结合第一方面,在第一方面的第一种可能的实现方式中,所述获取训练数据中各 样本点的贡献值,包括: 根据所述训练数据中各样本点和预设参数,获取所述训练数据中各样本点的贡献 值。 结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式 中,所述根据所述训练数据中各样本点和预设参数,获取所述训练数据中各样本点的贡献 值,包括: 根据如下公式获取所述训练数据中各样本点的贡献值:【主权项】1. 一种基于线性支持向量机的分类方法,其特征在于,包括: 获取训练数据中各样本点的贡献值,所述贡献值表示所述样本点对获取线性支持向量 机SVM模型的重要程度; 根据所述各样本点的贡献值选取所述训练数据中部分样本点进行目标函数优化,确定 所述线性SVM模型; 根据所述线性SVM模型,预测对测试数据的分类结果。2. 根据权利要求1所述的方法,其特征在于,所述获取训练数据中各样本点的贡献值, 包括: 根据所述训练数据中各样本点和预设参数,获取所述训练数据中各样本点的贡献值。3. 根据权利要求2所述的方法,其特征在于,所述根据所述训练数据中各样本点和预 设参数,获取所述训练数据中各样本点的贡献值,包括: 根据如下公式获取所述训练数据中各样本点的贡献值:其中为所述训练数据,(Xi,Yi)表示训练数据中的第i个样本点,X i是 一长度为M的特征向量,yi e {+1,-1}表示第i个样本点的标注信息,N为所述训练数据中 的样本点个数;L(i)表示所述训练数据中各样本点的贡献值:,w表示长度 为M的迭代SVM模型,T表示转置;C为所述预设参数,a i为第i个样本点对应的迭代参数 值,且公式满足条件:〇 < a i+L(i) < C。4. 根据权利要求2所述的方法,其特征在于,所述根据所述训练数据中各样本点和预 设参数,获取所述训练数据中各样本点的贡献值,包括: 根据如下公式获取所述训练数据中各样本点的贡献值:其中,/) = {;,乃么为所述训练数据,(Xi,yi)表示训练数据中的第i个样 本点,Xi是一长度为M的特征向量,Yi e {+1,-1}表示第i个样本点的标注信息, N为所述训练数据中的样本点个数;L⑴表示所述训练数据中各样本点的贡献值; β"·=凡ViX,7;,T表示转置,Qi,:表示矩阵Q的第i行;α为长度NXl的向量,Ci i为 第i个样本点对应的迭代参数值,且公式满足条件:〇 < a i+d < C,C为所述预设参数,5. 根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述各样本点的贡献 值选取所述训练数据中部分样本点进行目标函数优化,确定所述线性SVM模型,包括: 根据所述各样本点的贡献值,选取所述训练数据中部分样本点作为子训练数据,并存 储; 根据所述子训练数据进行目标函数优化,确定所述线性SVM模型。6. 根据权利要求5所述的方法,其特征在于,所述根据所述各样本点的贡献值,选取所 述训练数据中部分样本点作为子训练数据,包括: 根据所述各样本点的贡献值,确定所述贡献值中绝对值大于预设值的样本点作为所述 子训练数据。7. 根据权利要求5所述的方法,其特征在于,所述根据所述各样本点的贡献值,选取所 述训练数据中部分样本点作为子训练数据,包括: 根据所述各样本点的贡献值,确定所述各样本点贡献大小的权值; 抽样选取所述各样本点中部分样本点作为所述子训练数据。8. 根据权利要求1-7任一项所述的方法,其特征在于,所述获取训练数据中各样本点 的贡献值之前,所述方法还包括: 采用链表形式读取训练数据到内存中,其中,所述链表的每个节点通过索引和值的对 应关系表不。9. 一种基于线性支持向量机的分类装置,其特征在于,包括: 获取模块,用于获取训练数据中各样本点的贡献值,所述贡献值表示所述样本点对获 取线性支持向量机SVM模型的重要程度; 训练模块,用于根据所述获取模块获取的所述各样本点的贡献值选取所述训练数据中 部分样本点进行目标函数优化,确定所述线性SVM模型; 预测模块,用于根据所述训练模块确定的所述线性SVM模型,预测对测试数据的分类 结果。10. 根据权利要求9所述的装置,其特征在于,所述获取模块用于: 根据所述训练数据中各样本点和预设参数,获取所述训练数据中各样本点的贡献值。11. 根据权利要求10所述的装置,其特征在于,所述获取模块具体用于: 根据如下公式获取所沭训练数据中各样本点的贡献倌:其中,D = 为所述训练数据,(Xi,yi)表示训练数据中的第i个样本点,七是 一长度为M的特征向量,yi e {+1,-1}表示第i个样本点的标注信息,N为所述训练数据中 的样本点个数;L (i)表示所述训练数据中各样本点的贡献值;这,.,w表示长度 为M的迭代SVM模型,T表示转置;C为所述预设参数,a i为第i个样本点对应的迭代参数 值,且公式满足条件:〇 < a i+L(i) < C。12. 根据权利要求10所述的装置,其特征在于,所述获取模块具体用于: 根据如下公式获取所述训练数据中各样本点的贡献值:其中,D = ^,乃}匕为所述训练数据,(Xi, yi)表示训练数据中的第i个样 本点,Xi是一长度为M的特征向量,Yi e {+1, -1}表示第i个样本点的标注信息, N为所述训练数据中的样本点个数;L⑴表示所述训练数据中各样本点的贡本文档来自技高网...

【技术保护点】
一种基于线性支持向量机的分类方法,其特征在于,包括:获取训练数据中各样本点的贡献值,所述贡献值表示所述样本点对获取线性支持向量机SVM模型的重要程度;根据所述各样本点的贡献值选取所述训练数据中部分样本点进行目标函数优化,确定所述线性SVM模型;根据所述线性SVM模型,预测对测试数据的分类结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:兰亮,曾嘉,袁明轩,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。