数据处理的方法及装置制造方法及图纸

技术编号:14756439 阅读:97 留言:0更新日期:2017-03-02 23:06
本发明专利技术公开了一种数据处理的方法及装置,涉及计算机应用技术领域,解决了现有使用维度过高的训练样本训练SVM模型的效率低的问题。本发明专利技术的方法包括:获取每个训练样本对应的原始样本矩阵,所述训练样本用于对支持向量机SVM模型进行训练,以获得对待预测数据进行分类的SVM模型,其中,所述训练样本包含至少两种不同类别的训练样本;根据主成分分析PCA算法对所述原始样本矩阵进行降维处理,获得降维后的训练样本。本发明专利技术应用于对SVM模型训练的过程中。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,尤其涉及一种数据处理的方法及装置
技术介绍
支持向量机(supportvectormachine,SVM),是一种用来进行模式识别、分类等的学习模型。在实际应用中,SVM模型对于二分类问题的解决效果最佳,因此常被用于解决二分类问题。比如对邮件进行分类,将未知邮件作为待预测数据输入到SVM模型中,通过SVM模型的二分类特性,得到该未知邮件是正常邮件还是垃圾邮件的分类结果。通常,在使用SVM模型进行分类之前,首先需要使用已知的训练样本对SVM模型进行训练。例如使用大量预先收集的正常邮件及垃圾邮件作为训练样本对SVM模型进行训练。然而,在对SVM模型进行训练的过程中,专利技术人发现,对于一些维度过高的训练样本,对应组成的训练集的维度同样过高,而训练集的维度过高,会导致训练SVM模型的计算量很大以及包含的“噪声数据”较多,因此直接使用维度过高的训练样本通常会导致训练SVM模型的效率较低。比如邮件类的训练样本,若以组成邮件内容的“词”为单位,将全部单词组成邮件向量,每个邮件对应的向量维数会高达几十万,那么对于这种训练样本组成的训练集的维数也将高达几十万,如本文档来自技高网...
数据处理的方法及装置

【技术保护点】
一种数据处理的方法,其特征在于,所述方法包括:获取每个训练样本对应的原始样本矩阵,所述训练样本用于对支持向量机SVM模型进行训练获得对待预测数据进行分类的SVM模型,其中,所述训练样本包含至少两种不同类别的训练样本;根据主成分分析PCA算法对所述原始样本矩阵进行降维处理,获得降维后的训练样本。

【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:获取每个训练样本对应的原始样本矩阵,所述训练样本用于对支持向量机SVM模型进行训练获得对待预测数据进行分类的SVM模型,其中,所述训练样本包含至少两种不同类别的训练样本;根据主成分分析PCA算法对所述原始样本矩阵进行降维处理,获得降维后的训练样本。2.根据权利要求1所述的方法,其特征在于,所述根据主成分分析PCA算法对所述原始样本矩阵进行降维处理,获得降维后的训练样本,包括:根据所述原始样本矩阵生成特征矩阵;计算所述特征矩阵的转置矩阵;将所述特征矩阵的转置矩阵与所述原始样本矩阵相乘,获得降维后的训练样本。3.根据权利要求2所述的方法,其特征在于,所述根据所述原始样本矩阵生成特征矩阵,包括:计算所有原始样本矩阵的均值,获得中心样本矩阵;计算所述中心样本矩阵的转置矩阵,并将所述中心样本矩阵与所述中心样本矩阵的转置矩阵相乘,获得目标样本矩阵;计算所述目标样本矩阵的多个特征值,以及每个特征值对应的特征向量;按照特征值由大到小的顺序依次选择预设数量的特征向量;按照选择特征向量的顺序,将选择的特征向量顺次排列,获得所述特征矩阵。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述原始样本矩阵生成特征矩阵,包括:将所述原始样本矩阵平均划分为多个矩阵组;分别计算各个矩阵组的子特征矩阵;按照计算子特征矩阵的顺序,将多个子特征矩阵进行组合,获得所述特征矩阵。5.根据权利要求4所述的方法,其特征在于,所述将所述原始样本矩阵平均划分为多个矩阵组,包括:以训练样本的类别为依据,对训练样本对应的原始样本矩阵进行分类;根据预设维度值计算矩阵集合M;分别将每个类别的原始样本矩阵平均划分为M个矩阵集合;将不同类别的矩阵集合进行排列组合式的结合,获得所述多个矩阵组,其中,每个矩阵组均包含所有类别的矩阵集合。6.根据...

【专利技术属性】
技术研发人员:孙浩
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1