一种基于SVM的大数据分类预测方法技术

技术编号：10177314 阅读：303 留言：0更新日期：2014-07-02 16:57

本发明专利技术提供了一种基于SVM的大数据分类预测方法，可以进行大数据样本的有效信息择决操作，获取一种新型决定因素，从而找到一个能够体现原始大数据信息的新型样本C，对于样本C进行SVM分类预测操作，结果表明分类正确率大大的提高，大大的缩短运行时间，是大数据信息处理的一种有效方式。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于SVM的大数据分类预测方法
本专利技术涉及一种分类预测方法，特别是对于大数据的分类预测方法。
技术介绍
目前，针对大数据，有效地提取信息是很困难的，因为，数据样本庞大无法研究数据的有效信息，也无法剔除一些无关的数据。主成分分析(PrincipalComponentAnalysis，PCA)或者主元分析是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定n个变量的m个观察值，形成一个n×m的数据矩阵，n通常比较大。对于一个由多个变量描述的复杂事物，人们难以认识，那么可以抓住事物主要方面进行重点分析。如果事物的主要方面刚好体现在几个主要变量上，我们只需要将这几个变量分离出来，进行详细分析。但是，在一般情况下，并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面，PCA就是这样一种分析方法。支持向量机SVM(SupportVectorMachine)作为一种可训练的机器学习方法。SVM方法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。简单地说，就是升维和线性化。升维，就是把样本向高维空间做映射，一般情况下这会增加计算的复杂性，甚至会引起“维数灾难”，因而人们很少问津。但是作为分类、回归等问题来说，很可能在低维样本空间无法线性处理的样本集，在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归)。...
一种基于SVM的大数据分类预测方法

【技术保护点】
一种基于SVM的大数据分类预测方法，针对一组具有n个决定因素，记为N1，N2，...，Nn，样本容量为M的大数据，该大数据共分为p类，第1类样本记为样本M11，M12，M13，...，第2类样本记为样本M21，M22，M23，...，……，第p类样本记为样本Mp1，Mp2，Mp3，...，其特征在于，步骤为：步骤1、对M个样本进行主成分分析操作，得到贡献率达到某个固定值的个数X；步骤2、用层次分析法得到每个决定因素的权值T1，T2，...，Tn，按照从大到小的顺序取前X个权值；步骤3、计算得到每类样本中各个样本数据所对应的新型决定因素，将属于同一类样本的所有新型决定因素由小到大排序，取得排列在中间的A％的数据，形成新的样本集C，A的值根据样本容量自行设定，样本容量越大，A越小，取得的有效数据越具有统计价值，其中，第i类样本中第j个样本数据Mij对应的新型决定因素wij的计算过程为：设样本数据Mij与N1，N2，...，Nn相对应的内容为Aij1，Aij2，...，Aijn，在T1，T2，...，Tn及Aij1，Aij2，...，Aijn中取前X个值，则步骤4、在样本集C中选取一定量的数...

【技术特征摘要】
1.一种基于SVM的大数据分类预测方法，针对一组具有n个决定因素，记为N1，N2，...，Nn，样本容量为M的大数据，该大数据共分为p类，第1类样本记为样本M11，M12，M13，...，第2类样本记为样本M21，M22，M23，...，……，第p类样本记为样本Mp1，Mp2，Mp3，...，其特征在于，步骤为：步骤1、对M个样本进行主成分分析操作，得到贡献率达到某个固定值的个数X；步骤2、用层次分析法得到每个决定因素的权值T1，T2，...，Tn，按照从大到小的顺序取前X个权值；步骤3、计算得到每类样本中各个样本数据所对应的新型决定因...

【专利技术属性】
技术研发人员：安俊峰，龚涛，卢萌萌，郭吉政，
申请(专利权)人：东华大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人