一种基于Map/Reduce的快速支持向量数据描述方法及系统技术方案

技术编号：7592162 阅读：232 留言：0更新日期：2012-07-21 07:19

本发明专利技术涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统，其中方法包括：对用于支持向量数据描述的数据进行预处理，生成支持向量数据描述的训练数据集D；根据预设置的参数、由训练数据集D生成n个子数据集，预设置的参数包括训练数据集的划分个数；根据n个子数据集，生成MapReduce编程架构下的n个子分类器SVDDi＝(1，......，n)的Map任务，并将Map任务交由Hadoop集群调度器进行运算；调用MapReduce编程架构下的Reduce任务进行子分类器SVDDi＝(1，......，n)的合并，得到训练数据集的SVDD分类器。本发明专利技术可以在处理海量数据时，降低SVDD训练数据集的维数，加快SVDD训练速度，同时避免训练中断。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用
,更具体地说，涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统。
技术介绍
支持向量数据描述(Support Vector Data Description, SVDD)是在支持向量机 (Support Vector Machine, SVM)的基础上，由Tax于2001年提出的一种针对单类数据的数据描述算法。它的主要思想是在核特征空间中寻找一个最小超球分界面，该分界面应尽可能把所有训练样本包围起来，并以该分界面对数据进行分类和描述。SVDD继承了 SVM的优点，即以结构风险为目标进行优化，因此一经提出就受到了广大研究者的注意，并将之应用于异常检测、入侵检测中、基因表达聚类、故障检测等方面，取得很好的效果。然而，上述应用领域的数据逐渐朝着海量级别的方向发展。目前，SVDD分类器常用的训练方法有标准的训练方法和增量式方法。当上述训练方法应用于海量数据的级别时，由于需要通过核函数工具进行高维映射，最后得到用于寻优矩阵的维数将是爆炸性，其导致的后果是=(I)SVDD模型训练速度非常缓慢；(2)因内存消耗量过大使得训练中断。Map/Reduce (映射/化简)系统是一个最先由Google提出的分布式计算软件构架，通过定义相应的映射(Map)和化简(Reduce)函数来实现大数据量的分布式处理，可以用来解决大数据量的分布式计算问题，然后把计算后的结果放入文件系统或者数据库中。在Map/Reduce系统中，每一个map操作都是相对独立的，所有的map任务都是并行运行的，虽然实践中会受到数据源和中央处理器个数的影响。同...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：庄进发，吴鸿伟，罗佳，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人