当前位置: 首页 > 专利查询>复旦大学专利>正文

用于在大规模数据分类问题中训练SVM分类器的方法技术

技术编号:2927272 阅读:1010 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于统计机器学习技术领域,具体涉及一种用于在大规模数据分类问题中训练SVM分类器的方法。该方法首先训练样本的聚类,根据聚类结果,把具有相同标签的样本分别拟合成高斯模型,作为训练的基本信息单元;然后根据K个高斯模型建立K×K的核矩阵,并建立带约束的二次规划问题,用数值方法求解之;最后利用该二次规划问题的解得到分类器的决策函数,使用该决策函数对测试样本进行预测。本发明专利技术方法对时间复杂度和空间复杂度都大有降低;可广泛应用于多媒体信息检索、生物信息识别、金融信息处理等领域。

【技术实现步骤摘要】

本专利技术属于统计机器学习
,具体涉及一种分类器的训练方法,主要解决大规 模数据分类问题中快速有效地训练分类器的问题。 技术背景随着计算机网络技术与存储设备的迅速发展,各应用领域的信息化程度不断提高, 例如政府、企业、学校都在使用大规模数据库来管理与存储信息化数据。然而,除了简 单地对数据进行管理与存储操作,人们更希望从这些海量的数据库中挖掘出一些有意义 的规则或知识,例如门户网站希望自动对文档或图片进行分类。然而,在实际应用中, 数据库中数据量通常是非常庞大的,其数量级通常会达到太字节(TB)以上,如果把所 有样本都作为训练数据来训练分类器,其时空复杂性将无比巨大。对于大规模数据的分类问题,国内外研究者己经做过大量工作,他们从不同角度提 出了许多解决方案,比如分解技术通过将原有大规模分类器学习 问题分解为较小的子问题进行迭代学习,每次只对一个工作子集进行训练,并利用该次 训练的结果指导选择下一个工作子集用于训练;增量技术每次仅读入一个样本, 对分类器进行增量式更新;并行技术一般使用集成方法,先把总体样本平分为多个 样本子集,并把得到的样本子集作为独立的任务交给不同的处理器进行训练,最后把各 处理器得到的结果通过某种技术合并为一个总的分类器;近似技术则使用近似的 计算公式降低原有算法的复杂性。以上这些技术需要对所有样本都进行训练,其复杂度 难以降低。还有一类技术通过在原数据集中选取代表点训练分类器,其思想在于使用一定的方 式,在原有大规模数据集中选取小部分的代表性样本训练分类器,以达到降低训练样本 数量的目的。较典型的方法包括"主动学习"通过启发式地选取代表点;CB-SVM 通过层次化聚类选取类中心作为代表点;选取聚类超球表面的样本作为代表点;CVM使用"核心集"作为代表点;则选取聚类中心作为代表点。由于代表点的选取技术大多基于不同的假设,并不适合所有的应用场景,并且会丢失原数据集的统计信息。经过大量观察以及实际应用,我们发现现有的针对大规模数据分类问题的分类器训练方法都在不同程度上存在以下一些局限性(1)在训练阶段所需要的时间复杂性和空 间复杂性极高;(2)丢失部分原数据集的统计信息;(3)基于较强的假设条件与前提条 件;(4)对于硬件设备与资源的要求相当高;(5)算法实现非常复杂。以上分析说明,如果用大规模训练样本进行训练,其时间复杂性必然会居高不下, 即使通过各种优化与近似手段后,依然无法奏效;如果使用代表点技术,即基于一定的 假设条件在原大规模数据中抽取一部分代表样本进行训练,又必定会丢失部分统计信息, 影响分类器的性能。如果有一种方法既能使样本数量减少,又能使原有的统计信息尽量不丢失,则可以 达到在保持与现有分类器相似的分类准确率的条件下,显著降低训练阶段时空复杂性—— 本专利技术就是通过事先把训练样本聚类成高斯模型作为分类器训练的基本信息单元,从而 达到既减少样本数量又能保持原有统计信息的目的;同时,本专利技术设计出的一种兼容的 核函数使训练阶段得到的支撑高斯模型可以直接用于测试阶段,线性组合成最终的分类器0参考文献<formula>formula see original document page 5</formula> Graf, H. P., Cosatto, E., Bottou, L., Durdanovic, I., and Vapnik, V., Parallel Support Vector Machines: The Cascade SVM,爿6 rawced 7Vrara/ r/wa"o/7 Prace^wg 5y他脂,2004, Cambridge, MA: MIT Press.间Hartigan, J. A. and Wong, M. A., A K-Means Clustering Algorithm, 5W/幼'cy, 1979,vol. 28, pp. 100-108.i l] Jebara, T., Kondor, R., and Howard, A,, Probability Product Kemels, 《/ Mac/uwi esearcA, 2004, vol. 5, pp. 819-844. Keerthi, S. S., Shevade, S. K., Bhattacharyya, C., and Murthy, K. R. K., Improvements toPlatt,s SMO Algorithm for SVM Classifier Design, Afewra/ Co附p齒rio", 2001, vol. 13, pp.637-649.問Laskov, P., Gehl, C., Krueger, S., and Mueller, K., Incremental Support Vector Learning: Analysis, Implementation and Applications, J o/MscWwe iearw/wg 7 e^an:/z, 2006, vol. 7, pp. 1909-1936. Osuna, E., Freund, R., and Girosi, F., An Improved Training Algorithm for Support VectorMachines, In /Voc.7997fforfo/zo/ A^wr"/ A^/worfo/or /Vocew/wg,1997, pp. 276-285. Piatt, J,, Fast Training of Support Vector Machines using Sequential Minimal Optimization, In B. Schodkopf, C. J. C. Burges, and A. J. Smola (Eds.), Wvawces ferwe/附ef/ ocfe — ra/ poW vecfor /ean /wg, 1999, pp. 185-208. Cambridge, MA: MIT Press. Sun, S., Tseng, C. L., Chen, Y. H., Chuang, S. C., and Fu, H. C., Cluster-based SupportVector Machines in Text-independent Speaker Identification, In Prac.f/ze 7n/ 7 Ja/wf Cbw/ iVewra/ 7Ve/MwA;, 2004. Tsang, I. W., Kwok, J, T., and Cheung, P., Core Vector Machines: Fast SVM Training onVery Large Data Sets, /M"c/nwe Zearw/wg i^rarc/z, 2005, vol. 6, pp. 363-392. Vapnik, V., Statistical Learning Theory, 1998, John Wiley. Yu, H., Yang, 本文档来自技高网...

【技术保护点】
一种用于在大规模数据分类问题中训练SVA分类器的方法,其特征在于具体步骤如下:(1)训练样本的聚类给定一个包含N=N↓[+]+N↓[-]个训练样本的集合L={(x↓[i],y↓[i])}↑[N]↓[i=1],其中N↓[+]表示正样本数,N↓[-]表示负样本数,样本x↓[i]∈R↑[D],其中D为输入空间的维数,标签y↓[i]∈{1,-1};在分类器的训练阶段,对N↓[+]个正样本和N↓[-]个负样本首先分别进行聚类,得到K↓[+]个正集群和K↓[-]个负集群,共计K=K↓[+]+K↓[-]个集群;然后,按照聚类结果的集群标签,把具有相同标签的样本拟合成高斯模型,这样,共得到K↓[+]个正样本高斯模型和K↓[-]个负样本高斯模型,表示为C={(Θ↓[k],y↓[k])}↑[K]↓[k=1],其中生成模型Θ↓[k]=(P↓[k],μ↓[k],∑↓[k])包含了第k个高斯模型的先验概率P↓[k]、均值μ↓[k]、以及协方差矩阵∑↓[k],y↓[k]则表示该高斯模型的标签;这里,作为训练基本单元的高斯模型的先验概率按照如下公式计算:P↓[k]↑[+]=N↓[k]↑[+]/N↓[+],其中N↓[k]↑[+]表示正样本中第k个高斯模型包含的样本数,N↓[+]表示正样本的总数;负样本高斯模型的先验概率按照同样方法计算,即P↓[k]↑[-]=N↓[k]↑[-]/N↓[-];(2)核矩阵的构建使用步骤(1)中得到的K个高斯模型构建一个K×K的核矩阵,其中每个元素根据公式(2)或公式(3)计算得到:k(Θ↓[k],Θ↓[l])=P↓[k]P↓[l]*p(x|μ↓[k],∑↓[k])p(x|μ↓[l],∑↓[l])dx=P↓[k]P↓[l](2π)↑[-D/2]|(∑↓[k]↑[-1]+∑↓[l]↑[-1])↑[-1]|↑[1/2]|∑↓[k]|↑[-1/2]|∑↓[l]|↑[-1/2]exp(-1/2(μ↓[k]↑[T]∑↓[k]↑[-1]μ↓[k]+μ↓[l]↑[T]∑↓[l]↑[-1]μ↓[l]-***))(2)其中*=(∑↓[k]↑[-1]+∑↓[l]↑[-1])↑[-1],*=∑↓[k]↑[-1]μ↓[k]+∑↓[l]↑[-1]μ↓[l],上标T表示矩阵或者向量的转置。***(3)这里,σ↓[k]↑[(d)],σ↓[l]↑[(d)]分别为高斯型协方差矩阵∑k和∑l的第d个对角线元素;(3)目标函数的优化使用步骤(2)中得到...

【技术特征摘要】

【专利技术属性】
技术研发人员:李斌池明旻薛向阳
申请(专利权)人:复旦大学
类型:发明
国别省市:31[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利