用于在大规模数据分类问题中训练SVM分类器的方法技术

技术编号：2927272 阅读：1010 留言：0更新日期：2012-04-11 18:40

本发明专利技术属于统计机器学习技术领域，具体涉及一种用于在大规模数据分类问题中训练ＳＶＭ分类器的方法。该方法首先训练样本的聚类，根据聚类结果，把具有相同标签的样本分别拟合成高斯模型，作为训练的基本信息单元；然后根据Ｋ个高斯模型建立Ｋ×Ｋ的核矩阵，并建立带约束的二次规划问题，用数值方法求解之；最后利用该二次规划问题的解得到分类器的决策函数，使用该决策函数对测试样本进行预测。本发明专利技术方法对时间复杂度和空间复杂度都大有降低；可广泛应用于多媒体信息检索、生物信息识别、金融信息处理等领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于统计机器学习
，具体涉及一种分类器的训练方法，主要解决大规模数据分类问题中快速有效地训练分类器的问题。技术背景随着计算机网络技术与存储设备的迅速发展，各应用领域的信息化程度不断提高，例如政府、企业、学校都在使用大规模数据库来管理与存储信息化数据。然而，除了简单地对数据进行管理与存储操作，人们更希望从这些海量的数据库中挖掘出一些有意义的规则或知识，例如门户网站希望自动对文档或图片进行分类。然而，在实际应用中，数据库中数据量通常是非常庞大的，其数量级通常会达到太字节(TB)以上，如果把所有样本都作为训练数据来训练分类器，其时空复杂性将无比巨大。对于大规模数据的分类问题，国内外研究者己经做过大量工作，他们从不同角度提出了许多解决方案，比如分解技术通过将原有大规模分类器学习问题分解为较小的子问题进行迭代学习，每次只对一个工作子集进行训练，并利用该次训练的结果指导选择下一个工作子集用于训练；增量技术每次仅读入一个样本，对分类器进行增量式更新；并行技术一般使用集成方法，先把总体样本平分为多个样本子集，并把得到的样本子集作为独立的任务交给不同的处理器进行训练，最后把各处理器得到的结果通过某种技术合并为一个总的分类器；近似技术则使用近似的计算公式降低原有算法的复杂性。以上这些技术需要对所有样本都进行训练，其复杂度难以降低。还有一类技术通过在原数据集中选取代表点训练分类器，其思想在于使用一定的方式，在原有大规模数据集中选取小部分的代表性样本训练分类器，以达到降低训练样本数量的目的。较典型的方法包括"主动学习"通过启...

【技术保护点】
一种用于在大规模数据分类问题中训练ＳＶＡ分类器的方法，其特征在于具体步骤如下：（１）训练样本的聚类给定一个包含Ｎ＝Ｎ↓［＋］＋Ｎ↓［－］个训练样本的集合Ｌ＝｛（ｘ↓［ｉ］，ｙ↓［ｉ］）｝↑［Ｎ］↓［ｉ＝１］，其中Ｎ↓［＋］表示正样本数，Ｎ↓［－］表示负样本数，样本ｘ↓［ｉ］∈Ｒ↑［Ｄ］，其中Ｄ为输入空间的维数，标签ｙ↓［ｉ］∈｛１，－１｝；在分类器的训练阶段，对Ｎ↓［＋］个正样本和Ｎ↓［－］个负样本首先分别进行聚类，得到Ｋ↓［＋］个正集群和Ｋ↓［－］个负集群，共计Ｋ＝Ｋ↓［＋］＋Ｋ↓［－］个集群；然后，按照聚类结果的集群标签，把具有相同标签的样本拟合成高斯模型，这样，共得到Ｋ↓［＋］个正样本高斯模型和Ｋ↓［－］个负样本高斯模型，表示为Ｃ＝｛（Θ↓［ｋ］，ｙ↓［ｋ］）｝↑［Ｋ］↓［ｋ＝１］，其中生成模型Θ↓［ｋ］＝（Ｐ↓［ｋ］，μ↓［ｋ］，∑↓［ｋ］）包含了第ｋ个高斯模型的先验概率Ｐ↓［ｋ］、均值μ↓［ｋ］、以及协方差矩阵∑↓［ｋ］，ｙ↓［ｋ］则表示该高斯模型的标签；这里，作为训练基本单元的高斯模型的先验概率按照如下公式计算：Ｐ↓［ｋ］↑［＋］＝Ｎ↓［ｋ］↑［＋］／Ｎ↓［＋］，其中Ｎ↓［...

【技术特征摘要】

【专利技术属性】
技术研发人员：李斌，池明旻，薛向阳，
申请(专利权)人：复旦大学，
类型：发明
国别省市：31[]

全部详细技术资料下载我是这个专利的主人