SVM分类器训练样本获取方法、训练方法及其系统技术方案

技术编号:10837514 阅读:181 留言:0更新日期:2014-12-31 09:39
本发明专利技术提供一种SVM分类器训练样本获取方法、训练方法及其系统,包括:计算获取SVM分类器的各个样本的距离;根据各个所述样本的距离,对所述样本进行第一次聚类,获取至少一个第一分类,以及各个所述第一分类包含的样本;对所述样本进行第二次聚类,获取至少一个第二分类,以及各个所述第二分类包含的样本;其中,所述第二距离阈值大于所述第一距离阈值;将只包含一个样本的所述第二分类中的样本划分为孤立样本;分别在各个所述第一分类中选取一个样本作为代表样本,根据所述代表样本和所述孤立样本设置所述SVM分类器的训练样本。可以有效减少样本的数量,降低分类器的样本空间的复杂性,使分类器训练更加简单,更加有效。

【技术实现步骤摘要】
【专利摘要】本专利技术提供一种SVM分类器训练样本获取方法、训练方法及其系统,包括:计算获取SVM分类器的各个样本的距离;根据各个所述样本的距离,对所述样本进行第一次聚类,获取至少一个第一分类,以及各个所述第一分类包含的样本;对所述样本进行第二次聚类,获取至少一个第二分类,以及各个所述第二分类包含的样本;其中,所述第二距离阈值大于所述第一距离阈值;将只包含一个样本的所述第二分类中的样本划分为孤立样本;分别在各个所述第一分类中选取一个样本作为代表样本,根据所述代表样本和所述孤立样本设置所述SVM分类器的训练样本。可以有效减少样本的数量,降低分类器的样本空间的复杂性,使分类器训练更加简单,更加有效。【专利说明】SVM分类器训练样本获取方法、训练方法及其系统
本专利技术涉及SVM分类器的
,特别是涉及一种SVM分类器训练样本获取方法及其系统,以及一种SVM分类器训练方法及其系统。
技术介绍
SVM(Support Vector Machine)是 Cortes 和 Vapnik 于 1995 年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。 SVM是建立在统计学习理论的VC维(vapnik-chervonenkis dimens1n)理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。 在处理两类分类问题中,SVM是一种常用的方法,因为其易用性,SVM已经被应用到很多实际工程中,例如:物体检测、人脸识别等。在使用SVM处理两类分类问题时,首先要对SVM进行训练。 同时,在实际的工业化应用中,SVM面临很多问题,有很多需要优化的地方,其中样本的选择和分类器的自动训练问题是最主要的问题。 目前对于SVM分类器的使用,普遍的训练方法,第一种是预先人工好一定数量的训练正样本和训练负样本。然而该方法过分依赖人工,无法自动化操作。对于工业化需要有很多SVM分类器的场合,该方法需要花费巨大的人力成本,甚至无法完成。 第二种方法是当样本数量达到一定程度的时候,使用全部的样本自动重新训练SVM分类器。 然而,该方法训练出来的SVM分类器占用空间大。因为训练正负样本的数量越来越大,样本空间的复杂性也增加很大,训练出来的SVM分类器需要数量庞大的支持向量,导致分类器所占用的空间增加明显,并且每次识别需要的时间也明显增加。并且,使用上述方法训练的SVM分类器,容易受到噪声样本的影像。在工业化应用场合,样本中经常会出现噪声样本,这些噪声样本对于分类器的效果影响很大。例如,一个人物的人脸数据中,训练正样本中存在其他人物的人脸,会导致训练出来的人脸分类器效果下降,容易引起其他人物的误检。如果使用全部的样本作为训练样本训练分类器,必然会受到噪声样本的影响。
技术实现思路
针对上述
技术介绍
中存在的分类器的样本空间的复杂性较大,容易受到噪声样本的影响的问题,本专利技术的目的在于提供一种SVM分类器训练样本获取方法及其系统,能够降低分类器样本空间的复杂性,并且减少噪声样本对分类器训练的影响。 一种SVM分类器训练样本获取方法,包括以下步骤: 计算获取SVM分类器的各个样本相互之间的距离; 将各个所述样本的距离与第一距离阈值比较,对所述样本进行第一次聚类,获取至少一个第一分类,以及各个所述第一分类包含的样本; 将各个所述样本的距离与第二距离阈值比较,对所述样本进行第二次聚类,获取至少一个第二分类,以及各个所述第二分类包含的样本;其中,所述第二距离阈值大于所述第一距离阈值; 当一个所述第二分类只包含一个样本,则将该样本划分为孤立样本; 分别在各个所述第一分类中选取一个样本作为代表样本,根据所述代表样本和所述孤立样本设置所述SVM分类器的训练样本。 —种SVM分类器训练样本获取系统,包括: 距离计算模块,用于计算获取SVM分类器的各个样本相互之间的距离; 第一聚类模块,用于将各个所述样本的距离与第一距离阈值比较,对所述样本进行第一次聚类,获取至少一个第一分类,以及各个所述第一分类包含的样本; 第二聚类模块,用于将各个所述样本的距离与第二距离阈值比较,对所述样本进行第二次聚类,获取至少一个第二分类,以及各个所述第二分类包含的样本;其中,所述第二距离阈值大于所述第一距离阈值; 孤立样本模块,用于当一个所述第二分类只包含一个样本,则将该样本划分为孤立样本; 训练样本设置模块,用于分别在各个所述第一分类中选取一个样本作为代表样本,根据所述代表样本和所述孤立样本设置所述SVM分类器的训练样本。 本专利技术的SVM分类器训练样本获取方法及其系统中,通过比较各个所述样本之间的距离,根据样本距离对各个样本进行聚类。因为样本是一个K维的特征向量,两个样本之间的距离表示了两个样本之间的相似性。对样本距离较接近的样本进行第一次聚类,可以将比较相似的样本归为同一个第一分类。而对样本进行所述第二分类,则可以有效地挑选出孤立样本,在得到的各个样本之中,噪声样本的可能性被大大减少,因此可以有效减少噪声样本对分类器训练的影响。而在同属于同一个第一分类的各个样本之中挑选出一个作为代表样本。以各个所述第一分类的代表样本作为训练样本,可以有效减少样本的数量,降低分类器的样本空间的复杂性,使分类器训练更加简单,更加有效。 针对上述
技术介绍
中存在的分类器的样本空间的复杂性较大,容易受到噪声样本的影响的问题,本专利技术的目的还在于提供一种SVM分类器训练方法及其系统,能够降低分类器样本空间的复杂性,并且减少噪声样本对分类器训练的影响。 一种SVM分类器训练方法,包括以下步骤: 采用本专利技术的SVM分类器训练样本获取方法获取训练样本; 利用获取的所述训练样本训练SVM分类器,获取SVM分类器模型。 一种SVM分类器训练系统,包括: 本专利技术的SVM分类器训练样本获取系统; 以及,利用获取的所述训练样本训练SVM分类器,获取SVM分类器模型的训练模块。 本专利技术SVM分类器训练方法及其系统,可以实现自动化训练SVM分类器,对于工业化应用场合需要大量分类器、样本数量不断增长或者变化的情况,本专利技术可以自动完成训练并达到较好的效果。同时可以过滤掉训练样本中孤立的样本,降低分类器识别结果的错误率。过滤掉训练样本中的相似样本,降低分类器所占的空间大小,并减少分类器的识别时间。 【专利附图】【附图说明】 图1是本专利技术SVM分类器训练样本获取方法第一实施方式的流程示意图; 图2是本专利技术SVM分类器训练样本获取方法第二实施方式中设置分类器的训练正样本的方法流程示意图; 图3是本专利技术SVM分类器训练样本获取方法第三实施方式中设置分类器的训练负样本的方法流程示意图; 图4是本专利技术SVM分类器训练样本获取系统的结构示意图; 图5是本专利技术SVM分类器训练系统的结构示意图。 【具体实施方式】 请参阅图1,图1是本专利技术SVM分类器训练样本获取方法第一实施方式的流程示意图。 所述SVM分类器训练样本获取方法,本文档来自技高网
...

【技术保护点】
一种SVM分类器训练样本获取方法,其特征在于,包括以下步骤:计算获取SVM分类器的各个样本相互之间的距离;将各个所述样本的距离与第一距离阈值比较,对所述样本进行第一次聚类,获取至少一个第一分类,以及各个所述第一分类包含的样本;将各个所述样本的距离与第二距离阈值比较,对所述样本进行第二次聚类,获取至少一个第二分类,以及各个所述第二分类包含的样本;其中,所述第二距离阈值大于所述第一距离阈值;当一个所述第二分类只包含一个样本,则将该样本划分为孤立样本;分别在各个所述第一分类中选取一个样本作为代表样本,根据所述代表样本和所述孤立样本设置所述SVM分类器的训练样本。

【技术特征摘要】

【专利技术属性】
技术研发人员:苗广艺路香菊单霆
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1