支持向量机的主动学习方法技术

技术编号:21090999 阅读:17 留言:0更新日期:2019-05-11 10:29
本发明专利技术提供一种支持向量机的主动学习方法。利用最大最小距离法从初始训练集中选择尽可能远的样本作为K‑means算法的初始聚类中心,能够避免K‑means算法在初值选取时出现聚类中心过于临近的问题,同时在迭代过程中设定一个距离阈值来去除掉一部分距离当前最优分类超平面远的样本点,并对于剩余的样本点应用K‑means算法进行聚类以确定能够满足指标的最优分类超平面,能够提高划分初始样本集的效率。

【技术实现步骤摘要】
支持向量机的主动学习方法
本专利技术涉及计算机
,尤其涉及一种支持向量机的主动学习方法。
技术介绍
主动学习算法(如图1所示)的主要目的就是利用现成的知识,使用最少的训练数据得到较好性能的分类结果。与传统的被动学习相比较,主动学习在每次迭代过程中都是选取那些最具价值的样本进行标注,这就减少了对无意义的样本点标注的时间。在主动学习算法的训练阶段,由于主动的加入并标注少量的最有可能成为支持向量的训练样本点,从而极大的提高了支持向量机的训练效率。K-means算法是一种经典的以距离作为相似性评价指标的聚类算法,该算法具有简单易行、不需要距离矩阵且时间复杂度接近于线性等优点,很适合大规模数据处理。但是在基于K-means算法的主动学习过程中,K-means算法中的聚类数据K需要预先给定,支持向量机是面向二类的分类问题,即K=2,另外,K-means算法对初始值的选取的依赖程度比较大。而且目前在选择初始样本点的时候,总是随机地或者根据先验概率,并且先验概率的分布也没有一个好的衡量标准,这就会造成分类器在训练的初始阶段迭代次数相对较多,降低了分类效率;同时,在选择最有价值的样本时,由于选取的是不确定性最大的样本点,而这些点又经常分布在临界区域,所以算法本身容易受到奇异点的影响。另外,主动学习算法在处理训练样本集的时候,把其划分为候选样本集和新添样本集。从候选样本集中选择最有可能成为支持向量的样本添加到新添样本集中,通过对新添样本集进行训练从而得到最优超平面。在选择最具价值样本的时候,每次都要对所有的候选样本点到最优超平面距离进行对比运算,由于新加样本的样本数远小于候选样本集的数目,所以该过程对整体算法的效率影响是很大的。
技术实现思路
本专利技术提供的支持向量机的主动学习方法,利用最大最小距离法从初始训练集中选择尽可能远的样本作为K-means算法的初始聚类中心,能够避免K-means算法在初值选取时出现聚类中心过于临近的问题,从而能够提高划分初始样本集的效率。本专利技术提供一种支持向量机的主动学习方法,包括:1)利用最大最小距离法对初始训练样本集进行聚类得到两个初始聚类中心;2)以所述初始聚类中心作为K-means算法的初始迭代值,对所述初始训练样本集进行聚类得到两个更新聚类中心;3)以所述更新聚类中心作为主动学习的初始样本集,并结合SMO算法进行运算得到最优分类超平面;4)应用步骤3)中确定的最优分类超平面对所述初始训练样本集进行测试,以确定所述最优分类超平面是否能够满足指标;5)如果所述最优分类超平面不能够满足指标,分别计算所述初始训练样本集中的正样本点和负样本点到所述初始最优分类超平面的距离;6)将所述正样本点和负样本点到所述最优分类超平面的距离与预设阈值进行对比,并从所述初始训练样本集中去除距离大于预设阈值的样本点;7)分别对所述初始训练样本集中的剩余正样本点的集合和剩余负样本点的集合应用K-means算法得到两个更新聚类中心,将本步骤得到的两个更新聚类中心加入到步骤3)中的初始样本集中以更新最优分类超平面,直至得到能够满足指标的最优分类超平面。本专利技术实施例提供的支持向量机的主动学习方法,利用最大最小距离法从初始训练集中选择尽可能远的样本作为K-means算法的初始聚类中心,能够避免K-means算法在初值选取时出现聚类中心过于临近的问题,同时在迭代过程中设定一个距离阈值来去除掉一部分距离当前最优分类超平面远的样本点,并对于剩余的样本点应用K-means算法进行聚类以确定能够满足指标的最优分类超平面,能够提高划分初始样本集的效率。附图说明图1为本专利技术一实施例支持向量机的主动学习方法的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种支持向量机的主动学习方法,如图1所示,所述方法包括:S11、利用最大最小距离法对初始训练样本集进行聚类得到两个初始聚类中心。S12、以所述初始聚类中心作为K-means算法的初始迭代值,对所述初始训练样本集进行聚类得到两个更新聚类中心。S13、以所述更新聚类中心作为主动学习的初始样本集,并结合SMO算法进行运算得到最优分类超平面。S14、应用步骤S13中确定的最优分类超平面对所述初始训练样本集进行测试,以确定所述最优分类超平面是否能够满足指标。S15、如果所述最优分类超平面不能够满足指标,分别计算所述初始训练样本集中的正样本点和负样本点到所述初始最优分类超平面的距离。S16、将所述正样本点和负样本点到所述最优分类超平面的距离与预设阈值进行对比,并从所述初始训练样本集中去除距离大于预设阈值的样本点。S17、分别对所述初始训练样本集中的剩余正样本点的集合和剩余负样本点的集合应用K-means算法得到两个更新聚类中心,将本步骤得到的两个更新聚类中心加入到步骤S13中的初始样本集中以更新最优分类超平面,直至得到能够满足指标的最优分类超平面。本专利技术实施例提供的支持向量机的主动学习方法,利用最大最小距离法从初始训练集中选择尽可能远的样本作为K-means算法的初始聚类中心,能够避免K-means算法在初值选取时出现聚类中心过于临近的问题,同时在迭代过程中设定一个距离阈值来去除掉一部分距离当前最优分类超平面远的样本点,并对于剩余的样本点应用K-means算法进行聚类以确定能够满足指标的最优分类超平面,能够提高划分初始样本集的效率。可选地,如果所述最优分类超平面能够满足指标则停止运算,并输出所述步骤S13中确定的最优分类超平面。可选地,所述预设阈值为聚类中心到最优分类超平面之间的距离。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。以上所述,仅为本专利技术的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应该以权利要求的保护范围为准。本文档来自技高网
...

【技术保护点】
1.一种支持向量机的主动学习方法,其特征在于,所述方法包括:1)利用最大最小距离法对初始训练样本集进行聚类得到两个初始聚类中心;2)以所述初始聚类中心作为K‑means算法的初始迭代值,对所述初始训练样本集进行聚类得到两个更新聚类中心;3)以所述更新聚类中心作为主动学习的初始样本集,并结合SMO算法进行运算得到最优分类超平面;4)应用步骤3)中确定的最优分类超平面对所述初始训练样本集进行测试,以确定所述最优分类超平面是否能够满足指标;5)如果所述最优分类超平面不能够满足指标,分别计算所述初始训练样本集中的正样本点和负样本点到所述初始最优分类超平面的距离;6)将所述正样本点和负样本点到所述最优分类超平面的距离与预设阈值进行对比,并从所述初始训练样本集中去除距离大于预设阈值的样本点;7)分别对所述初始训练样本集中的剩余正样本点的集合和剩余负样本点的集合应用K‑means算法得到两个更新聚类中心,将本步骤得到的两个更新聚类中心加入到步骤3)中的初始样本集中以更新最优分类超平面,直至得到能够满足指标的最优分类超平面。

【技术特征摘要】
1.一种支持向量机的主动学习方法,其特征在于,所述方法包括:1)利用最大最小距离法对初始训练样本集进行聚类得到两个初始聚类中心;2)以所述初始聚类中心作为K-means算法的初始迭代值,对所述初始训练样本集进行聚类得到两个更新聚类中心;3)以所述更新聚类中心作为主动学习的初始样本集,并结合SMO算法进行运算得到最优分类超平面;4)应用步骤3)中确定的最优分类超平面对所述初始训练样本集进行测试,以确定所述最优分类超平面是否能够满足指标;5)如果所述最优分类超平面不能够满足指标,分别计算所述初始训练样本集中的正样本点和负样本点到所述初始最优分类超平面的距离;6)将所述正样本点和...

【专利技术属性】
技术研发人员:欧阳一昭郭庆谢莹莹宋怀明蒋丹东
申请(专利权)人:中科曙光国际信息产业有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1