基于聚簇的支持向量数据描述改进算法制造技术

技术编号:13603735 阅读:79 留言:0更新日期:2016-08-27 23:17
本发明专利技术提供一种基于聚簇的支持向量数据描述改进算法,首先利用核函数计算训练样本在核空间中相互之间的距离,接着通过所得的结果计算训练样本的聚簇中心样本并通过每个样本到聚簇中心的距离计算样本权重,然后设计一种加权的支持向量数据描述方法得到所需的超球体作为决策边界,之后对测试样本进行判别,若测试样本位于超球体之内则判为目标类样本,反之则判为异常类样本。相较于传统的支持向量数据描述算法,本发明专利技术的基于聚簇的支持向量数据描述改进算法通过该权重因子引入了基于样本分布信息的簇中心算法,根据样本到簇中心的距离计算得到权重因子,实现了对原始支持向量数据描述方法决策边界优化的改进,能够有效地对单类的数据集有更加准确的数据分类描述。

【技术实现步骤摘要】

本专利技术属于机器学习领域,特别涉及一种基于聚簇的支持向量数据描述改进算法
技术介绍
支持向量数据描述(Support Vector Data Description,SVDD)是由Tax在2001年提出的一种基于边界的单类分类算法,其应用领域在不断被推广,单类分类能够区分异常样本的情况,故此SVDD比较适合异常检测的问题,其在各种异常检测应用中有着非常显著地效果。SVDD算法在对目标数据进行描述时,首先将样本通过核函数映射到和空间中,然后用一个超球体去包含尽量多的目标数据,并要求最终的超球体半径尽可能小。在进行分类判断时,若测试数据点位于超球体外,则此数据点视做异常点,反之,则为目标数据。SVDD分类器是一种广泛使用的单类分类分类器。SVDD利用样本在核空间中样本到球形边界的距离,而没有考虑样本的分布密度信息,这有可能会导致聚簇中心附近的样本没有包含于超球体的情况,即出现较低分类精度的情况。为了解决这个缺陷,我们提出了一种基于聚簇的加权SVDD算法,该算法在原始的SVDD训练过程中考虑样本的分布密度,并利用聚簇中心对样本进行加权处理,提高了原始的SVDD算法的分类精度。
技术实现思路
本专利技术要解决的技术问题在于针对SVDD算法没有充分利用样本信息的特点而提出的一种基于聚簇的支持向量数据描述算法。本算法的目标是尽量在原有的支持向量数据描述方法中提高对样本信息的利用从而达到提高分类精度的目的,主要步骤是:步骤1:利用样本之间的相互距离计算训练样本在核空间中的聚簇中心样本;步骤2:根据样本到聚簇中心样本的距离对训练样本进行加权处理;步骤3:对原始的支持向量数据描述方法进行加权设计,利用步骤2所得样本权重计算得到支持向量的决策边界,即一个封闭的超球体;步骤4:对测试样本进行目标类的判别,若测试样本位于超球体之内则判为目标类样本,反之则判为异常类样本。本专利技术解决的技术问题所采用的技术方案还可以进一步完善。本方法中所提出的利用全局的密度信息方法得到的聚簇中心,而在考虑密度的情况时可以进一步引入局部的密度信息,得到某一局部的聚簇中心点,在利用各个局部聚簇中心对样本进行加权处理,从而有效的加入局部密度信息。本专利技术的有益效果是:利用原始训练样本的密度信息所得到的聚簇中心样本对每个训练样本进行加权处理,并且对原始支持向量数据描述方法进行引入权重因子的改进,使用该方法能在不影响训练时空复杂度的情况下提高算法的分类准确度,使得原始的SVDD算法能在机器学习的实际应用中有进一步的提高。附图说明图1 是本专利技术的基于聚簇的支持向量数据描述改进算法的流程图。具体实施方式下面结合附图和实施例对本专利技术作进一步介绍:本专利技术的方法共分为四大步骤。第一步:计算训练样本相互之间的空间距离和聚簇中心样本。1)根据支持向量数据描述算法,样本通过核函数映射到高维的特征空间(也称作核空间)来对数据进行更好的描述,为保证算法的时间复杂度不会有太大改变,计算训练样本相互之间的空间距离在核空间中进行,核函数有多种选择,例如高斯核函数,设训练样本的数据集为{本文档来自技高网...

【技术保护点】
基于聚簇的支持向量数据描述改进算法,其特征在于,包括以下步骤:利用核函数计算训练样本在核空间中相互之间的距离,通过所得的结果计算训练样本的聚簇中心样本并通过每个样本到聚簇中心的距离计算样本权重,设计一种加权的支持向量数据描述方法得到所需的超球体作为决策边界,之后对测试样本进行判别,若测试样本位于超球体之内则判为目标类样本,反之则判为异常类样本。

【技术特征摘要】
1.基于聚簇的支持向量数据描述改进算法,其特征在于,包括以下步骤:利用核函数计算训练样本在核空间中相互之间的距离,通过所得的结果计算训练样本的聚簇中心样本并通过每个样本到聚簇中心的距离计算样本权重,设计一种加权的支持向量数据描述方法得到所需的超球体作为决策边界,之后对测试样本进行判别,若测试样本位于超球体之内则判为目标类样本,反之则判为异常类样本。2.权利要求1种所描述的训练样本在核空间中相互之间的距离,其特征在于是指训练样本在通过核函数进行映射之后的空间中计算样本之间的距离,其特征在于通过核函数求得样本间的相互距离。3.权利要求1所述的一种基...

【专利技术属性】
技术研发人员:王喆李冬冬刘宇高大启
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1