一种质心分类器的改进方法技术

技术编号:12839558 阅读:152 留言:0更新日期:2016-02-11 09:18
本发明专利技术公开了一种质心分类器的改进方法,步骤如下:a、选定训练集和测试集,构建质心;b、计算待分类数据与质心向量的相似度;c、初始化参数k,为每个类设置参数k,通过调整参数k调整分类面的位置;d、训练参数k;e、将训练好的参数k应用于待分类数据。本发明专利技术提高了原始CBC对不平衡类的分类正确率,可用于数据分类。

【技术实现步骤摘要】

本专利技术涉及计算机科学与
,涉及数据分类方法,可用在互联网数据分类 的应用中,可提高信息检索的效率与准确率。
技术介绍
随着信息技术的发展,人们能够获取的信息呈现爆炸式的增长。面对日益增多 的海量信息,如何快速有效的获取人们所需要的数据,仅仅依靠人工的方式来处理这些信 息变得越来越困难。需要一些自动化的辅助工具来帮助人们更好的管理和过滤这些信息, CBC(基于质心分类器)就是比较优良的数据分类器。 基于质心的分类方法是经典的分类方法之一,其思路简单,即根据数据特征向量 与类别质心的相似度来归类文本。基于质心分类法易于理解和实现,性能稳定地优于Naive Bayes、KNN以及C4. 5决策树方法,且算法复杂度与文本集规模呈线性关系,分类效率高,出 现过拟合现象的概率低。 如作者为柴玉梅、朱国重、昝红英、胡达明、冼家扬等于2009年10月在刊名为《计 算机工程》的期刊上发表了题名为"基于质心的文本分类算法"论文,该论文的主要内容是 "当文本集较分散或出现多峰值时,基于质心的文本分类算法分类效果很差。针对该问题 提出一种改进的文本分类算法,与基于质心的经典分类算法相比,其性能较高。在香港慧 科讯业公司提供的UCK算法在文本分类语料库上的测试结果表明,该算法的效率和精度满 足要求。 但以上述论文为代表的传统的基于质心的分类方法的不足也是显而易见的:质心 向量根据所有已标注的属于该类别文本的特征向量计算而来,当属于同一类别的文本分布 较为分散,或类别之间有重叠时,其分类效果较差。
技术实现思路
本专利技术旨在针对上述现有技术所存在的缺陷和不足,提供一种质心分类器的改进 方法,本方法对每个分类增加一个参数,在不降低分类效率的基础上,使分类效果显著提 升,解决了原始质心分类器对不平衡类分类正确率低的问题。 本专利技术是通过采用下述技术方案实现的: -种质心分类器的改进方法,其特征在于步骤如下: a、选定训练集和测试集,构建质心; b、计算待分类数据与质心向量的相似度; C、初始化参数k,为每个类设置参数k,通过调整参数k调整分类面的位置; d、训练参数k; e、将训练好的参数k应用于待分类数据。 所述a步骤具体是指: 已知有P个类别信息的训练集DTR、待分类数据集Dte;构建质心:使用向量 空间模型(Vector Space Model) VSM模型,将每个数据表示成对应的一个向量X = (W1, W2, ...,wn),其中W1, W2, '^是将文本向量化、标准化处理以后每个词的权重,并通过 算数平均质心AAC方法构建出一个能够代表某一类数据的向量,即质心,Arithmetical Average Centroid(AAC)质心是类别Cj中所有数据的算术平均值,向量C 的计算公式为其中S是类别C,中样本的个数,X i则是类别C ,中的样本的向量; 所述b步骤具体是指: 计算待分类数据X与质心向量C,的相似度采用余弦相似度来度量: 所述c步骤具体是指: 初始化参数k,为每个类别Cj, j e (1,p)设置参数kj,此时Ic1= k 2= · · · = k p = 1 ; 所述d步骤具体是指:训练参数 k :根据 Class(x) = argmaxQ^SimkCj)),j e (l,p)对训练集中的数 据 x(x e Ci, i e (1,p))进行分类: 1)若分类正确,参数k不作修改,继续对训练集中的数据进行分类; 2)若将类C1中的数据误分到类C ,中,增大Ic1,减小k,(其中I k,增大减小的固 定值可根据实际情况自行设置),更新h、1^后,继续对训练集中的数据进行分类; 3)重复步骤4,当分类正确率在一定范围内浮动时停止训练,得到参数k,的最终 结果; 所述e步骤具体是指: 根据Class (X) = argmax (kfSim (X,Cj)),将待分类数据集Dte进行分类应用。 与现有技术相比,本专利技术所达到的有益效果如下: 通过本专利技术所述的a-e的步骤,与现有技术相比,其保留了 CBC分类方法线性特 点,复杂度低,分类速度快;提高了 CBC分类方法的正确率;本专利技术质心不变,通过参数k调 整分类面,不会出现质心偏移的现象;【附图说明】 下面将结合说明书附图和【具体实施方式】对本专利技术作进一步的详细说明,其中: 图1示出原始CBC分类原理图; 图2示出本专利技术改进CBC分类原理图。【具体实施方式】 实施例1 本专利技术的主要目的在于在对基于质心分类方法(CBC)的改进,弥补原始的质心分 类方法的不足,使得分类结果更好。 CBC原始分类过程: (2)构建质心。使用向量空间模型(Vector Space Model)VSM模型,将每个数据表 示成对应的一个向量X = (W1, W2, ...,Wn),并通过AAC等方法构建出一个能够代表某一类数 据的向量,即质心。其中,Arithmetical Average Centroid(AAC),质心是类别Cj中所有数 据的算术平均值,向量C,的计算公式为其中S是类别(^中样本的个数,X MJ 是类别C,中的样本的向量; (2)计算待分类数据与质心向量的相似度。计算待分类数据X与质心向量C,的相 似度采用余弦相似度来度量: (3)分类。数据与某一类别的相似度越高说明该数据属于该类的可能性越大,将该 数据分到相似度最高的类别中Class(x) = argmaxSim(x, Cj)。 在CBC原始分类方法中分类面为两个类质心a、b连线的中垂面y,当两个类的范 围相差不大时分类效果较好,如图1 ;当两个类的范围差别较大时,根据CBC原始分类方法 的分类面y,图2中的阴影部分就会被误分。本专利技术便在CBC分类器的基础上进行改进,对 每个类增加一个参数k,使得分类面y的位置调整到y'达到优化的效果。 参数k的训练过程: 1.初始化k,,j e (1,P) (P为数据集S中类的个数);构建质心,计算待分类数据 X与质心向量Cj的相似度采用余弦相似度来度量:同时为每个类Cj设置参数k.j,此时Ic 1= k2= . . · = kp= 1 ; 2.对训练数据 x(x e C1, i e (1,p))根据 Class (X) = argmax(kj*Sim(x,Cj)),j e (1,p)进行分类,分类正确转至步骤 4,否 则转至步骤3 ; 3.若将数据X误分至类C#,增大k i、减小k,(其中IkPfI大减小的固定值可根 据实际情况自行设置); 4.重复步骤2、3当前第1页1 2 本文档来自技高网...

【技术保护点】
一种质心分类器的改进方法,其特征在于步骤如下:a、选定训练集和测试集,构建质心;b、计算待分类数据与质心向量的相似度;c、初始化参数k,为每个类设置参数k,通过调整参数k调整分类面的位置;d、训练参数k;e、将训练好的参数k应用于待分类数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘川汪文勇夏守璐
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1