大规模文本分类的方法技术

技术编号:11416807 阅读:282 留言:0更新日期:2015-05-06 17:26
大规模文本分类的方法涉及计算机领域,为实现兼顾精度的大规模学习,需要通过构建具有最大差异性的多个分类器及实现多个分类器的高效集成决策来实现。该大规模文本分类的方法包括:将文本数据转换为向量数据,分割大规模文本数据集为子集;以分布式计算的方法使用子集训练子分类器;选择分类器;对待测样本进行分类,实现多分类器共同决策。本发明专利技术将集成学习框架应用于大规模文本分类上,可以使现有的分类方法适用于大规模文本分类,提高分类效率。

【技术实现步骤摘要】

本专利技术涉及计算机领域,更具体地涉及集成学习以及大规模文本分类的方法
技术介绍
文本分类(Text categorization)是指在给定分类体系下,根据文本内容自动确定文本类别的过程,按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档,20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率非常低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。文本分类的研究可以追溯到上世纪六十年代,早期的文本分类主要是基于知识工程(Knowledge Engineering),通过手工定义一些规则来对文本进行分类,这种方法费时费力,且必须对某一领域有足够的了解,才能写出合适的规则。到上世纪九十年代,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。但由于近年数据集规模逐渐增大,使得计算机处理大规模数据信息的时间成本急速增加,而现有的分类方法更多侧重于分类精度的提高,对大规模文本分类不能很好地解决。因此人们开始尝试将集成学习框架应用于分类算法之中,应用多分类器共同工作和共同决策的方法分担大规模数据的工作量,以扩大传统分类方法的应用范围,提高分析大规模数据的效率,但仍然存在扩展性的问题,难以满足大规模文本分类的要求。目前将集成学习框架应用于大规模文本分类的研究并不多,现有技术中,期刊“(IJCSIS)International Journal of Computer Science and Information Security,Vol.12,No.8,August 2014”2014年8月出版的第12期第8卷中的由Ahmad Basheer Hassanat,Mohammad Ali Abbadi,Ghada Awad Altarawneh,Karak,Jordan所著的论文“Solving the Problem of the K Parameter in the KNN Classifier Using an Ensemble Learning Approach;”中提出了应用集成学习方法解决KNN分类器中K值的问题。其中,将集成学习方法引入文本分类,很好的在传统KNN分类方法上(图1),实现了多个不同K值的KNN分类器同时对待测样本进行决策的功能。具体地,该方法针对不同的待测样本的向量信息,选取距离样本最近的个样本作为子集,同时对不同K值的KNN分类器给与不同的权重对待测样本进行决策,以权重最大的类别作为结果输出(图2)。上述方法虽然将集成学习应用于文本分类之中,但是它在扩展度上仍然有局限性,和现有的算法类似,其目的是提高决策结果的精度,并不能使现有方法在处理数据的规模上得到强化。在实际应用中,大规模文本数据会对该方法有很大的影响,例如该方法针对大量待测样本时,运算非常耗时。
技术实现思路
本专利技术是鉴于以上所述的一个或多个问题做出的。本专利技术提出了一种大规模文本分类的方法,其特征在于步骤如下:步骤1:将文本数据转换为向量数据:将文本数据转换为TF-IDF向量数据,使文本数据成为多维向量数据;步骤2:分割大规模文本数据集为子集;步骤3:以分布式计算方法训练子分类器:根据样本分割结果,以各个子集分别训练各自的子分类器;步骤4:选择分类器处理待测样本:根据测试样本的向量数据,选取所需的子分类器对测试样本进行分类;步骤5:多个子分类器共同决策:这是集成学习方法在大规模文本分类中的应用,为实现兼顾精度的大规模文本分类,通过构建具有大差异性的多个子分类器,并实现多个子分类器对测试样本共同决策。步骤2中依据每个样本的向量数据,计算样本间距,不断将相互间距小的样本合并生成子集,当子集中的样本数目大于λm后,将子集分割成为样本数量不少于m的数个子集;其中λ,m为整数,λ取值为1~3,m取值大于1000。训练过程采用分布式计算的方式,由多台电脑同时负责子分类器的训练,提高了大规模文本数据集训练分类器的效率。对于训练子分类器的算法,并不局限一种特定的算法,现有的文本分类算法如SVM,KNN,NB等算法均可适用于本分类系统。步骤4中具体如下:当测试样本D进行分类时,首先通过D的向量信息,选取距离D最近的数个(3-5个)子集所对应的子分类器,组成子分类器集合距离计算公式为c(i)=x1y1+x2y2+...+xnynx12+x22+...+xn2·y12+y22+...+yn2]]>之后选取子分类器与D的夹角余弦最小的1-2个子分类器加入集合M;然后对M中的各子分类器给予不同的权重,权重依据子集与D的距离而定,w(i)=∑d(i)/d(i),w为权重,d为距离,i为M中的子分类器序号,之后使用M中的各子分类器对D进行分类,投票决策结果取决于各分类器对待测样本的分类结果的权重和,将结果按照类别,把权重相加,取权重最大的类别作为待测样本的结果。根据本专利技术一个实施例的大规模文本分类方法包括:将文本数据转换为向量数据,分割大规模文本数据集为子集;以分布式计算的方法使用子集训练子分类器;选择分类器处理待测样本;对待测样本进行分类,实现多分类器共同决策。本专利技术相对于现有的文本分类方法,可以使现有的文本分类方法处理大规模文本数据,不但能兼顾文本分类精度,同时使用分布式计算的方法提高对大规模文本数据处理的效率。附图说明结合附图,从下面对本专利技术实施例的详细描述,将更好地理解本专利技术,其中:图1传统KNN分类方法图2集成学习在传统KNN分类方法上的应用图3(a)集成学习应用于大规模文本分类图3(b)集成学习应用于大规模文本分类图4大规模文本分类方法流程图图5(a)本文档来自技高网
...
大规模文本分类的方法

【技术保护点】
一种大规模文本分类的方法,其特征在于步骤如下:步骤1:将文本数据转换为向量数据:将文本数据转换为TF‑IDF向量数据,使文本数据成为多维向量数据;步骤2:分割大规模文本数据集为子集;步骤3:以分布式计算方法训练子分类器:根据样本分割结果,以各个子集分别训练各自的子分类器;步骤4:选择分类器处理待测样本:根据测试样本的向量数据,选取所需的子分类器对测试样本进行分类;步骤5:多个子分类器共同决策:这是集成学习方法在大规模文本分类中的应用,为实现兼顾精度的大规模文本分类,通过构建具有大差异性的多个子分类器,并实现多个子分类器对测试样本共同决策。

【技术特征摘要】
1.一种大规模文本分类的方法,其特征在于步骤如下:
步骤1:将文本数据转换为向量数据:
将文本数据转换为TF-IDF向量数据,使文本数据成为多维向量数据;
步骤2:分割大规模文本数据集为子集;
步骤3:以分布式计算方法训练子分类器:
根据样本分割结果,以各个子集分别训练各自的子分类器;
步骤4:选择分类器处理待测样本:
根据测试样本的向量数据,选取所需的子分类器对测试样本进行分类;
步骤5:多个子分类器共同决策:
这是集成学习方法在大规模文本分类中的应用,为实现兼顾精度的大规
模文本分类,通过构建具有大差异性的多个子分类器,并实现多个子分类器
对测试样本共同决策。
2.根据权利要求1所述的大规模文本分类的方法,其特征在于:步骤2
中依据每个样本的向量数据,计算样本间距,不断将相互间距小的样本合并
生成子集,当子集中的样本数目大于λm后,将子集分割成为样本数量不少
于m的数个子集;其中λ,m为整数,λ取值为1~...

【专利技术属性】
技术研发人员:赵旭李建强桂琪亢阳阳孙靖超田猛
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1