大规模文本分类的方法技术

技术编号：11416807 阅读：282 留言：0更新日期：2015-05-06 17:26

大规模文本分类的方法涉及计算机领域，为实现兼顾精度的大规模学习，需要通过构建具有最大差异性的多个分类器及实现多个分类器的高效集成决策来实现。该大规模文本分类的方法包括：将文本数据转换为向量数据，分割大规模文本数据集为子集；以分布式计算的方法使用子集训练子分类器；选择分类器；对待测样本进行分类，实现多分类器共同决策。本发明专利技术将集成学习框架应用于大规模文本分类上，可以使现有的分类方法适用于大规模文本分类，提高分类效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，更具体地涉及集成学习以及大规模文本分类的方法。
技术介绍
文本分类(Text categorization)是指在给定分类体系下，根据文本内容自动确定文本类别的过程，按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档，20世纪90年代以前，占主导地位的文本分类方法一直是基于知识工程的分类方法，即由专业人员手工进行分类。人工分类非常费时，效率非常低。90年代以来，众多的统计方法和机器学习方法应用于自动文本分类，文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究，并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。文本分类的研究可以追溯到上世纪六十年代，早期的文本分类主要是基于知识工程(Knowledge Engineering)，通过手工定义一些规则来对文本进行分类，这种方法费时费力，且必须对某一领域有足够的了解，才能写出合适的规则。到上世纪九十年代，随着网上在线文本的大量涌现和机器学习的兴起，大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练，建立一个判别规则或分类器，从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结...
大规模文本分类的方法

【技术保护点】
一种大规模文本分类的方法，其特征在于步骤如下：步骤1：将文本数据转换为向量数据：将文本数据转换为TF‑IDF向量数据，使文本数据成为多维向量数据；步骤2：分割大规模文本数据集为子集；步骤3：以分布式计算方法训练子分类器：根据样本分割结果，以各个子集分别训练各自的子分类器；步骤4：选择分类器处理待测样本：根据测试样本的向量数据，选取所需的子分类器对测试样本进行分类；步骤5：多个子分类器共同决策：这是集成学习方法在大规模文本分类中的应用，为实现兼顾精度的大规模文本分类，通过构建具有大差异性的多个子分类器，并实现多个子分类器对测试样本共同决策。

【技术特征摘要】
1.一种大规模文本分类的方法，其特征在于步骤如下：
步骤1：将文本数据转换为向量数据：
将文本数据转换为TF-IDF向量数据，使文本数据成为多维向量数据；
步骤2：分割大规模文本数据集为子集；
步骤3：以分布式计算方法训练子分类器：
根据样本分割结果，以各个子集分别训练各自的子分类器；
步骤4：选择分类器处理待测样本：
根据测试样本的向量数据，选取所需的子分类器对测试样本进行分类；
步骤5：多个子分类器共同决策：
这是集成学习方法在大规模文本分类中的应用，为实现兼顾精度的大规
模文本分类，通过构建具有大差异性的多个子分类器，并实现多个子分类器
对测试样本共同决策。
2.根据权利要求1所述的大规模文本分类的方法，其特征在于：步骤2
中依据每个样本的向量数据，计算样本间距，不断将相互间距小的样本合并
生成子集，当子集中的样本数目大于λm后，将子集分割成为样本数量不少
于m的数个子集；其中λ，m为整数，λ取值为1～...

【专利技术属性】
技术研发人员：赵旭，李建强，桂琪，亢阳阳，孙靖超，田猛，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人