一种文本分类的方法及装置制造方法及图纸

技术编号：6315001 阅读：288 留言：0更新日期：2012-04-11 18:40

本申请公开了一种文本分类的方法，用于实现文本分类，简化分类操作，并提高文本分类的准确度。所述方法包括：对获得的文本内容进行分词，得到多个词汇；针对得到的多个词汇中的每一个词汇，确定该词汇在球面空间模型中的词汇向量；词汇的词汇向量包括该词汇在各类目上的词频值进行归一化后得到的归一化词频值；球面空间模型是以单位长度为半径的多维球体模型，球面空间的维度等于类目的个数，类目对应球面空间中的一个类目向量；针对每个类目，确定得到的多个词汇的词汇向量之和到该类目的类目向量的距离；将文本分入最短距离对应的类目。本申请还公开了用于实现所述方法的装置。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机及通信领域，特别是涉及文本分类的方法及装置。
技术介绍
文本分类是文本挖掘的一个重要内容，是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。通过自动文本分类系统把文档进行归类，可以帮助人们更好地寻找需要的信息和知识。在人们看来，分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长，特别是互联网(Internet)上在线文本信息的激增，文本自动分类已经成为处理和组织大量文档数据的关键技术。现在，文本分类正在各个领域得到广泛的应用。但是，随着信息量日趋丰富，人们对于内容搜索的准确率，查全率等方面的要求会越来越高，因而对文本分类技术需求大为增加，如何构造一个有效的文本分类系统仍然是文本挖掘的一个主要研究方向。在自然语言处理领域，文本的表示主要采用向量空间模型(Vector spacemodel, VSM)，这种方法认为每篇文本都包含一些用概念词表达的揭示其内容的独立属性，而每个属性都可以看成是概念空间的一个维数，这些独立属性称为文本特征项，文本就可以表示为这些特征项的集合。特征向量的相近程度常用夹角余弦来衡量。然后根据文本向量与候选类别的特征向量的相近程度来判定文本的类别。现有技术中需要计算每个文本向量与候选类别的所有特征向量相近程度，每次计算均需要采用夹角余弦来衡量，计算量非常大，并且现有技术对文本的语义没有任何约束，其分类的准确度不是很好。
技术实现思路
本申请实施例提供一种文本分类的方法及装置，用于实现文本分类，简化分类操作，并提高文本分类...

【技术保护点】
１．一种文本分类的方法，其特征在于，包括以下步骤：对获得的文本内容进行分词，得到多个词汇；针对得到的多个词汇中的一个词汇，确定该词汇在球面空间模型中的词汇向量，其中球面空间的维度等于类目的个数，类目对应球面空间中的一个类目向量；针对每个类目，确定得到的多个词汇的词汇向量之和到该类目的类目向量的距离；将文本分入最短距离对应的类目。

【技术特征摘要】

【专利技术属性】
技术研发人员：孙翔，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：KY[开曼群岛]

全部详细技术资料下载我是这个专利的主人