一种文本分类方法及装置制造方法及图纸

技术编号:3851900 阅读:174 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例涉及通信领域一种文本分类方法,对待分类文本进行分句,对每个句子进行依存句法分析,抽取出所有依存对作为抽取的决策单元;从知识库检索所述抽取的决策单元所属的类别;所述知识库中存储有作为分类依据的决策单元及所属的类别及权值;按类别累加所述抽取的决策单元权值之和;将所述权值之和最大的类别作为待分类文本的类别。本发明专利技术实施例还提供一种对应的文本分类装置。本发明专利技术实施例提供的文本分类方法及装置分类精确度高,冗余度小,且能够利用句法距离有效的进行冲突消解。

【技术实现步骤摘要】

本专利技术涉及文本挖掘
,尤其涉及一种文本分类方法及装置
技术介绍
在线论坛是当代网络生活的典型参与方式之一,随着帖子数量的增多,越来越需 要一种机制将发布的帖子分门别类,既方便论坛内容管理,又大大方便用户选择感兴趣的 主题贴。目前很多论坛都有分类功能,但大部分是依靠用户在发布帖子时选择类别或提供 标签,这种方式存在的问题是,很多用户并不愿意主动选择类别或提供标签,另外也有用户 为了提高帖子阅读量,故意提供很多无关标签。基于上述问题,需要对在线论坛的帖子进行文本分类,文本分类(Text Classification、Text Categorization)是指按照一定算法,对用文字表示的文档赋予一 个或多个预先定义的类别名称的过程。对每个文本只指定一个类别称“硬分类”,指定多个 类别则为“软分类”,若不加说明以下均指硬分类。现有的分类包括基于规则的分类和基于 统计学习两大类。而由于在线论坛的帖子大部分帖子比较短,其特点是特征数少、用词不规 范、大量省略类别相关的背景知识等,这类帖子往往不具备统计信息,不能使用基于统计学 习的分类。因此一般使用基于规则的分类算法。基于规则的本文档来自技高网...

【技术保护点】
一种文本分类方法,其特征在于,包括:对待分类文本进行分句,对每个句子进行依存句法分析,抽取出所有依存对作为抽取的决策单元;从知识库检索所述抽取的决策单元所属的类别,所述知识库中存储有作为分类依据的决策单元及所属的类别及权值;按类别累加所述抽取的决策单元权值之和;将所述权值之和最大的类别作为待分类文本的类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:张翼陈儒王震高立琦刘桂平
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1