【技术实现步骤摘要】
本专利技术涉及文本挖掘
,尤其涉及一种文本分类方法及装置。
技术介绍
在线论坛是当代网络生活的典型参与方式之一,随着帖子数量的增多,越来越需 要一种机制将发布的帖子分门别类,既方便论坛内容管理,又大大方便用户选择感兴趣的 主题贴。目前很多论坛都有分类功能,但大部分是依靠用户在发布帖子时选择类别或提供 标签,这种方式存在的问题是,很多用户并不愿意主动选择类别或提供标签,另外也有用户 为了提高帖子阅读量,故意提供很多无关标签。基于上述问题,需要对在线论坛的帖子进行文本分类,文本分类(Text Classification、Text Categorization)是指按照一定算法,对用文字表示的文档赋予一 个或多个预先定义的类别名称的过程。对每个文本只指定一个类别称“硬分类”,指定多个 类别则为“软分类”,若不加说明以下均指硬分类。现有的分类包括基于规则的分类和基于 统计学习两大类。而由于在线论坛的帖子大部分帖子比较短,其特点是特征数少、用词不规 范、大量省略类别相关的背景知识等,这类帖子往往不具备统计信息,不能使用基于统计学 习的分类。因此一般使用基于规则的 ...
【技术保护点】
一种文本分类方法,其特征在于,包括:对待分类文本进行分句,对每个句子进行依存句法分析,抽取出所有依存对作为抽取的决策单元;从知识库检索所述抽取的决策单元所属的类别,所述知识库中存储有作为分类依据的决策单元及所属的类别及权值;按类别累加所述抽取的决策单元权值之和;将所述权值之和最大的类别作为待分类文本的类别。
【技术特征摘要】
【专利技术属性】
技术研发人员:张翼,陈儒,王震,高立琦,刘桂平,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。