对文档进行分类的方法及装置制造方法及图纸

技术编号:3844693 阅读:363 留言:0更新日期:2012-04-11 18:40
本发明专利技术实施例提供了一种对文档进行分类的方法及装置。该方法主要包括:基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得所述待分类文档的词语聚类结果和知识信息聚类结果。然后,将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组或者与所述知识信息聚类结果进行相似度计算,根据所述相似度计算的结果对所述待分类文档进行分类。本发明专利技术实施例通过基于知识监督的协同聚类算法和相似度计算方法,完成待分类文挡的分类过程,从而避开了传统的分类方法中的人工标注大规模的训练语料数据的环节。

【技术实现步骤摘要】

本专利技术实施例涉及信息
,尤其涉及一种对文档进行分类的方法及装置
技术介绍
随着互联网的快速发展,互联网上出现了海量的、异质的Web (网络)信息资源,其 中Web文本信息占了主要地位。如何从庞大的web文本信息中获得高质量的准确信息,并 有效地加以利用已经成为一个重要的研究课题。Web文本分类技术作为web信息挖掘的关 键部分得到了人们的广泛关注。web文本分类技术带来的各种应用已经广泛到应用到多个领域,比如新闻出版 按照栏目分类,实现通过新闻内容自动对新闻分类,如政治、体育、军事、...;通过对用户 的网页浏览历史记录分类获得用户的兴趣爱好,实现个性化新闻推荐、个性化广告等相关 个性化推荐;对邮件内容进行分析归类实现垃圾邮件的过滤。现有技术中的第一种对文档进行分类的方法为采用相似度模型、概率模型、线性 模型、非线性模型和组合模型等模型的传统分类方法。该传统分类方法需要人工标注大量 训练语料,人工标注的训练语料的优劣直接影响到分类器的性能指标。人工标注训练语料 指通过人为判断整理得到属于某个类的文档集合。通过人工标注的大量训练语料来训练分 类器模型,当分类器模型训练好后,就可以用分类器模型对待分类文档进行文本分类了。在实现本专利技术过程中,专利技术人发现上述现有技术中的第一种对文档进行分类的方 法中至少存在如下问题训练语料的获取需要大量的专业领域的人工整理和收集工作,在很大程度上提高 了文本分类的成本。现有技术中用提前收集整理的训练语料得到的分类器很难对新生事物进行正确 的分类,该方法分类的成本和投入较高,效率不高。
技术实现思路
本专利技术的实施例提供了一种对文档进行分类的方法及装置,以提高文档分类的效率。一种对文档进行分类的方法,包括基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和 词语集合执行协同聚类处理,获得知识信息聚类结果和所述待分类文档的词语聚类结果;将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组 进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类结果与所述知识 信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结果或第二计算结 果对所述待分类文档进行分类。一种对文档进行分类的装置,包括协同聚类处理模块,用于基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得知识信息聚类结果和所述待分 类文档的词语聚类结果;基于相似度的分类处理模块,用于将所述待分类文档的词语聚类结果与所述待分 类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类 文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据 所述第一计算结果或第二计算结果对所述待分类文档进行分类。一种网络系统,包括至少一个计算机和至少一个服务器,所述计算机和服务器中 至少有一个所述的对文档进行分类的装置。由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例通过基于知识监 督的协同聚类算法和相似度计算方法,完成待分类文挡的分类过程,提高了文档分类的效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。图1为本专利技术实施例一提供的对文本信息进行分类的方法的实现原理示意图;图2为本专利技术实施例一提供的对文本信息进行分类的方法的具体处理流程图;图3为本专利技术实施例提供的对文本信息进行分类的装置的具体实现结构图;图4为本专利技术实施例提供的一种网络系统的结构示意图。具体实施例方式在本专利技术实施例中,基于待分类文档的各个目标类对应的知识信息,对所述待分 类文档的文本信息和词语集合执行协同聚类处理,获得所述待分类文档的词语聚类结果和 知识信息聚类结果。之后,将所述待分类文档的词语聚类结果与所述待分类文档的各个目 标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类 结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结 果或第二计算结果对所述待分类文档进行分类。进一步地,确定待分类文档的类别体系,该类别体系中包括各个目标类和相应的 子类,并定义各个目标类的关键词组;通过各个目标类的关键词组,搜索获取知识数据库中能够描述各个目标类的纯文 本的知识信息,将所述知识信息和相应的目标类进行关联存储。进一步地,实时地从互联网中获取网页和文档信息,对所述网页和文档信息进行 解析,将解析后获取的纯文本的数据信息存放在知识数据库中。进一步地,对待分类文档的内容进行解析,获得待分类文档的文本信息,对该文本 信息进行分词、去停用词、去生僻词的处理后,获得待分类文档的词语集合。进一步地,对所述文本信息和词语集合进行协同聚类处理,并对所述知识信息和 所述词语集合执行协同聚类处理;6计算基于知识信息的所述文本信息和词语集合的协同聚类互信息损失,当判断所 述协同聚类互信息损失不是最小时,则继续对所述文本信息和词语集合、知识信息和词语 集合执行协同聚类处理,并继续判断所述协同聚类互信息损失是不是最小;当判断所述协 同聚类互信息损失为最小时,则输出最优的待分类文档的词语集合和文本聚类结果,并输 出知识信息聚类结果。进一步地,取出所述词语聚类结果中的文本簇,将该文本簇分别与所述待分类文 档的每个目标类的关键词组进行相似度计算,将最高的相似度值对应的目标类作为所述文 本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分类,从而完成所述待分 类文挡的分类;或者,取出所述词语聚类结果中的文本簇,将该文本簇分别与所述知识信息聚类结果中 的每个目标类的文本簇进行相似度计算,将最高的相似度值对应的所述知识信息聚类结果 中的目标类作为所述文本簇的分类结果;依次将所述词语聚类结果中的每个文本簇进行分 类,从而完成所述待分类文挡的分类。为便于对本专利技术实施例的理解,下面将结合附图以几个具体实施例为例做进一步 的解释说明,且各个实施例并不构成对本专利技术实施例的限定。实施例一该实施例提供的对文档进行分类的方法的实现原理示意图如图1所示,具体处理 流程如图2所示,包括如下处理步骤步骤21 确定文档分类的类别体系,定义描述类别体系中的各个目标类的关键词组。首先确定文档分类的类别体系,该类别体系中包括所有目标类和相应的子类。上 述类别体系可以是一个树状多层分类体系,其中包括多个节点(对应目标类),每个节点可 以划分为多个子节点(对应子类)。如“体育类”_>“球类” _>篮球;“体育类”-> “田 径,,->“110 米栏,,。然后,定义描述上述类别体系中所有目标类的关键词组,定义关键词组需要尽可 能从多个方面、多个领域、多个角度来对目标类进行相应地描述。例如“体育”类的关键词组可以定义为“足球、篮球、乒乓球、110米栏、F1、花样游泳......”等体育项目,也还可以定义为“世锦赛、世界杯、黄金联赛......,,等体育赛事,也还可以定义为“梅开二度、帽子戏法、乌龙球、本垒本文档来自技高网...

【技术保护点】
一种对文档进行分类的方法,其特征在于,包括:基于待分类文档的各个目标类对应的知识信息,对所述待分类文档的文本信息和词语集合进行协同聚类处理,获得知识信息聚类结果和所述待分类文档的词语聚类结果;将所述待分类文档的词语聚类结果与所述待分类文档的各个目标类的关键词组进行相似度计算,得到第一计算结果;或者,将所述待分类文档的词语聚类结果与所述知识信息聚类结果进行相似度计算,得到第二计算结果;根据所述第一计算结果或第二计算结果对所述待分类文档进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:薛贵荣刘存伟黄西华万嘉陆元飞
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1