一种文档分类方法及装置制造方法及图纸

技术编号:9667953 阅读:105 留言:0更新日期:2014-02-14 06:26
本发明专利技术公开了一种文档分类方法及装置。一种文档分类方法包括以下步骤:提取目标文档的特征文本,利用所述特征文本构成搜索条件;利用所述搜索条件进行搜索,得到相应的搜索结果;计算所述目标文档与搜索结果的文本相似度;根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。本发明专利技术方案基于文本之间的相似性,利用已有的文档分类信息对新文档进行分类,由于文本内容相似的文档属于相同分类的概率很大,因此通过对与当前文本内容相似的文本所属类别进行统计,可以得到置信度较高的分类结果。

【技术实现步骤摘要】
一种文档分类方法及装置
本专利技术涉及计算机应用
,特别是涉及一种文档分类方法及装置。
技术介绍
随着互联网技术的发展,互联网上的信息量呈爆炸式增长。为了更好地应用这些信息,需要对这些信息数据进行有效的管理。其中,文档分类(document classification)是目前应用较为广泛的一种管理技术。文档分类是指按照根据文档的内容或某种属性,对文档集合中的每一个文档确定一个类别。这样,用户不但能够方便地在特定的类别浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。对于海量的文档资源,采用完全人工的分类方法进行分类显然是不现实的。目前,在一些UGC (User Generated Content,用户生成内容)平台上,常用的文档分类方法是让用户直接参与分类,具体方案是,平台侧的管理人员预先建立一套分类体系,当用户上传或浏览文档时,要求用户自行选择当前文档的分类。这种方式的缺点在于:要求用户完全理解分类体系才能提供准确的分类信息,这提高了用户的操作成本,而且在实际应用中,有些用户并不会认真提供分类信息,系统侧又无法辨识这一状况,这样反而对分类系统的准确性造成影响。目前另一种常用文档分类方法是:基于有监督学习的方案,人工构建语料、训练分类模型,然后利用分类模型对海量的文档进行分类。采用这种方案,提升文档分类系统性能的一个有效途径是收集高质量标注语料作为分类依据。目前,语料的收集工作,主要采用的方式是随机抽取一定数量的样本、然后由人工对样本进行标注,抽取样本的数量将直接影响文档分类性能。然而在实际应用中,出于人力成本的考虑,选取的标注样本规模往往也会受到限制,从而导致分类特征提取不准确,在一定程度上会影响分类的效果。另一方面,面对信息的快速更新,标注语料也应该相应进行更新以保证分类效果,但是要持续获得标注语料,同样需要消耗大量的人力成本。
技术实现思路
为解决上述技术问题,本专利技术实施例提供一种文档分类方法及装置,以解决/以实现,技术方案如下:一种文档分类方法,其特征在于,包括:提取目标文档的特征文本,利用所述特征文本构成搜索条件;利用所述搜索条件进行搜索,得到相应的搜索结果;计算所述目标文档与搜索结果的文本相似度;根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。根据本专利技术的一种【具体实施方式】,所述提取目标文档的特征文本,利用所述特征文本构成搜索条件,包括:提取目标文档的标题作为搜索关键词。根据本专利技术的一种【具体实施方式】,所述计算所述目标文档与搜索结果的文本相似度,包括:计算所述目标文档标题与搜索结果标题的文本相似度。根据本专利技术的一种【具体实施方式】,所述计算所述目标文档与搜索结果的文本相似度,包括:计算所述目标文档与排名前N位搜索结果的文本相似度,其中N为预设的正整数。根据本专利技术的一种【具体实施方式】,所述根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果,包括:计算各个类别搜索结果对应的相似度之和,将相似度之和最高的搜索结果的所属类别,确定为所述目标文档的类别。根据本专利技术的一种【具体实施方式】,所述根据计算得到的文本相似度以及搜索结果的分类信息,确定所述目标文档的分类结果,包括:计算各个类别搜索结果对应的相似度之和,根据计算结果得到所述目标文档属于各个类别的概率。根据本专利技术的一种【具体实施方式】,该方法还包括:利用所得到的文档分类结果作为语料,训练文档自动分类模型;或利用所得到的文档分类结果作为语料,对已有的文档自动分类模型进行修正。根据本专利技术的一种【具体实施方式】,该方法还包括:将所得到的文档分类结果发送给用户,供用户选择或修改。本专利技术实施例还提供一种文档分类装置,包括:特征提取单元,用于提取目标文档的特征文本,利用所述特征文本构成搜索条件;搜索单元,用于利用所述搜索条件进行搜索,得到相应的搜索结果;相似度计算单元,用于计算所述目标文档与搜索结果的文本相似度;分类单元,用于根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。根据本专利技术的一种【具体实施方式】,所述特征提取单元,具体用于:提取目标文档的标题作为搜索关键词。根据本专利技术的一种【具体实施方式】,所述相似度计算单元,具体用于:计算所述目标文档标题与搜索结果标题的文本相似度。根据本专利技术的一种【具体实施方式】,所述相似度计算单元,具体用于:计算所述目标文档与排名前N位搜索结果的文本相似度,其中N为预设的正整数。根据本专利技术的一种【具体实施方式】,所述分类单元,具体用于:计算各个类别搜索结果对应的相似度之和,将相似度之和最高的搜索结果的所属类别,确定为所述目标文档的类别。根据本专利技术的一种【具体实施方式】,所述分类单元,具体用于:计算各个类别搜索结果对应的相似度之和,根据计算结果得到所述目标文档属于各个类别的概率。根据本专利技术的一种【具体实施方式】,该装置还包括分类模型管理单元,用于利用所得到的文档分类结果作为语料,训练文档自动分类模型;或利用所得到的文档分类结果作为语料,对已有的文档自动分类模型进行修正。根据本专利技术的一种【具体实施方式】,该装置还包括:分类结果反馈单元,用于将所得到的文档分类结果发送给用户,供用户选择或修改。本专利技术实施例所提供的技术方案,基于文本之间的相似性,利用已有的文档分类信息对新文档进行分类,由于文本内容相似的文档属于相同分类的概率很大,因此通过对与当前文本内容相似的文本所属类别进行统计,可以得到置信度较高的分类结果。应用本专利技术实施例所提供的技术方案,既不需要用户参与,也不需要消耗系统侧的人力成本,分类结果不会受到人为因素的影响。此外,如果进一步利用本专利技术的分类结果作为依据训练分类模型,也能够有效提升分类模型的适应性,从而可以在不增加系统侧人力成本的情况下,使模型分类系统的分类性能得到持续的提升。【附图说明】为了更清楚地说 明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本专利技术实施例文档分类方法的一种流程图;图2为本专利技术实施例文档分类装置的一种结构示意图;图3为本专利技术实施例文档分类装置的第二种结构示意图。【具体实施方式】首先对本专利技术实施例所提供的一种文档分类方法进行说明,该方法可以包括以下步骤:提取目标文档的特征文本,利用所述特征文本构成搜索条件;利用所述搜索条件进行搜索,得到相应的搜索结果;计算所述目标文档与搜索结果的文本相似度;根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。本专利技术实施例方案基于这样一种实现前提:当前已经具有一些文档(文档可以位于应用平台内部或外部),这些文档本身已经被分类,即具有置信度较高的分类信息。那么,对于待分类的目标文档A,如果可以找到和A具有相同或相似内容的已分类文档B1、B2、…Bn,就可以根据文档B1、B2、…Bn的所属类别,确定文档A的所属类别。本专利技术实施例方案,可以适用于各种具有文档文类需求的应用环境。其中的文档也可以表现为多种形式,例如文库平台中的TXT、DOC、PDF等形式的文本文档来自技高网
...
一种文档分类方法及装置

【技术保护点】
一种文档分类方法,其特征在于,包括:提取目标文档的特征文本,利用所述特征文本构成搜索条件;利用所述搜索条件进行搜索,得到相应的搜索结果;计算所述目标文档与搜索结果的文本相似度;根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。

【技术特征摘要】
1.一种文档分类方法,其特征在于,包括: 提取目标文档的特征文本,利用所述特征文本构成搜索条件; 利用所述搜索条件进行搜索,得到相应的搜索结果; 计算所述目标文档与搜索结果的文本相似度; 根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果O2.根据权利要求1所述的方法,其特征在于,所述提取目标文档的特征文本,利用所述特征文本构成搜索条件,包括: 提取目标文档的标题作为搜索关键词。3.根据权利要求1所述的方法,其特征在于,所述计算所述目标文档与搜索结果的文本相似度,包括: 计算所述目标文档标题与搜索结果标题的文本相似度。4.根据权利要求1所述的方法,其特征在于,所述计算所述目标文档与搜索结果的文本相似度,包括: 计算所述目标文档与排名前N位搜索结果的文本相似度,其中N为预设的正整数。5.根据权利要求1所述的方法,其特征在于,所述根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果,包括: 计算各个类别搜索结果对应的相似度之和,将相似度之和最高的搜索结果的所属类另IJ,确定为所述目标文档的类别。6.根据权利要求1所述的方法,其特征在于,所述根据计算得到的文本相似度以及搜索结果的分类信息,确定所述目标文档的分类结果,包括: 计算各个类别搜索结果对应的相似度之和,根据计算结果得到所述目标文档属于各个类别的概率。7.根据权利要求1所述的方法,其特征在于,该方法还包括: 利用所得到的文档分类结果作为语料,训练文档自动分类模型; 或 利用所得到的文档分类结果作为语料,对已有的文档自动分类模型进行修正。8.根据权利要求1所述的方法,其特征在于,该方法还包括: 将所得到的文档...

【专利技术属性】
技术研发人员:徐兴军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1