【技术实现步骤摘要】
一种文档分类方法及装置
本专利技术涉及计算机应用
,特别是涉及一种文档分类方法及装置。
技术介绍
随着互联网技术的发展,互联网上的信息量呈爆炸式增长。为了更好地应用这些信息,需要对这些信息数据进行有效的管理。其中,文档分类(document classification)是目前应用较为广泛的一种管理技术。文档分类是指按照根据文档的内容或某种属性,对文档集合中的每一个文档确定一个类别。这样,用户不但能够方便地在特定的类别浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。对于海量的文档资源,采用完全人工的分类方法进行分类显然是不现实的。目前,在一些UGC (User Generated Content,用户生成内容)平台上,常用的文档分类方法是让用户直接参与分类,具体方案是,平台侧的管理人员预先建立一套分类体系,当用户上传或浏览文档时,要求用户自行选择当前文档的分类。这种方式的缺点在于:要求用户完全理解分类体系才能提供准确的分类信息,这提高了用户的操作成本,而且在实际应用中,有些用户并不会认真提供分类信息,系统侧又无法辨识这一状况,这样反而对 ...
【技术保护点】
一种文档分类方法,其特征在于,包括:提取目标文档的特征文本,利用所述特征文本构成搜索条件;利用所述搜索条件进行搜索,得到相应的搜索结果;计算所述目标文档与搜索结果的文本相似度;根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果。
【技术特征摘要】
1.一种文档分类方法,其特征在于,包括: 提取目标文档的特征文本,利用所述特征文本构成搜索条件; 利用所述搜索条件进行搜索,得到相应的搜索结果; 计算所述目标文档与搜索结果的文本相似度; 根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果O2.根据权利要求1所述的方法,其特征在于,所述提取目标文档的特征文本,利用所述特征文本构成搜索条件,包括: 提取目标文档的标题作为搜索关键词。3.根据权利要求1所述的方法,其特征在于,所述计算所述目标文档与搜索结果的文本相似度,包括: 计算所述目标文档标题与搜索结果标题的文本相似度。4.根据权利要求1所述的方法,其特征在于,所述计算所述目标文档与搜索结果的文本相似度,包括: 计算所述目标文档与排名前N位搜索结果的文本相似度,其中N为预设的正整数。5.根据权利要求1所述的方法,其特征在于,所述根据计算得到的文本相似度以及搜索结果的分类信息,得到所述目标文档的分类结果,包括: 计算各个类别搜索结果对应的相似度之和,将相似度之和最高的搜索结果的所属类另IJ,确定为所述目标文档的类别。6.根据权利要求1所述的方法,其特征在于,所述根据计算得到的文本相似度以及搜索结果的分类信息,确定所述目标文档的分类结果,包括: 计算各个类别搜索结果对应的相似度之和,根据计算结果得到所述目标文档属于各个类别的概率。7.根据权利要求1所述的方法,其特征在于,该方法还包括: 利用所得到的文档分类结果作为语料,训练文档自动分类模型; 或 利用所得到的文档分类结果作为语料,对已有的文档自动分类模型进行修正。8.根据权利要求1所述的方法,其特征在于,该方法还包括: 将所得到的文档...
【专利技术属性】
技术研发人员:徐兴军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。