一种文档分类方法及装置制造方法及图纸

技术编号：9667953 阅读：128 留言：0更新日期：2014-02-14 06:26

本发明专利技术公开了一种文档分类方法及装置。一种文档分类方法包括以下步骤：提取目标文档的特征文本，利用所述特征文本构成搜索条件；利用所述搜索条件进行搜索，得到相应的搜索结果；计算所述目标文档与搜索结果的文本相似度；根据计算得到的文本相似度以及搜索结果的分类信息，得到所述目标文档的分类结果。本发明专利技术方案基于文本之间的相似性，利用已有的文档分类信息对新文档进行分类，由于文本内容相似的文档属于相同分类的概率很大，因此通过对与当前文本内容相似的文本所属类别进行统计，可以得到置信度较高的分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档分类方法及装置
本专利技术涉及计算机应用
，特别是涉及一种文档分类方法及装置。
技术介绍
随着互联网技术的发展，互联网上的信息量呈爆炸式增长。为了更好地应用这些信息，需要对这些信息数据进行有效的管理。其中，文档分类(document classification)是目前应用较为广泛的一种管理技术。文档分类是指按照根据文档的内容或某种属性，对文档集合中的每一个文档确定一个类别。这样，用户不但能够方便地在特定的类别浏览文档，而且可以通过限制搜索范围来使文档的查找更为容易。对于海量的文档资源，采用完全人工的分类方法进行分类显然是不现实的。目前，在一些UGC (User Generated Content,用户生成内容)平台上,常用的文档分类方法是让用户直接参与分类，具体方案是，平台侧的管理人员预先建立一套分类体系，当用户上传或浏览文档时，要求用户自行选择当前文档的分类。这种方式的缺点在于:要求用户完全理解分类体系才能提供准确的分类信息，这提高了用户的操作成本，而且在实际应用中，有些用户并不会认真提供分类信息，系统侧又无法辨识这一状况，这样反而对...
一种文档分类方法及装置

【技术保护点】
一种文档分类方法，其特征在于，包括：提取目标文档的特征文本，利用所述特征文本构成搜索条件；利用所述搜索条件进行搜索，得到相应的搜索结果；计算所述目标文档与搜索结果的文本相似度；根据计算得到的文本相似度以及搜索结果的分类信息，得到所述目标文档的分类结果。

【技术特征摘要】
1.一种文档分类方法，其特征在于，包括: 提取目标文档的特征文本，利用所述特征文本构成搜索条件；利用所述搜索条件进行搜索，得到相应的搜索结果；计算所述目标文档与搜索结果的文本相似度；根据计算得到的文本相似度以及搜索结果的分类信息，得到所述目标文档的分类结果O2.根据权利要求1所述的方法，其特征在于，所述提取目标文档的特征文本，利用所述特征文本构成搜索条件,包括: 提取目标文档的标题作为搜索关键词。3.根据权利要求1所述的方法，其特征在于，所述计算所述目标文档与搜索结果的文本相似度，包括: 计算所述目标文档标题与搜索结果标题的文本相似度。4.根据权利要求1所述的方法，其特征在于，所述计算所述目标文档与搜索结果的文本相似度，包括: 计算所述目标文档与排名前N位搜索结果的文本相似度，其中N为预设的正整数。5.根据权利要求1所述的方法，其特征在于，所述根据计算得到的文本相似度以及搜索结果的分类信息，得到所述目标文档的分类结果，包括: 计算各个类别搜索结果对应的相似度之和，将相似度之和最高的搜索结果的所属类另IJ，确定为所述目标文档的类别。6.根据权利要求1所述的方法，其特征在于，所述根据计算得到的文本相似度以及搜索结果的分类信息，确定所述目标文档的分类结果，包括: 计算各个类别搜索结果对应的相似度之和，根据计算结果得到所述目标文档属于各个类别的概率。7.根据权利要求1所述的方法，其特征在于，该方法还包括: 利用所得到的文档分类结果作为语料，训练文档自动分类模型；或利用所得到的文档分类结果作为语料，对已有的文档自动分类模型进行修正。8.根据权利要求1所述的方法，其特征在于，该方法还包括: 将所得到的文档...

【专利技术属性】
技术研发人员：徐兴军，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人